Home
Categories
EXPLORE
True Crime
Comedy
Society & Culture
Business
Sports
TV & Film
Health & Fitness
About Us
Contact Us
Copyright
© 2024 PodJoint
00:00 / 00:00
Sign in

or

Don't have an account?
Sign up
Forgot password
https://is1-ssl.mzstatic.com/image/thumb/Podcasts221/v4/b8/c1/b3/b8c1b310-cc79-31cd-35bd-2eef8d1c0244/mza_11940653400916875885.jpg/600x600bb.jpg
Altruismo Eficaz
Tlön
131 episodes
2 weeks ago
Repositorio exhaustivo de lecturas sobre altruismo eficaz, riesgo existencial e investigación sobre prioridades globales.
Show more...
Philosophy
Education,
Society & Culture
RSS
All content for Altruismo Eficaz is the property of Tlön and is served directly from their servers with no modification, redirects, or rehosting. The podcast is not affiliated with or endorsed by Podjoint in any way.
Repositorio exhaustivo de lecturas sobre altruismo eficaz, riesgo existencial e investigación sobre prioridades globales.
Show more...
Philosophy
Education,
Society & Culture
https://img.transistor.fm/nHYrPbFXCwa86bpf1qDKkfF8wwVVYC49DF1XUYWyeBk/rs:fill:0:0:1/w:1400/h:1400/q:60/mb:500000/aHR0cHM6Ly9pbWct/dXBsb2FkLXByb2R1/Y3Rpb24udHJhbnNp/c3Rvci5mbS9lYzRm/NjU5OGQ2ZmFmN2I5/YmY2OTJhZTcxNDk0/NzlmMC53ZWJw.jpg
La interpretabilidad no detectará la IA engañosa de forma fiable
Altruismo Eficaz
21 minutes
5 months ago
La interpretabilidad no detectará la IA engañosa de forma fiable
No creo que vayamos a producir métodos de alta fiabilidad para evaluar o supervisar la seguridad de los sistemas superinteligentes mediante los paradigmas de investigación actuales, ya sea mediante la interpretabilidad o por otras vías. La interpretabilidad sigue pareciendo una herramienta valiosa y merece la pena seguir invirtiendo en ella, ya que es de esperar que aumente la fiabilidad que podemos alcanzar. Sin embargo, la interpretabilidad debe considerarse parte de un conjunto global de defensas: una capa en una estrategia de defensa en profundidad. No es lo único que nos salvará, y seguirá sin ser suficiente para alcanzar una alta fiabilidad. Tanto la interpretabilidad como los métodos de caja negra se enfrentan a limitaciones fundamentales. Los métodos de interpretabilidad son susceptibles de error, carecen de un punto de referencia fiable para la comparación y se enfrentan a retos a la hora de demostrar la ausencia de engaño. Los métodos de caja negra pueden ser eludidos por sistemas suficientemente inteligentes. A pesar de estas limitaciones, un enfoque pragmático implica desarrollar el mejor conjunto posible de herramientas de supervisión y evaluación. La interpretabilidad puede proporcionar una señal valiosa, aunque sea imperfecta, y puede utilizarse junto con los métodos de caja negra para crear un sistema más sólido. Por ejemplo, la interpretabilidad puede utilizarse para mejorar las evaluaciones de caja negra, manipulando la percepción del modelo sobre si está siendo evaluado. También puede utilizarse para analizar comportamientos anómalos y generar hipótesis que puedan verificarse por otros medios. Aunque una alta fiabilidad pueda ser inalcanzable, maximizar las posibilidades de detectar desalineaciones sigue siendo un objetivo que vale la pena.
Altruismo Eficaz
Repositorio exhaustivo de lecturas sobre altruismo eficaz, riesgo existencial e investigación sobre prioridades globales.