La interpretabilidad no detectará la IA engañosa de forma fiable

https://is1-ssl.mzstatic.com/image/thumb/Podcasts221/v4/b8/c1/b3/b8c1b310-cc79-31cd-35bd-2eef8d1c0244/mza_11940653400916875885.jpg/600x600bb.jpg

Altruismo Eficaz

Tlön

131 episodes

2 weeks ago

Repositorio exhaustivo de lecturas sobre altruismo eficaz, riesgo existencial e investigación sobre prioridades globales.

All content for Altruismo Eficaz is the property of Tlön and is served directly from their servers with no modification, redirects, or rehosting. The podcast is not affiliated with or endorsed by Podjoint in any way.

Repositorio exhaustivo de lecturas sobre altruismo eficaz, riesgo existencial e investigación sobre prioridades globales.

Philosophy

Education,

Society & Culture

https://img.transistor.fm/nHYrPbFXCwa86bpf1qDKkfF8wwVVYC49DF1XUYWyeBk/rs:fill:0:0:1/w:1400/h:1400/q:60/mb:500000/aHR0cHM6Ly9pbWct/dXBsb2FkLXByb2R1/Y3Rpb24udHJhbnNp/c3Rvci5mbS9lYzRm/NjU5OGQ2ZmFmN2I5/YmY2OTJhZTcxNDk0/NzlmMC53ZWJw.jpg

La interpretabilidad no detectará la IA engañosa de forma fiable

Altruismo Eficaz

21 minutes

5 months ago

La interpretabilidad no detectará la IA engañosa de forma fiable

No creo que vayamos a producir métodos de alta fiabilidad para evaluar o supervisar la seguridad de los sistemas superinteligentes mediante los paradigmas de investigación actuales, ya sea mediante la interpretabilidad o por otras vías. La interpretabilidad sigue pareciendo una herramienta valiosa y merece la pena seguir invirtiendo en ella, ya que es de esperar que aumente la fiabilidad que podemos alcanzar. Sin embargo, la interpretabilidad debe considerarse parte de un conjunto global de defensas: una capa en una estrategia de defensa en profundidad. No es lo único que nos salvará, y seguirá sin ser suficiente para alcanzar una alta fiabilidad. Tanto la interpretabilidad como los métodos de caja negra se enfrentan a limitaciones fundamentales. Los métodos de interpretabilidad son susceptibles de error, carecen de un punto de referencia fiable para la comparación y se enfrentan a retos a la hora de demostrar la ausencia de engaño. Los métodos de caja negra pueden ser eludidos por sistemas suficientemente inteligentes. A pesar de estas limitaciones, un enfoque pragmático implica desarrollar el mejor conjunto posible de herramientas de supervisión y evaluación. La interpretabilidad puede proporcionar una señal valiosa, aunque sea imperfecta, y puede utilizarse junto con los métodos de caja negra para crear un sistema más sólido. Por ejemplo, la interpretabilidad puede utilizarse para mejorar las evaluaciones de caja negra, manipulando la percepción del modelo sobre si está siendo evaluado. También puede utilizarse para analizar comportamientos anómalos y generar hipótesis que puedan verificarse por otros medios. Aunque una alta fiabilidad pueda ser inalcanzable, maximizar las posibilidades de detectar desalineaciones sigue siendo un objetivo que vale la pena.