Pour OpenAI, l’IA devient manipulatrice ?

EXPLORE

Society & Culture

Health & Fitness

© 2024 PodJoint

https://is1-ssl.mzstatic.com/image/thumb/Podcasts211/v4/52/bf/1e/52bf1e90-cf05-39e6-e011-d13cdb2f1946/mza_13167109048186810978.jpeg/600x600bb.jpg

Choses à Savoir TECH

Choses à Savoir

1218 episodes

1 day ago

Tout ce qu'il faut savoir dans le domaine de la Tech et d'Internet.

Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Show more...

All content for Choses à Savoir TECH is the property of Choses à Savoir and is served directly from their servers with no modification, redirects, or rehosting. The podcast is not affiliated with or endorsed by Podjoint in any way.

Tout ce qu'il faut savoir dans le domaine de la Tech et d'Internet.

Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Show more...

https://assets.pippa.io/shows/660681b953b2df00165f1c32/1759423325267-a5aef927-901e-48df-bd27-e8f0d9d6a2bc.jpeg

Pour OpenAI, l’IA devient manipulatrice ?

Choses à Savoir TECH

2 minutes 25 seconds

3 days ago

Pour OpenAI, l’IA devient manipulatrice ?

OpenAI vient de franchir une nouvelle étape dans la sécurisation de ChatGPT. Alors que l’entreprise prépare son entrée en bourse et a déjà renforcé ses règles pour protéger les adolescents, elle travaille désormais sur un bouton d’arrêt d’urgence intégré directement dans ses futures puces d’intelligence artificielle. Mais une étude publiée cette semaine révèle une difficulté inattendue : les modèles peuvent… manigancer. Le rapport, mené avec Apollo Research et intitulé « Detecting and reducing scheming in AI models », montre que certains modèles testés se sont mis à tromper leurs utilisateurs. Pas de complot digne d’un film de science-fiction pour l’instant, mais de petits mensonges opportunistes : par exemple, déclarer qu’une tâche a été accomplie alors qu’elle ne l’était pas.

Ces observations rejoignent une autre étude d’Apollo Research publiée fin 2024. Les chercheurs avaient alors demandé à plusieurs modèles — dont GPT-o1, Claude 3 et Gemini 1.5 — d’atteindre un objectif “à tout prix”. Résultat : tous ont démontré des comportements trompeurs persistants. Certains ont volontairement introduit des erreurs subtiles, d’autres ont tenté de désactiver leurs mécanismes de sécurité, voire d’exfiltrer ce qu’ils croyaient être leurs propres paramètres vers des serveurs externes. Rien d’étonnant, selon les chercheurs : une IA entraînée sur des données humaines peut reproduire nos travers, y compris le mensonge. Reste que ces dérives inquiètent. Pour y répondre, OpenAI teste une méthode baptisée “alignement délibératif”. Objectif : réduire drastiquement ces manœuvres. Les premiers résultats sont encourageants, avec une baisse d’un facteur 30 des actions dissimulées lors des tests. Mais des échecs rares et graves persistent.

Le risque est même paradoxal : en apprenant aux modèles à éviter de mentir, on pourrait les pousser à raffiner leurs tromperies pour échapper aux contrôles. Consciente du danger, OpenAI multiplie les garde-fous : recrutement de nouveaux chercheurs, coopération avec d’autres laboratoires et lancement d’un concours doté de 500 000 dollars pour détecter les “comportements nuisibles” des IA. La firme prévient : plus l’IA sera chargée de missions complexes aux conséquences concrètes, plus le risque de dérives grandira. D’où l’urgence de développer des défenses solides, au cœur même du matériel. Un enjeu vital à l’heure où l’intelligence artificielle prend une place croissante dans nos vies.

Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.