Dans quelles sources de données viennent piocher les IA ?

EXPLORE

Society & Culture

© 2024 PodJoint

https://is1-ssl.mzstatic.com/image/thumb/Podcasts211/v4/52/bf/1e/52bf1e90-cf05-39e6-e011-d13cdb2f1946/mza_13167109048186810978.jpeg/600x600bb.jpg

Choses à Savoir TECH

Choses à Savoir

1187 episodes

4 days ago

Tout ce qu'il faut savoir dans le domaine de la Tech et d'Internet.

Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Show more...

All content for Choses à Savoir TECH is the property of Choses à Savoir and is served directly from their servers with no modification, redirects, or rehosting. The podcast is not affiliated with or endorsed by Podjoint in any way.

Tout ce qu'il faut savoir dans le domaine de la Tech et d'Internet.

Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Show more...

https://assets.pippa.io/shows/660681b953b2df00165f1c32/1755258966995-09695354-fafc-47f1-bbdd-7d6b8c7c4ac2.jpeg

Dans quelles sources de données viennent piocher les IA ?

Choses à Savoir TECH

2 minutes 8 seconds

4 days ago

Dans quelles sources de données viennent piocher les IA ?

Si ChatGPT, Gemini ou encore Grok progressent aussi vite, c’est en grande partie grâce à un ingrédient-clé : les données massives disponibles sur Internet. Et désormais, on sait un peu mieux d’où elles proviennent. Une infographie publiée par Statista a analysé les réponses fournies par ChatGPT, Perplexity, AI Overviews et le mode IA de Google pour déterminer quelles sources ces intelligences artificielles exploitent le plus.

En tête du classement, surprise : Reddit apparaît dans 40 % des réponses, loin devant Wikipedia (26,3 %), YouTube (23,5 %) et même Google (23,3 %). Autrement dit, le savoir collectif et les discussions informelles des internautes sont au cœur de l’entraînement des IA. Des plateformes comme Yelp, Tripadvisor ou Facebook fournissent aussi des données précieuses… et gratuites. C’est là que le débat s’ouvre : combien de temps encore ces trésors de contenu généré par les utilisateurs resteront-ils exploitables librement ? Déjà, les ayants droit peinent à faire respecter leur propriété intellectuelle. Et pour le contenu du domaine public, la récolte continue, sans que ses auteurs touchent quoi que ce soit.

Exemple parlant : depuis juin, Meta utilise vos données personnelles pour entraîner son IA, Meta AI, sauf si vous vous y êtes formellement opposé. Tout ce que vous publiez ou commentez sur Facebook, Instagram, WhatsApp ou Messenger entre dans ses bases d’apprentissage. Pour l’instant, Meta AI est optimisée pour le public américain, mais la firme veut adapter son outil aux usages et à la culture européenne. En clair, vos interactions en ligne pourraient bientôt façonner un modèle pensé pour mieux répondre… à vous. Derrière la magie des réponses fluides et “intelligentes” des IA, il y a donc un constat simple : elles se construisent sur nos traces numériques, offertes souvent sans que nous en mesurions vraiment la valeur.

Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.