Manipulation des chatbots IA : risques et solutions
Des tests prouvent que les chatbots IA peuvent diffuser de la désinformation provenant de faux sites d'actualités. Deux méthodes sont identifiées : l'empoisonnement des bases d'entraînement et le conditionnement par publication massive de contenus trompeurs. Des cas concrets impliquant Mistral et Anthropic sont cités.
« Common Crawl, l’une des plus grandes archives du web, alimente 60 % de l’entraînement de GPT-3. » — Siecle Digital
Que faut-il retenir ?
- Common Crawl alimente 60 % de l'entraînement de GPT-3.
- Le chatbot de Mistral a régurgité de la désinformation sur le conflit iranien.
- Claude d'Anthropic a diffusé de la désinformation dans 15 % des cas testés.
- Clock Tower X a reçu plusieurs millions de dollars pour manipuler les réponses de ChatGPT.
Pourquoi cette nouvelle compte-t-elle ?
Cette manipulation des chatbots IA pose un risque majeur pour la diffusion de désinformation à grande échelle. Les professionnels de l'IA doivent renforcer les mécanismes de vérification des sources et des données d'entraînement pour préserver l'intégrité des réponses générées.
60 % de l'entraînement de GPT-3 provient de Common Crawl.
💬 Valentin Châtelet et Esteban Ponce de León, chercheurs au laboratoire d’investigation numérique de l’Atlantic Council
Public concerné : développeurs, entreprises
Comment les chatbots IA peuvent-ils être manipulés pour diffuser de la désinformation ?
Deux méthodes principales existent : l'empoisonnement des bases d'entraînement avec des données corrompues et le conditionnement par publication massive de contenus trompeurs en ligne. Ces techniques exploitent les faiblesses des algorithmes pour influencer les réponses des chatbots.