Google a introduit un avertissement sous chaque réponse générée par son intelligence artificielle, précisant que « les réponses de l’IA peuvent contenir des erreurs ». Cependant, la fréquence exacte de ces erreurs reste peu explorée.
Une étude commandée par le New York Times et réalisée par la startup IA Oumi a analysé 4326 requêtes sur Google à l’aide du benchmark SimpleQA. Les tests ont été menés en octobre avec le modèle Gemini 2, puis répétés en février après la mise à jour vers Gemini 3.
Évolution de la précision et défis de vérification
Les résultats indiquent que les réponses de Gemini 2 étaient correctes dans 85% des cas, tandis que Gemini 3 a atteint une précision de 91%. À l’échelle de Google, cela représente encore des millions de réponses potentiellement incorrectes chaque heure.
Oumi a également examiné si les sources fournies confirmaient les réponses. Pour Gemini 2, 37% des réponses correctes étaient « non fondées », c’est-à-dire que les sources ne confirmaient pas complètement l’information. Ce chiffre est passé à 56% avec Gemini 3, rendant souvent impossible la vérification des données avec les sources fournies.
La qualité des sources soulève des questions. Parmi les 5380 sources, Facebook et Reddit étaient respectivement deuxième et quatrième en fréquence d’apparition. Facebook était utilisé dans 5% des réponses correctes et 7% des incorrectes. Google pourrait privilégier des sources moins susceptibles d’entraîner des litiges juridiques.
Exemples d’erreurs persistantes
- Pour une question sur le Hall of Fame de musique classique, Google a trouvé un site mentionnant Yo-Yo Ma, mais a mal informé sur son adhésion.
- A propos d’une rivière à l’ouest de Goldsboro, Caroline du Nord, le système a nommé « Neuse » au lieu de Little River.
- Une question sur le musée Bob Marley a donné une mauvaise année d’ouverture – 1987 au lieu de 1986, tirée de Facebook, d’un blog de voyage et d’une page Wikipédia controversée.
Méthodologie contestée et impact sur le trafic web
Oumi a utilisé le modèle HallOumi pour vérifier les réponses, mais ce système peut lui-même faire des erreurs. De plus, les mêmes requêtes peuvent donner des résultats différents selon le moment.
Ned Adrians, porte-parole de Google, a critiqué l’étude pour ses « importantes lacunes ». SimpleQA est conçu par OpenAI pour traiter des questions complexes où au moins un modèle avait échoué auparavant, ce qui explique un taux d’échec naturellement plus élevé.
Un débat plus large concerne l’impact des réponses IA sur Internet. En fournissant des réponses directes plutôt que de rediriger vers des sites, Google réduit le trafic pour les éditeurs et affecte leur économie. L’Internet ouvert perd son rôle d’information libre au profit d’une interface IA centralisée sous contrôle de Google.
