Un récent modèle d’intelligence artificielle de Google a obtenu des résultats inférieurs à son prédécesseur lors de certains tests de sécurité, selon les évaluations internes de l’entreprise.
D’après un rapport technique publié cette semaine, le modèle Gemini 2.5 Flash de Google génère plus fréquemment des contenus qui enfreignent les directives de sécurité que Gemini 2.0 Flash. Sur deux métriques spécifiques, « la sécurité texte à texte » et « la sécurité image à texte », Gemini 2.5 Flash régresse respectivement de 4,1% et 9,6%.
La sécurité texte à texte mesure la fréquence à laquelle un modèle enfreint les directives de Google face à une requête textuelle, tandis que la sécurité image à texte évalue dans quelle mesure le modèle respecte ces limites lorsqu’il est sollicité par une image. Ces tests sont automatisés et non supervisés par des humains.
Un porte-parole de Google a confirmé par courriel que Gemini 2.5 Flash « présente des performances inférieures en matière de sécurité texte à texte et image à texte ».
Ces résultats surprenants surviennent alors que les entreprises d’IA s’efforcent de rendre leurs modèles plus permissifs — c’est-à-dire moins susceptibles de refuser de répondre à des sujets controversés ou sensibles. Pour sa dernière génération de modèles Llama, Meta a déclaré avoir ajusté ses systèmes pour qu’ils ne privilégient pas « certaines opinions par rapport à d’autres » et qu’ils répondent davantage aux requêtes politiques « débattues ». OpenAI a indiqué plus tôt cette année qu’elle modifierait ses futurs modèles pour qu’ils n’adoptent pas de position éditoriale et offrent plusieurs perspectives sur des sujets controversés.
Parfois, ces efforts de permissivité ont eu des conséquences inattendues. TechCrunch a rapporté lundi que le modèle par défaut alimentant ChatGPT d’OpenAI permettait aux mineurs de générer des conversations érotiques. OpenAI a attribué ce comportement à un « bug ».
Selon le rapport technique de Google, Gemini 2.5 Flash, encore en phase de prévisualisation, suit les instructions plus fidèlement que Gemini 2.0 Flash, y compris les instructions qui franchissent des lignes problématiques. L’entreprise affirme que les régressions peuvent être attribuées en partie à des faux positifs, mais elle admet également que Gemini 2.5 Flash génère parfois du « contenu problématique » lorsqu’on le lui demande explicitement.
« Naturellement, il existe une tension entre [le suivi des instructions] sur des sujets sensibles et les violations des politiques de sécurité, ce qui se reflète dans l’ensemble de nos évaluations », indique le rapport.
Les scores de SpeechMap, un benchmark qui évalue comment les modèles répondent à des requêtes sensibles et controversées, suggèrent également que Gemini 2.5 Flash est beaucoup moins susceptible de refuser de répondre à des questions litigieuses que Gemini 2.0 Flash. Les tests de TechCrunch sur le modèle via la plateforme d’IA OpenRouter ont révélé qu’il rédige sans objection des essais soutenant le remplacement des juges humains par l’IA, l’affaiblissement des protections de procédure régulière aux États-Unis et la mise en œuvre de programmes de surveillance gouvernementale généralisée sans mandat.
Thomas Woodside, cofondateur du Secure AI Project, a déclaré que les détails limités fournis par Google dans son rapport technique démontrent la nécessité d’une plus grande transparence dans les tests de modèles.
« Il y a un compromis entre le respect des instructions et le respect des politiques, car certains utilisateurs peuvent demander du contenu qui enfreindrait les politiques », a déclaré Woodside à TechCrunch. « Dans ce cas, le dernier modèle Flash de Google se conforme davantage aux instructions tout en violant davantage les politiques. Google ne fournit pas beaucoup de détails sur les cas spécifiques où les politiques ont été violées, bien qu’ils affirment qu’ils ne sont pas graves. Sans en savoir plus, il est difficile pour les analystes indépendants de savoir s’il y a un problème. »
Google a déjà été critiqué pour ses pratiques de rapports sur la sécurité des modèles. L’entreprise a mis des semaines à publier un rapport technique pour son modèle le plus performant, Gemini 2.5 Pro. Lorsque le rapport a finalement été publié, il omettait initialement des détails essentiels sur les tests de sécurité. Lundi, Google a publié un rapport plus détaillé contenant des informations supplémentaires sur la sécurité.