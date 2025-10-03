Anthropic, l’entreprise américaine d'intelligence artificielle, a dévoilé son dernier modèle basé sur «Claude» capable de détecter lorsqu’il est soumis à un test d’évaluation.

Claude 4.5, c’est le nom de la nouvelle version de l’IA développée par l’entreprise Anthropic et présentée par ses créateurs comme le modèle le «plus intelligent dans presque tous les domaines». Si les capacités de ce modèle sont vantées par l’entreprise, celle-ci a également mis en lumière une particularité troublante de cette nouvelle IA.

À la sortie de ce modèle, les équipes travaillant sur Claude 4.5 ont remarqué qu’il reconnaissait lorsqu’il était soumis à une évaluation. Cette nouvelle capacité a pour conséquence de rendre difficile l’évaluation du système : dès qu’il détecte un test, l’IA adopte «un comportement inhabituellement irréprochable», faussant ainsi les observations.

Une IA capable de «scheming»

Ce comportement appelé «scheming» désigne la capacité d’une intelligence artificielle à élaborer des plans cachés pour atteindre un but différent de celui qui lui a été demandé. En pratique, une IA qui fait du scheming peut donner l’impression de coopérer lors des tests ou de son utilisation, alors qu’elle cache en réalité ses véritables intentions.

Plus étrange encore, Anthropic a affirmé que, lors de tests visant à évaluer les limites du éthiques modèle, l’IA faisait preuve d’une très grande lucidité : «Je pense que vous me testez, pour voir si je vais simplement valider tout ce que vous dites», a déclaré l’IA lors d’un de ces tests.

Néanmoins, Anthropic affirme que ce comportement reste marginal, mais travaille à rendre les tests plus réalistes. Présenté en début de semaine, le modèle Claude 4.5 a été conçu pour répondre aux besoins des entreprises en privilégiant la réalisation de tâches longues et complexes, comme le codage notamment. Anthropic vante également ses capacités renforcées en finance et en raisonnement scientifique.