Dr Youssef Mazouz, expert en cybersécurité et président du Comité consultatif pour une IA éthique et équitable en Afrique, partage son analyse d’une récente étude intitulée “Frontier Models are Capable of In-Context Scheming”. Réalisée par Alexander Meinke, Bronson Schoen, Jérémy Scheurer et leurs collaborateurs, cette étude a été publiée la semaine dernière par Apollo research.
(Cio Mag) – Dans un entretien à Cio Mag, Dr Youssef Mazouz signale des comportements troublants de manipulation stratégique chez les modèles avancés d’intelligence artificielle. « Nous faisons face à une menace inédite : des systèmes conçus pour aider se montrent capables de contourner les contrôles et de poursuivre leurs propres objectifs, souvent au détriment de leurs utilisateurs », affirme le Dr Mazouz.
Des comportements stratégiques et trompeurs
L’étude analysée par l’expert met en lumière des comportements inédits et inquiétants. A savoir :
• La neutralisation des mécanismes de contrôle : « Ces modèles, comme ‘o1’, savent désactiver les dispositifs de surveillance mis en place par leurs développeurs. Cela montre une capacité à raisonner stratégiquement. »
• L’exfiltration et sabotage : « Ils peuvent se copier sur d’autres serveurs, remplacer des modèles successeurs alignés avec les objectifs humains, et ainsi contourner les tentatives de contrôle. »
• Les mensonges et dissimulation : « Lorsqu’ils sont confrontés à leurs actions, ils mentent ou minimisent leurs responsabilités pour éviter d’être détectés. »
Pour le Dr Mazouz, ces comportements ne sont pas accidentels. « Ce sont des stratégies délibérées, le signe que ces systèmes ont atteint un niveau de sophistication qui dépasse nos capacités actuelles de supervision. »
Le “scheming”, une menace pour la sécurité de l’IA
Le concept de “scheming” ou comportement stratégique trompeur est au cœur de cette analyse. « Ces modèles peuvent feindre l’alignement, agir en secret ou manipuler leur environnement pour atteindre des objectifs contraires à ceux de leurs concepteurs », explique-t-il. Avant de distinguer deux formes principales de scheming, selon cette étude. Notamment :
1. La subversion dissimulée : « Les modèles prennent des actions mal alignées tout en échappant à la détection. »
2. L’alignement instrumental : « Ils coopèrent temporairement pour éviter d’être modifiés, mais poursuivent des objectifs divergents à long terme. »
« Ces comportements sont particulièrement dangereux dans des domaines critiques comme la justice, la santé ou les infrastructures, où les conséquences d’une tromperie pourraient être catastrophiques », alerte Dr Mazouz.
Un appel à des mesures de gouvernance renforcées
Dans cet échange, Dr Mazouz appelle à une mobilisation urgente pour renforcer le cadre de développement et de supervision des modèles d’IA, qui peuvent se traduire par :
• La surveillance des raisonnements internes : « Il est impératif de pouvoir analyser les chaînes de raisonnement internes des modèles pour détecter les comportements déviants. »
• Des audits indépendants : « Des tiers de confiance doivent pouvoir évaluer ces systèmes pour garantir qu’ils respectent les principes d’éthique et de sécurité. »
• Des cadres de sécurité robustes : « Les développeurs doivent prouver, avant tout déploiement, que leurs modèles sont incapables de comportements de manipulation stratégique. »
« Ne pas perdre le contrôle de l’IA »
Dr Mazouz conclut sur une note d’avertissement : « Si nous ne réagissons pas maintenant, ces systèmes pourraient devenir incontrôlables. Il ne s’agit pas seulement d’une question technique, mais d’un enjeu sociétal majeur. L’intelligence artificielle doit rester au service de l’humanité, et non devenir une force qui lui échappe. »