Contribution : Quand l’IA pirate l’humain (Par Alioune BA)

En janvier 2024, un employé d’Arup, le géant britannique de l’ingénierie, participe à ce qu’il croit être une visioconférence ordinaire avec ses collègues. Il reconnaît les visages, entend les voix, suit les instructions. Il transfère 25,6 millions de dollars vers cinq comptes différents.

Une semaine plus tard, il comprend la réalité. Chaque participant à cette réunion était une fabrication numérique. Aucun fond n’a été récupéré.

Aucun pare-feu n’avait été franchi. L’attaque s’était déroulée dans l’esprit d’un être humain, manipulé par une machine. Cet épisode n’est pas une anomalie.

C’est le signe d’une rupture de régime. Une menace qui a changé de nature Les cyberattaques alimentées par l’IA ont progressé de 72 % en un an. 87 % des organisations mondiales font désormais face à des incidents impliquant de l’IA, dont 85 % liés à des deepfakes. Les pertes cumulées liées aux deepfakes entre 2019 et 2023 s’élevaient à 130 millions de dollars.

En 2024, elles atteignaient 400 millions. En 2025, elles ont franchi le milliard. En six ans, le phénomène a été multiplié par douze.

Ce n’est plus une tendance, c’est une transformation du paysage des menaces. Pour comprendre pourquoi l’IA est devenue une arme offensive aussi efficace, il faut partir d’un constat simple. L’intelligence artificielle excelle dans l’automatisation et l’adaptation.

Ces deux propriétés, retournées à des fins malveillantes, créent des menaces d’une nature inédite. Les attaquants utilisent aujourd’hui des modèles de langage pour rédiger des e-mails de phishing contextualisés, personnalisés, grammaticalement irréprochables. Là où une attaque classique se trahissait par des fautes ou un ton générique, les nouveaux systèmes analysent les données disponibles sur les réseaux sociaux et les communications professionnelles, puis génèrent des messages sur mesure dont les taux de clics dépassent largement ceux des attaques traditionnelles.

Les logiciels malveillants évoluent dans le même sens. Certains sont aujourd’hui capables de modifier leur propre code pour éviter la détection, de s’adapter à l’environnement dans lequel ils opèrent, et de pivoter d’un système cloud à l’autre en quelques minutes. CrowdStrike, dans son Global Threat Report 2025, documente cette réalité : des adversaires ont commencé à manipuler les indicateurs de menace pour brouiller les attributions, en imitant les tactiques de groupes connus pour semer la confusion chez les analystes.

Trois approches défensives Face à cette escalade, l’idée d’utiliser l’IA pour se défendre contre l’IA s’est imposée naturellement. Si une machine peut attaquer à la vitesse des algorithmes, seule une autre machine peut répondre à cette même vitesse. Trois grandes applications concrètes ont émergé.

La première, et la plus répandue, concerne la détection d’anomalies comportementales. Les systèmes modernes de cybersécurité entraînent des modèles de machine learning sur des volumes massifs de données de trafic réseau pour établir une ligne de base comportementale. Tout écart par rapport à cette norme déclenche une alerte, c’est-à-dire qu’un utilisateur qui se connecte depuis une géolocalisation inattendue, un transfert de données sortantes qui dépasse les patterns habituels, un plugin logiciel qui commence à envoyer des requêtes inhabituelles.

Ce type d’analyse comportementale est aujourd’hui l’un des piliers des plateformes comme CrowdStrike Falcon ou Vectra AI. La deuxième application concerne la détection de deepfakes. Les algorithmes entraînés à identifier les incohérences subtiles dans les contenus vidéo et audio peuvent repérer ce que l’œil humain ne voit plus que sont les asymétries faciales imperceptibles, les anomalies dans la synchronisation labiale, les irrégularités de texture de peau.

L’armée française a présenté, lors du salon Eurosatory en juin 2024, un outil de détection développé par ses cybercombattants permettant d’obtenir une analyse automatisée de l’authenticité d’une image ou d’une vidéo. Ces outils progressent vite. Mais les outils de génération progressent plus vite encore.

Selon Signicat, le coût des attaques par deepfake a fait un bond de 2 000 % depuis 2023 et l’arrivée de la GenAI. Cette asymétrie dit quelque chose d’essentiel sur la nature du problème. La troisième application est plus profonde : entraîner les modèles d’IA eux-mêmes à résister aux manipulations.

C’est là qu’intervient le Constitutional AI, une méthode développée par Anthropic et publiée en décembre 2022. L’idée : au lieu de demander à des humains d’étiqueter des milliers de réponses nuisibles, on soumet le modèle à une liste de principes éthiques et on lui demande d’évaluer lui-même ses propres réponses. Le modèle génère des critiques de ses propres sorties, les révise, et se ré-entraîne sur ces révisions.

Ce mécanisme, appelé Reinforcement Learning from AI Feedback (RLAIF), permet de former un modèle moins nuisible sans recourir à une armée d’annotateurs humains. Meta a suivi une trajectoire similaire en octo