Israël développe un outil similaire à Chatgpt pour intensifier la surveillance des Palestiniens

Par Yuval Abraham

L'armée israélienne développe un nouvel outil d'intelligence artificielle similaire à ChatGPT et le perfectionne à partir de millions de conversations en arabe obtenues grâce à la surveillance des Palestiniens dans les territoires occupés, révèle une enquête menée par +972 Magazine, Local Call et The Guardian.

L'outil d'IA, développé sous les auspices de l'Unité 8200, une unité d'élite de cyberguerre au sein de la Direction du renseignement militaire d'Israël, est ce que l'on appelle un "grand modèle de langage" (Large Language Model, LLM) : un programme d'apprentissage automatique capable d'analyser des informations et de générer, traduire, anticiper et résumer du texte. Alors que les LLM accessibles au public, comme le moteur de ChatGPT, sont alimentés par des informations récupérées sur Internet, le nouveau modèle en cours de développement par l'armée israélienne est alimenté par de vastes quantités de renseignements recueillis sur la vie quotidienne des Palestiniens vivant sous occupation.

L'existence du LLM de l'unité 8200 a été confirmée à +972, Local Call, et au Guardian par trois sources de sécurité israéliennes ayant connaissance de son développement. Le modèle était encore en cours de développement au cours du second semestre de l'année dernière, et on ne sait pas encore s'il a été déployé ou comment l'armée l'utilisera exactement. Cependant, des sources ont expliqué que l'un des principaux avantages pour l'armée sera la capacité de l'outil à traiter rapidement de grandes quantités de matériel de surveillance afin de "répondre à des questions" sur des individus spécifiques. À en juger par la façon dont l'armée utilise déjà des "modèles de langage"plus restreints, il semble probable que le LLM pourrait encore accroître les possibilités de mise en accusation et d'arrestation de Palestiniens par Israël.

"L'IA accroît le pouvoir", a expliqué une source du renseignement qui a suivi de près le développement des modèles linguistiques par l'armée israélienne ces dernières années.

"Elle permet des opérations [utilisant] les données d'un nombre beaucoup plus important de personnes, permettant ainsi le contrôle de la population. Il ne s'agit pas seulement de prévenir les tentatives d'attentats. Je peux suivre les militants des droits de l'homme. Je peux surveiller l'activité de construction palestinienne dans la zone C [de la Cisjordanie]. J'ai accès à davantage d'outils pour savoir ce que fait chaque personne en Cisjordanie. Lorsque vous détenez autant de données, vous pouvez les utiliser dans n'importe quel but".

Bien que l'outil ait été développé avant la guerre actuelle, l'enquête révèle qu'après le 7 octobre, l'unité 8200 a sollicité l'aide de citoyens israéliens ayant une expertise dans le développement de modèles linguistiques et travaillant pour des géants de la technologie tels que Google, Meta et Microsoft. Avec la mobilisation massive des réservistes au début de l'offensive d'Israël sur Gaza, des experts du secteur privé ont commencé à s'enrôler dans l'unité, apportant des connaissances qui n'étaient auparavant "accessibles qu'à un groupe très restreint d'entreprises dans le monde", comme l'a déclaré une source du secteur de la sécurité. (En réponse à nos demandes de renseignements, Google a déclaré que "certains de ses employés font partie de la réserve dans plusieurs pays" et a souligné que le travail qu'ils accomplissent dans ce contexte "n'est pas lié à Google". Meta et Microsoft ont refusé de commenter.

Une caméra de sécurité surplombant la ville d'Hébron, en Cisjordanie, le 15 janvier 2013. (© Nati Shohat/Flash90)

Selon une source, le "chatbot" [agent logiciel conçu pour interagir avec des utilisateurs] de l'Unité 8200 a été entraîné sur 100 milliards de mots d'arabe obtenus en partie grâce à la surveillance à grande échelle des Palestiniens par Israël, sous le contrôle de son armée, ce qui, selon les experts, constitue une grave violation des droits des Palestiniens.

"Nous parlons d'informations strictement personnelles, obtenues auprès de personnes qui ne sont soupçonnées d'aucun crime, pour concevoir un outil qui pourrait ensuite contribuer à faire naître des craintes",

a déclaré Zach Campbell, chercheur senior en technologie à Human Rights Watch, à +972, Local Call et The Guardian.

Nadim Nashif, directeur et fondateur du groupe palestinien de défense des Droits numériques 7amleh, s'est fait l'écho de ces préoccupations.

"Les Palestiniens sont devenus des sujet de laboratoire pour Israël, qui développe ces techniques et militarise l'IA, dans le seul but de maintenir un régime d'apartheid et d'occupation où ces technologies sont utilisées pour dominer un peuple, pour contrôler sa vie. Il s'agit d'une violation grave et continue des Droits numériques des Palestiniens, qui relèvent des Droits de l'Homme".

"Nous remplacerons tous les agents du renseignement par des agents IA"

Les efforts de l'armée israélienne pour développer son propre LLM ont été reconnus publiquement pour la première fois par Chaked Roger Joseph Sayedoff, un officier du renseignement qui s'est présenté comme le chef de projet, lors d'une conférence peu remarquée l'année dernière.

"Nous avons cherché à créer la plus grande base de données possible, en collectant toutes les données dont l'État d'Israël ait jamais disposé en arabe",

a-t-il expliqué lors de sa présentation à la conférence Defense ML à Tel Aviv. Il a ajouté que le programme est alimenté par des "quantités pharamineuses"d'informations du renseignement.

Selon M. Sayedoff, lorsque le LLM de ChatGPT a été mis à la disposition du public pour la première fois en novembre 2022, l'armée israélienne a mis en place une équipe du renseignement dédiée pour explorer comment l'IA pourrait être adaptée à des fins militaires.

"Nous nous sommes dit : ‘Wow, maintenant nous allons remplacer tous les agents du renseignement par des agents [IA]. Toutes les cinq minutes, ils liront toutes les informations du renseignement israélien et prédiront qui sera le prochain terroriste'", a déclaré M. Sayedoff.

Mais l'équipe n'a pas fait beaucoup de progrès au début. OpenAI, la société à l'origine de ChatGPT, a rejeté la demande d'accès direct de l'unité 8200 à son modèle de langage et a refusé de l'intégrer dans le système interne hors ligne de l'unité. (L'armée israélienne utilise depuis le modèle de langage d'OpenAI, acheté via Microsoft Azure, comme l'ont révélé +972 et Local Calldans le cadre d' une autre enquête récente. OpenAI a refusé de commenter cette information.

Comme l'explique Sayedoff, un autre problème s'est posé : les modèles linguistiques existants ne pouvaient traiter que l'arabe standard, utilisé dans les communications formelles, la littérature et les médias, et non les dialectes parlés. L'unité 8200 a réalisé qu'elle devait développer son propre programme, basé, comme l'a dit Sayedoff dans sa conférence, "sur les dialectes de ceux qui nous haïssent".

Ombres des caméras de vidéosurveillance de la police près de la porte de Jaffa dans la vieille ville de Jérusalem, le 30 janvier 2017. (© Sebi Berens/Flash90)

Tout a évolué au début de la guerre de Gaza en octobre 2023, lorsque l'Unité 8200 a commencé à recruter des experts en modèles linguistiques d'entreprises technologiques privées en tant que réservistes. Ori Goshen, co-PDG et co-fondateur de la société israélienne AI21 Labs, spécialisée dans les modèles de langage, a confirmé que des employés de son entreprise ont participé au projet pendant leur service de réserve.

"Une agence de sécurité ne peut pas travailler avec un service comme ChatGPT, elle doit donc trouver un moyen de faire fonctionner l'IA au sein d'un système [interne] non connecté à d'autres réseaux", a-t-il expliqué.

Selon M. Goshen, les LLM pourraient notamment permettre aux agences du renseignement de traiter rapidement les informations et de générer des listes de "suspects" à arrêter. Mais pour lui, la clé réside en leur capacité à récupérer des données provenant de sources multiples. Plutôt que d'utiliser des "outils de recherche primitifs", les agents pourraient simplement "poser des questions et obtenir des réponses" d'un agent conversationnel, qui serait par exemple capable de dire si deux personnes se sont déjà rencontrées ou de déterminer instantanément si une personne a déjà commis un acte donné.

M. Goshen a toutefois concédé que le recours aveugle à ces outils peut entraîner des erreurs.

"Ce sont des modèles probabilistes : vous leur posez une question ou leur donnez une instruction, et ils génèrent quelque chose qui s'apparente à de la magie", a-t-il expliqué. "Mais souvent, la réponse n'a aucun sens. Nous appelons cela une « hallucination".

M. Campbell, de Human Rights Watch, a soulevé une préoccupation similaire. Les LLM, a-t-il déclaré, fonctionnent comme des "machines à deviner", et leurs erreurs sont inhérentes au système. De plus, ceux qui utilisent ces outils ne sont souvent pas ceux qui les ont développés, et les recherches montrent qu'ils ont tendance à s'y fier davantage. "Et ces suppositions pourraient être utilisées pour incriminer des innocents", a-t-il déclaré.

De précédentes enquêtes menées par +972 et Local Call sur l'utilisation par l'armée israélienne de systèmes de ciblage basés sur l'IA pour faciliter ses bombardements sur Gaza ont mis en évidence les failles opérationnelles inhérentes à de tels outils. Par exemple, l'armée a utilisé un programme connu sous le nom de Lavender pour générer une "liste de cibles" de dizaines de milliers de Palestiniens, que l'IA a mis en cause parce qu'ils présentaient des caractéristiques associées à l'appartenance à un groupe militant.

L'armée a ensuite bombardé nombre de ces personnes, généralement alors qu'elles se trouvaient chez elles, en famille, alors même que le programme était connu pour avoir un taux d'erreur de 10 %. Selon certaines sources, la supervision humaine du processus d'assassinat n'aurait servi que de "cache-misère" et les soldats auraient traité les résultats de Lavender "comme s'il s'agissait d'une décision humaine".

Des Palestiniens passent le checkpoint de Qalandiya en allant de la Cisjordanie à la quatrième prière du vendredi du ramadan à la mosquée Al-Aqsa de Jérusalem, le 29 avril 2022. (© Oren Ziv)

"Parfois, c'est juste un commandant de division qui exige 100 arrestations par mois"

Le développement d'un outil de type ChatGPT entraîné à reconnaître l'arabe parlé représente une nouvelle expansion de l'appareil de surveillance d'Israël dans les territoires occupés, déjà très intrusif depuis longtemps. Il y a plus de dix ans, des soldats ayant servi dans l'unité 8200 ont témoigné avoir surveillé des civils n'ayant aucun lien avec des groupes militants afin d'obtenir des informations pouvant être utilisées pour les faire chanter, sur leurs difficultés financières, leur orientation sexuelle ou une maladie grave les affectant eux-mêmes ou un membre de leur famille. Les anciens soldats ont également admis avoir pisté des militants politiques.

Parallèlement au développement de son propre LLM, l'unité 8200 utilise déjà des modèles linguistiques plus modestes qui permettent la classification des informations, la transcription et la traduction de conversations de l'arabe parlé vers l'hébreu, ainsi que des recherches par mots-clés efficaces. Ces outils facilitent l'accès immédiat aux renseignements, en particulier pour la division de l'armée en Judée-Samarie (Cisjordanie). Selon deux sources, les modèles plus modestes permettent à l'armée de passer au crible les données de surveillance et d'identifier les Palestiniens exprimant leur colère face à l'occupation ou leur désir d'attaquer des soldats ou des colons israéliens.

Une source a décrit un modèle d'analyse linguistique actuellement utilisé qui scanne les données et identifie les Palestiniens à l'aide de mots indiquant qu'ils "cherchent des ennuis". La source a ajouté que l'armée a utilisé des modèles d'analyse linguistique pour prédire qui serait susceptible de jeter des pierres sur les soldats lors d'opérations visant à "affirmer la présence" de l'armée, lorsque les soldats font des descentes dans une ville ou un village de Cisjordanie et font du porte-à-porte, entrant de force dans chaque maison d'une rue donnée pour procéder à des arrestations et terroriser les habitants.

Des sources du renseignement ont déclaré que l'utilisation de ces modèles linguistiques parallèlement à une surveillance à grande échelle dans les territoires occupés a renforcé le contrôle d'Israël sur la population palestinienne et a considérablement augmenté la fréquence des arrestations. Les commandants peuvent accéder à des renseignements bruts traduits en hébreu – sans avoir besoin de s'appuyer sur les centres linguistiques de l'Unité 8200 pour fournir le matériel, ni de connaître eux-mêmes l'arabe – et sélectionner des "suspects" à arrêter dans une liste sans cesse croissante dans chaque localité palestinienne.

"Parfois, c'est juste un commandant de division qui exige 100 arrestations par mois dans sa zone", a déclaré une source.

Cependant, contrairement aux modèles plus modestes déjà utilisés, le modèle de grande taille actuellement en cours de développement est alimenté par l'ensemble de données de l'Unité 8200, qui contient des millions de conversations entre Palestiniens.

"L'arabe parlé est une donnée [difficilement] disponible sur Internet", explique la source. "On ne peut pas transcrire les conversations ou les discussions WhatsApp en ligne. Elles ne sont pas disponibles en quantité suffisante pour alimenter un tel modèle".

Pour former le LLM, les conversations quotidiennes entre Palestiniens qui n'ont pas de valeur immédiate en matière de renseignement ont tout de même un rôle essentiel.

"Si quelqu'un appelle une autre personne [au téléphone] et lui dit de sortir parce qu'il l'attend devant l'école, ce n'est qu'une conversation anodine, ce n'est pas intéressant", a expliqué une source de sécurité. "Mais pour un modèle comme celui-ci, c'est de l'or, car cela fournit de plus en plus de données pour s'entraîner".

Une tour de guet militaire israélienne et des caméras sur la route 60, en Cisjordanie occupée, le 30 janvier 2006. (Activestills)

L'Unité 8200 n'est pas la seule agence nationale du renseignement à tenter de développer des outils d'IA générative. La CIA a développé un outilsimilaire à ChatGPT pour analyser les informations open-source, et les agences du renseignement au Royaume-Uni sont également en train de développer leurs propres LLM. Cependant, d'anciens responsables de la sécurité britanniques et américains ont déclaré à +972, Local Call et au Guardian que la communauté du renseignement israélienne prend plus de risques que ses homologues américains ou britanniques en matière d'intégration des systèmes d'IA dans l'analyse du renseignement.

Brianna Rosen, ancienne responsable de la sécurité à la Maison Blanche et actuellement chercheuse en affaires militaires et de sécurité à l'université d'Oxford, a expliqué qu'un analyste du renseignement utilisant un outil comme ChatGPT serait potentiellement capable de

"détecter des menaces que les humains pourraient manquer, avant même qu'elles ne se produisent". Cependant, cela "risque également d'entraîner de faux rapprochements et des conclusions erronées. Des erreurs seront commises, et certaines d'entre elles pourraient avoir des répercussions très graves".

Des sources du renseignement israélien ont souligné qu'en Cisjordanie, la question la plus urgente n'est pas nécessairement l'exactitude de ces modèles, mais plutôt la vaste portée des arrestations qu'ils permettent. Les listes de "suspects" ne cessent de s'allonger, car des quantités massives d'informations sont continuellement collectées et rapidement traitées au moyen de l'IA.

Plusieurs sources ont déclaré qu'une "crainte" vague ou trop générale suffit souvent à justifier la mise en détention administrative des Palestiniens, soit une peine de prison de six mois renouvelable sans inculpation ni procès, sur la base de "preuves" non divulguées. Dans un contexte où la surveillance des Palestiniens est si étendue et le seuil d'arrestation si bas, ont-ils déclaré, l'ajout de nouveaux outils basés sur l'IA renforcera la capacité d'Israël à trouver des informations compromettantes sur un plus grand nombre de personnes.

Le porte-parole de l'armée israélienne n'a pas répondu aux questions posées par +972, Local Call et le Guardian

"en raison de la nature sensible des informations", affirmant seulement que "toute utilisation d'outils technologiques est soumise à un processus rigoureux mené par des professionnels, afin de garantir une précision maximale des informations de renseignement".

Yuval Abraham

Article original en anglais : Israel developing ChatGPT-like tool that weaponizes surveillance of Palestinians, +972 Mag, le 6 mars 2025.

Traduction : Spirit of Free Speech

Image en vedette : Capture d'écran. Un soldat israélien photographie un Palestinien à l'aide d'un outil de reconnaissance faciale par IA lors d'un raid à Wadi Qutyna, Al-Mughayer, en Cisjordanie occupée, le 17 janvier 2025. (© Avishay Mohar/Activestills)

* Harry Davies du Guardian et Sebastian Ben Daniel (John Brown) ont contribué à cette enquête.

* Yuval Abraham est un journaliste et cinéaste basé à Jérusalem.

La source originale de cet article est +972 Mag

Par Yuval Abraham

mondialisation.ca

Murs