11/08/2018 les-crises.fr  22 min #144539

Tous fichés ? Comment Twitter permet le fichage politique de la population

Communiqué de presse : Eu Disinfolab, la diffusion scandaleuse d'un démenti mensonger

Après avoir montré des lacunes méthodologiques dans leur étude, puis leur inconscience dans le traitement de données personnelles sensibles et la création d'un fichage politique, puis leur irresponsabilité dans la diffusion publiques de ces données, voilà maintenant que le DisinfoLab donne dans... la Désinformation et les Fake News.

I. Rappel des faits sur le fichage de EU DisinfoLab

Rappelons que l'association belge EU DisinfoLab (créée le 27 décembre 2017) a acheté un accès à Visibrain, applicatif qui lui donne accès à TOUTE la base Twitter. Avec, ils ont récupéré les 247 701 comptes qui ont fait au moins un tweet ou un retweet sur l'affaire Benalla, et ont aspiré un certain nombre d'informations sur les dilatateurs figurant dans la base.

Ils ont alors créé un autre fichier comprenant les 55 000 comptes qui ont produit plus de 7 (re)tweets, et comprenant de nombreuses informations personnelles sensibles auxquelles ce fichier permet d'accéder instantanément. La plupart figurent dans la Biographie du profil (rédigée par l'utilisateur) ; il est à noter que ces informations permettent de faire une recherche ciblée sur un indicateur de religion, d'orientation sexuelle, d'opinion politique, etc., et de faire des regroupements très facilement. Bien que les données soient indiquées publiquement par le titulaire du compte, il faut savoir qu'il n'est pas possible de les retrouver avec une utilisation "classique" du moteur de recherche Twitter (essayez donc de trouver 200 personnes ayant indiqué être bouddhistes dans leur biographie... C'est impossible pour 99 % des utilisateurs). Il faut payer Twitter pour cela.

EU DisinfoLab a ensuite extrait plus de 3 000 profils qui ont produit plus de 200 (re)tweets, avec les informations précédentes auxquelles s'ajoute une classification réalisée par un algorithme qu'ils ont créé qui donne une couleur politique à ces comptes d'opposants (« Souverainiste », « Extrême Droite » ou « France Insoumise »).

Le 5 août, Nicolas Vanderbiest, fondateur d'EU DisinfoLab, a alors diffusé sur Twitter les 2 fichiers ("Data brutes.csv" pour les 55 000 et "ActeursClassés.xlsx" pour le fichage politique), qui ont alors circulé sur Twitter - ne tenant pas compte des demandes pressantes de suppression du fichier (exemples  ici,  ici,  ici ou  ici). Il a fini par supprimer les fichiers 4 jours après, suite à une masse de plaintes à la CNIL, qui s'est saisie du dossier. EU DisinfoLab a alors diffusé, via dl.free.fr, un fichier zip comprenant 2 fichiers « allégés », lien donné sur Twitter ( 26 fois...) et dans leur étude Benalla, sans données personnelles ni politiques ("Data brutes 1 - 47.xlsx" et "Rumeurs & items.xlsx"), mais comprenant le nombre de rumeurs supposément diffusées par les plus de 3 000 acomptes très actifs, avant de supprimer également ces fichiers sur dl.free.fr le 9 aout à 18h38 (source :  étude Benalla DisinfoLab).

II. Nos tweets du 10 août 2018

Afin que chacun comprenne la problématique de ces fichiers 1/ comprenant des masses de données sensibles, certes fournies publiquement (mais de façon discrète, à sa communauté de followers, généralement limitée) et 2/ du fichage politique réalisé par algorithme EU Disinfolab, nous avons réalisé des tweets avec une extraction (que nous avons anonymisée) de certains profils présentant des informations très sensibles :

À ceux qui minimisent le #FichagePolitique de DisinfoLab, voici un extrait anonymisé des 2 fichiers qu'ils ont créés et diffusés.
Quelles que soient nos convictions politiques, nous devrions tous nous réunir pour lutter contre ça. C'est ce qui avait permis la création de la @CNIL

Afin que tout soit bien clair, nous avons réalisé un rappel des faits en thread :

À ceux qui minimisent le #FichagePolitique de DisinfoLab, voici un extrait anonymisé des 2 fichiers qu'ils ont créés et diffusés.
Quelles que soient nos convictions politiques, nous devrions tous nous réunir pour lutter contre ça. C'est ce qui avait permis la création de la @CNIL

Puis nous avons alerté les partis politiques et associations concernées :

Que pensez-vous de modifier la loi pour une meilleure protection de nos données personnelles pour éviter tout fichage ? @FranceInsoumise @partisocialiste @enmarchefr @gouvernementFR @lesRepublicains @DLF_Officiel @RNational_off @CNIL @_LICRA_ @LDH_Fr @amnestyfrance @laquadrature

N'hésitez d'ailleurs pas à les retweeter.

III. Le Communiqué EU DisinfoLab du 11 août 2018

Nous avons alors eu la surprise de lire ce communiqué de EU Disinfo Lab :

11/08/2018 : Communiqué de presse - Fausses captures d'écran
Nous remarquons qu'une capture d'écran circule actuellement sur Twitter, Facebook et des sites d'information mettant en cause un des fichiers que nous avons transmis. Sur cette capture d'écran apparaissent des mots surlignés qui feraient penser qu'il y aurait des personnes « gay », « lesbienne », « juifs ». Aucune de ces biographies n'est issue du fichier. Tout un chacun pourra le vérifier simplement en faisant une recherche dans les fichiers. Il pourra constater que :

  • Le nombre de tweets affichés sur la capture d'écran est impossible. Seules les personnes avec + de 200 tweets étaient rassemblées.
  • Les localisations ne faisaient pas partie des fichiers que nous avons transmis. Par ailleurs, nous nous étonnons d'une localisation « marié gay en prc »

Par ailleurs, nous rappelons que le premier fichier de 55 000 pseudonymes ne comprenait que les pseudonymes des personnes ayant tweeté sur le sujet et le nombre de tweets. Rien d'autre.
Nous regrettons vivement le climat de désinformation qui règne autour de cette affaire et rappelons que, conformément au RGPD, les personnes concernées peuvent faire valoir leur droits d'effacement légitimes en nous contactant par e-mail à droitdaccesdisinfo.eu

Source :  Disinfo.eu ( archive)

Puis celle de lire ces 7 tweets de cette association nous diffamant de façon stupéfiante (sources :  1,  2 et  2 bis,  3,  4,  5,  6,  7 -  toutes) :

Ce mensonge fait évidemment réagir :

Si, si, la cuisine est nécessaire...

Puis vient alors l'instant complotisme délirant :

Ils indiquent donc que nous aurions NOUS-MÊMES créé le fichier, en recopiant à la main via l' API Twitter, 100 par 100, 55 000 profils Twitter (ce qu'elle ne permet pas), et d'ailleurs pour classer correctement et arriver au même fichier qu'eux, ce sont les 4 300 000 (re) tweets qu'il aurait fallu récupérer (et dommage, on ne peut récupérer plus de quelques retweets sans l'API)

Nous plaignons Pierre, ce twittos qui, encouragé par eux, aura passé son samedi après-midi à essayer de voir si ce délire est crédible... Quel manque de respect envers les citoyens vigilants !

Et ils insistent :

Comme ils ont fait une erreur sur "mot de passe" (sic.), ils corrigent :

Maintenant, pour eux, Visibrain ne permet pas d'extraire autre chose que "l'username et le mot de passe"; oups, "l'username et le nombre de tweets". Par chance, nous avons exposé le fonctionnement de ce logiciel Big Brother  ici dans ce billet ( source) :

( voir ici un exemple des données des fichiers produits par Visibrain)

Et on peut aussi exporter tous les followers, en les croisant ( source) :

Un autre exemple des données Visibrain...

C'est d'ailleurs ce qu'ils expliquent...  dans leur propre étude :

Rappelons que EU DisinfoLab est censé lutter contre la désinformation... Fact-checkons donc ses déclarations !

IV. Fact-checking du scandaleux démenti de Disinfo : "Pourquoi c'est faux"

Vous vous imaginez ce que doit ressentir face à ceci un citoyen lambda qui aurait réalisé le même genre de travaux que nous... Ou tout simplement les twittos fichés qui ont téléchargé le fichier et ont vu de leurs propre yeux ce que DisinfoLab cherche insidieusement à démentir ?

Précisons également que,  selon leur site, l'équipe du DisinfoLab  est très limitée, que Nicolas Vanderbiest est le cofondateur de l'association, et la seule "caution scientifique" (bien qu'il soit encore  étudiant doctorant, diplômé en information et communication). Il a été pratiquement la seule personne à communiquer des informations techniques sur Twitter sur l'étude en cours :

Comme il l'avait annoncé, le chercheur a donc diffusé sur Twitter les données détaillées de l'étude DisinfoLab le 5 août ( source) ( Preuve ici) : (TWEET SUPPRIMÉ par Nicolas Vanderbiest) :

Note : Nicolas Vanderbiest a supprimé de très nombreux tweets "pour cacher ses erreurs" - espérons que la CNIL et la Justice demanderont bien à Twitter l'historique complète de toutes ses suppressions des derniers jours.

Il a d'abord partagé publiquement via Dropbox "Data brutes.csv", le fichier des 55 000 plus gros diffuseurs de Tweets et Retweets (ayant diffusé plus de 7 (re)tweets sur l'affaire Benalla), avec toutes leurs informations personnelles :

Cliquez pour agrandir. On a le nom de l'auteur et on voit les informations sensibles "que EU DisinfoLab n'a jamais eu"

Ce fichier qui n'a jamais existé contient ces 14 données en colonne :

  1. l'username / libellé du compte (le ),
  2. le nom public,
  3. "listed"l'id,
  4. la biographie du profil,
  5. la localisation,
  6. le nombre de followers,
  7. le statut vérifié,
  8. le nombre de comptes suivis,
  9. "listed" (?),
  10. le nombre de tweets du compte,
  11. la langue,
  12. la date de création du compte,
  13. le site internet,
  14. le nombre de Tweets et Retweets sur Benalla

De plus, au vu la gravité la chose, nous avons organisé un réseau de témoins tiers de confiance pour prouver la véracité de ce fichier, en vue de notre plainte à la CNIL, nous doutant bien que les auteurs finiraient par le supprimer, et étaient probablement capables de nier son existence... #PasDeBol

Et nous avons bien fait, vu qu'il est désormais possible au vu de leurs tweets que DisinfoLab ait détruit détruit les preuves de leurs agissements pour faire échec à l'enquête judiciaire et de la CNIL - nous le verrons. Nous tenons si besoin le fichier à la disposition de la CNIL (avant de bien entendu le détruire).

Ensuite, Nicolas Vanderbiest a récidivé : il a diffusé publiquement le fichier "ActeursClassés.xlsx" ( source -  archive) :

à savoir un fichier avec les 3 392 plus gros twitteurs sur Benalla (qui sont donc surtout des retwitteurs), auxquels il a attribué une couleur politique via un algorithme qu'il a créé : 1 pour souverainistes (sic. - c'est la droite Républicaine), 2 pour Extrême-droite et 3 pour la France insoumise !

Et son tweet a été "liké" par EU DisinfoLab...

Voici le contenu du fichier :

Et ici plus de très gros comptes classés par DisinfoLab comme "France Insoumise" (qui nous excuseront, nous l'espérons, de cette indication) :

Ce fichier qui n'a jamais existé contient ces 13 données en colonne :

  1. l'username / libellé du compte (le ),
  2. le nom public,
  3. le nombre de comptes suivis,
  4. le nombre de followers,
  5. le nombre de tweets du compte,
  6. la biographie du profil,
  7. la "classe" politique attribuée par Disinfo
  8. "Présent russe" (russophile ?)
  9. Présent dans la diffusion "Macronleaks"
  10. Nombre de "Désinfo russe"
  11. nombre de "Rumeurs présidentielle"
  12. "Nombre de rumeurs Benalla propagées"
  13. le nombre de Tweets et Retweets sur Benalla

Ce sont ces deux fichiers que Nicolas Vanderbiest (fondateur du EU DisinfoLab) a supprimés.

Ce n'est qu'ensuite que le compte EU DisinfoLab a publié les 2 autres fichiers - les mêmes mais sans les données personnelles de la biographie ni le classement politiques (fichiers "Data brutes 1 - 47.xlsx" et "Rumeurs & items.xlsx"). Avant de le supprimer rapidement - vu qu'ils comprennent les identifiants des comptes ( source) :

Ainsi, il y a bien eu 4 fichiers diffusés par cette officine, pas 3. Plus aucun n'est accessible (il faudrait donc qu'ils arrêtent de dire qu'on peut vérifier facilement dans leurs tweets, jouant de la confusion)

Nous avons déjà expliqué tout ceci dans ce billet de jeudi dernier.

Et Disinfo a publiquement reconnu ce problème de fichiers ( source - d'autres  exemples ici sur les fichiers "officiels") :

Ah, il y a des fichiers "non officiels" - qui sortent d'où... ?

Ils avaient même répondu à Aude Lancelin ( source) :

Oui un petit "souci de colonne"... Mais c'est à cause de nous peut-être ?

Et ceci ? ( source)

Ah, ce fichier Dropbox donc ?

Mais qui donc a bien pu le diffuser ???

Ainsi, en résumé : Nicolas Vanderbiest, le cofondateur et chercheur du DisinfoLab a diffusé 2 fichiers :

  • "Data brutes.csv" : contenant de nombreuses informations personnelles sensibles récupérées des profils publics de Twitter, dont la biographie, pour 55000 comptes ;
  • "ActeursClassés.xlsx" : contenant les mêmes informations personnelles sensibles, complétées d'une classification politique qu'il a lui même réalisée (en indiquant un chiffre 1, 2 ou 3), pour plus de 3000 comptes.

Il les a supprimés au bout de plusieurs jours. Le compte DisinfoLab a ensuite diffusé 2 autres fichiers ("Data brutes 1-47.xlsx" et "Rumeurs & items.xlsx"), avec bien moins de données personnelles, avant, également, de les supprimer.

Afin que tout le monde comprenne la gravité de ce genre de fichiers, nous avons donc réalisé notre tweet avec un extrait des deux premiers fichiers, diffusés par Nicolas Vanderbiest.

V. Fact-checking collaboratif du tableau de notre tweet

Le mieux est de laisser les twittos qui disposent du fichier original "Data brutes.csv" (à ne pas confondre avec le fichier épuré "Data brutes 1 - 47.xlsx") de vérifier notre travail - que nous republions, en rajoutant les numéros de ligne du fichier original pour une vérification aisée - les voici :

Cliquez pour agrandir.
N.B. attention sur quelques comptes, il y a des sauts de ligne dans la biographie, veillez donc à bien aller au bout de la cellule si besoin. Nous avons explicité dans la capture le titre de la colonne sur les Tweets Benalla ("in filtergetvalue tweet count")

Nous mettrons les copies d'écran en réponse ici.

VI. Plainte

Au vu de tout ceci, on comprendra notre étonnement quand nous avons reçu ce matin (à 9h00) ce message diffamatoire et menaçant de Nicolas Vanderbiest :

En réponse, je lui ai fait part de mon étonnement, et je lui ai demandé ce qu'il considérait comme faux :

Je n'ai reçu aucune réponse de sa part 8 heures après.

Comme il me demandait une mise au point publique, elle est donc faite. De rien.

Il est quand même stupéfiant que Twitter ait donné 125 000 $ à cette officine pour "lutter contre la désinformation" ! Nous allons leur demander des comptes au vu de l'énorme désinformation produite.

En plus c'était l'argent des publicités achetées à Twitter par RT et Sputnik ! #Kafka

Du coup, il est bien évident que nous portons plainte contre l'officine EU DisinfoLab pour diffamation :

Vous pouvez participer aux frais de justice par un paiement à notre avocat ici (même modeste). Merci d'avance.

 les-crises.fr

 Commenter