BFM Tech

Panama Papers: comment les 11 millions de documents ont été exploités

Les 11 millions de documents ont été extraits des archives du cabinet Mossack Fonseca.

Les 11 millions de documents ont été extraits des archives du cabinet Mossack Fonseca. - RODRIGO ARANGUA / AFP

Avec plus de 2,6 téraoctets de données, les Panama Papers représentent une masse de documents immense et difficile à exploiter. Grâce à un moteur de recherche, la reconnaissance d’écriture et les messageries chiffrées, les médias partenaires ont ainsi pu en extraire les informations essentielles.

Comment réussir à extraire des informations de plus de 11 millions de documents ? C’est le casse-tête devant lequel s’est trouvé le Consortium international des journalistes d’investigation (ICIJ) qui a mis à la disposition d’une centaine de médias les documents provenant des archives du cabinet panaméen Mossack Fonseca, spécialisé dans la domiciliation de sociétés offshore.

En France, ce sont la société de production Premières Lignes et le journal Le Monde qui y ont eu accès. Au total, 2,6 téraoctets de fichiers en tous genres ont été exploités: "Sur les 11 millions de documents, 7 millions d’entre eux étaient des e-mails issus d’Outlook au format .msg, certains avec des pièces jointes, explique à BFM Tech Jérémie Baruch, data-journaliste au Monde. Il y avait aussi des actes administratifs comme les registres de création de sociétés en PDF, des scans de fax, de pièces d’identité ou d’e-mails envoyés avant l’informatisation totale de la société et enfin, en plus petite quantité, des fichiers Excel et Word".

Un logiciel qui fait le lien entre les concernés

Habitué au traitement massif de documents (Offshore Leaks, Luxembourg Leaks et Swiss Leaks), c’est l’ICIJ qui s’est chargé de traiter l’ensemble des fichiers: "Nous n’avons pas eu accès directement aux documents. Ils ont mis à notre disposition un outil qui permettait d’y rechercher ce que l’on désirait. C’est donc l’ICIJ qui a procédé à la reconnaissance de caractères sur l’ensemble des documents scannés", détaille Jérémie Baruch.

Une recherche sur un nom par exemple permet donc de remonter aussi bien les e-mails dans lesquels il figure, que les images, comme un scan de passeport. Impossible toutefois de savoir quels outils l’ICIJ a utilisé: "Ils possèdent une technologie éprouvée qu’ils mettent à jour régulièrement, dévoile seulement le journaliste.

Mais on sait que l'organisme a tout de même utilisé Linkurious, un outil permettant de visualiser les connections dans les données. On peut en apercevoir un exemple dans cet article ; en quelques clics on peut trouver une personnalité, puis les sociétés et les autres personnes qui y sont associés. Un système très pratique, et conçu par une société française, pour explorer une piste et dérouler le fil des connexions à une personne.

L'entreprise Neo Technology n'a pas hésité à communiquer auprès de la presse l'utilisation de sa solution de base de données de graphes, Neo4j. Elle se base sur un fonctionnement algorithmique, très différent du principe de tables utilisé habituellement dans les bases de données. Ce système facilite ainsi la mise en évidence des relations entre les éléments.

Echanges via messagerie chiffrée et forum sécurisé

Cette méthode permettait d’ailleurs parfois de tomber sur des informations pas forcément intéressantes pour un média français, mais qui pouvaient être utiles aux rédactions étrangères partenaires du projet: "Nous communiquions en permanence via une messagerie chiffrée PGP, mais aussi un forum sécurisé grâce à Google Authenticator mis en place par l’ICIJ, lorsqu’on découvrait par exemple l’implication d’une personnalité portugaise, on y avertissait alors le média portugais qui était bien plus susceptible de s’y intéresser que nous", révèle Jérémie Baruch.

Au total, 11 mois de travail ont été nécessaires: "Nous avons rencontré pour la première fois l’ICIJ à Washington le 11 juin 2015. J’ai travaillé à mi-temps sur le projet entre juin et novembre 2015, puis à plein temps depuis janvier 2016", explique le journaliste. Un travail au long-cours qui a payé: la justice française a ouvert une enquête préliminaire, tandis que le ministre des Finances, Michel Sapin, vient d’annoncer que la France va réinscrire le Panama sur sa liste des paradis fiscaux.