Parmi les outils utilisés pour exploiter les nombreuses données (plus de 11,5 millions de fichiers à analyser) de la sulfureuse affaire des "Panama Papers", l'International Consortium for Investigative Journalism (ICIJ) a fait appel à une startup française : Linkurious.  Sébastien Heymann, CEO de la jeune pousse qui surfe aujourd'hui sur le succès de l'affaire, raconte les dessous de cette enquête qui secoue le monde entier.

Comment ce partenariat est-il né ?

Nous avons été approchés par l’International Consortium for Investigative Journalism au moment où ils travaillaient sur le Swiss Leaks, une enquête sur les clients de la filiale suisse d’HSBC, en mai 2014.

Pour Swiss Leaks L’ICIJ avaient plus de 60 000 fichiers détaillant les avoirs de plus de 100 000 clients. L’ICIJ avait besoin de fouiller les données pour identifier parmi les clients d’HSBC suisse des criminels, politiques et autres personnalités. Le défi était d’autant plus grand qu’ils devaient prendre en compte le fait que la plupart des journalistes ne sont pas des data-scientists, ils avaient donc besoin d’une solution simple de prise en main. C’est à ce besoin qu’à répondu Linkurious.

"Linkurious permet à des analystes qui n’ont pas forcément de compétences techniques d’explorer des données connectées (transactions financières, architecture informatiques, interactions génétiques) de manière simple, collaborative et sécurisé."

Très impressionné par ce premier essai très concluant, l’ICIJ nous a recontacté très rapidement pour pouvoir utiliser notre solution sur un nouveau projet de plus grande envergure encore : les Panama Papers. Cette fois Linkurious serait central pour le processus d’investigation des 400 journalistes du réseau ainsi que pour la publication des résultats. En effet, les journalistes utilisent Linkurious pour permettre au public de visualiser et explorer directement les réseaux financiers offshore qu’ils ont découverts.

Pouvez-vous nous raconter l’envers du décor ? Comment ces données ont-elles été exploitées ?

Pour protéger au maximum ses partenaires et assurer la sécurité des données, l’ICIJ a travaillé dans le plus grand secret. Nous ne communiquions que de manière cryptée et n’étions pas au courant de la nature exacte de leur enquête. Nous nous sommes contentés de répondre au mieux à leurs exigences, que ce soit du point de vue de la sécurité que de celui du support logiciel.

Maintenant qu’on en sait plus sur ce qu’ils ont fait, on comprend mieux les différentes étapes de leur travail. Les data scientists du Data and research Unit de l’ICIJ ont eu un énorme travail de traitement et de compilation des données en amont pour les rendre exploitables par leur réseau de journalistes d’investigation. Les 2,6 terra-octets de données représentent plus que le offshore leaks, le swissleaks et le cablegate réunis donc ce n’est pas du sensationnalisme que d’affirmer qu’il s’agit de l’un des plus grands leaks de l’histoire.

"Il s’agit de l’un des plus grands leaks de l’histoire" 

Ce gros travail de traitement des données a été particulièrement ardu car il fallait rendre exploitables et indexables des documents qui n’étaient pas lisibles par des machines comme des PDFs ou des images. L’étape suivante a été d’établir les connexions entre tous ces documents en utilisant leurs métadonnées pour finalement compiler ces informations au sein d’une base de données de graphes Neo4j pour faciliter leur exploration.

Linkurious est l’interface à laquelle les journalistes ont eu accès pour explorer et analyser cette base de données. Concrètement, Linkurious a permis aux journalistes de remonter les longues filières de dissimulation des avoirs jusqu’aux différentes personnalités mises en cause ou à leur premier cercle ainsi que d’établir des liens entre des documents qui seraient beaucoup plus difficiles à voir autrement.


Visualisation qui montre le réseau d'homme d'intermediaires du président Poutine et leurs sociétés offshore.

Comment protégez-vous ces données ? 

La sécurité a évidemment été l'un des grands enjeux de la collaboration que nous avons entrenue avec L’ICIJ. En plus des standards de sécurité déjà très exigeants que nous offrons par ailleurs, nous avons décidé de prendre des dispositions spéciales. Nous avons déployé une couche de sécurité supplémentaire autour de notre réseau spécifiquement pour les journalistes de l’ICIJ, je ne peux pas en dire davantage pour des raisons évidentes.

Notre solution Linkurious Enterprise leur a permis de sécuriser l’accès et l’identification des utilisateurs, gérer les droits d’accès et chiffrer les communications (en SSL). Nous travaillons aussi avec des banques ou acteurs institutionnels qui ont des données sensibles et pour qui la sécurité des données est une priorité.

En revanche à aucun moment nous n’avons eu accès aux données de l’ICIJ. Même Si quelqu’un avait tenté d’y accéder en nous menaçant ou en essayant d’infiltrer notre réseau interne cela aurait été tout bonnement impossible.

Le journalisme ne peut-il plus se passer de data visualisation ? Quels outils sont les plus utiles ?

Il semblerait que les fuites de données sensibles soient de plus en plus fréquentes. Ces dernières années les fuites de données ont été à l’origine de nombreux scandales de grande ampleur, que ce soit le offshore leaks, le swiss leaks ou encore le cablegate.

"Une tendance qui se dessine est que les volumes de données vont en augmentant de manière exponentielle et que les personnes avec la double casquette de data scientist et de journaliste sont assez rares."

Il y a encore relativement peu de formation spécifiquement en data journalisme. Dans ce contexte, la visualisation de données avec des solutions comme Linkurious Enterprise, permet aux journalistes et analystes qui sont déjà dans le circuit et qui ont peu de compétences techniques mais une grande expertise sur leur sujet d’exploiter les données sur lesquelles ils travaillent. C’est ce que nous avons permis à l’ICIJ de faire.

Enfin pour ce qui est des outils, d’après nos sources au sein de l’ICIJ nous savons que pour le travail de préparation des données a été fait avec des solutions open source comme Apache Solr et Tika pour l’extraction des metadatas et avec Nuix et Talend pour connecter ces données entre elles.

Quels enseignements en tirez-vous ?

La data visualisation est en train de passer du domaine scientifique au domaine de l’entreprise et du grand public. Notre objectif chez Linkurious est d’accompagner cette transition. A terme il y aura des générations entières qui grandiront avec ces technologies et qui se les approprieront. Je ne serais pas étonné que d’ici quelques années on apprenne dans les écoles à visualiser des données au même titre qu’on commence doucement à apprendre le code.

"La data visualisation est la source d’une grande partie de l’innovation de demain."