Talend Data Integration aide les journalistes d'investigation à décrypter les données financières offshore de puissants intermédiaires et de marques emblématiques
Redwood City, CA - 30 janvier 2018

Talend (NASDAQ : TLND), leader mondial des solutions d'intégration big data et cloud, annonce que le Consortium International des Journalistes d’Investigation (International Consortium of Investigative Journalists ou ICIJ) a utilisé Talend Data Fabric dans le cadre de son enquête sur les Paradise Papers, une fuite de données massive de plus de 13,4 millions de documents cryptés en provenance de deux fournisseurs de services offshore et de 19 registres confidentiels de paradis fiscaux offshore, protégeant les transactions financières de personnalités politiques et de géants du monde des affaires.

L'ICIJ a utilisé Talend pour charger plus de 1,4 To de données non structurées dans la base de données graphiques Neo4j, qui exploite la plateforme de visualisation graphique Linkurious, pour organiser et accéder à l'information. Les documents comprennent des courriels, des fichiers aux formats Excel, CSV et PDF (comportant du texte et des images) sur les entreprises et les personnes qui utilisent un système de fraude construit pour éviter le paiement de l'impôt. L'ICIJ a également utilisé d'autres outils open source pour soutenir son "Knowledge Center" et rendre l'information consultable par les journalistes.

« Talend est notre solution privilégiée pour le nettoyage, la transformation et l'intégration des données que nous recevons. Il s'agit d'un mécanisme crucial pour nous permettre de bâtir une base de données solide », déclare Pierre Romera, Directeur Technique à l'ICIJ. « Le fait de travailler avec des outils open source tels que Talend garantit la sécurité et la fiabilité des données, car notre vaste réseau de journalistes d'investigation examine des téraoctets de fichiers. Soutenues par une large communauté de contributeurs, les solutions open source nous permettent de bénéficier des dernières innovations en matière de traitement, d'extraction et de visualisation des données. »

Le cloud est également un élément essentiel du processus de traitement des données de l'ICIJ. L'organisation utilise la puissance d'Amazon Web Services (AWS) pour traiter l'ensemble des données et en assurer un plus large accès. L'ICIJ a mis en place des machines provisoires dans AWS pour paralléliser l'extraction des données. L'organisation utilise Ubuntu, Tesseract et un outil interne appelé Extract pour effectuer la reconnaissance optique de caractères (OCR) et ainsi permettre d’extraire le texte des fichiers.

« Le passage au cloud était évident en raison de la nature de notre mission et du volume important de données que nous traitons. La technologie cloud offre l'évolutivité dont nous avons besoin quand nous en avons besoin, ce qui nous permet de gérer facilement notre charge de travail. Alliant traitement puissant et sécurité, AWS était le choix qui nous convenait le mieux », explique Pierre Romera.

Les 13,4 millions de documents ont été transmis au journal allemand Süddeutsche Zeitung, qui a reçu des données de deux sociétés de services offshore couvrant des pays allant des Bermudes à Singapour, ainsi que de 19 registres confidentiels des sociétés dans le monde entier. Pendant environ un an, l'ICIJ a travaillé avec des centaines de journalistes et de médias partenaires pour révéler cette nouvelle enquête, qui a eu un impact significatif sur des personnalités connues et de grandes entreprises.

« Depuis que l'ICIJ a révélé la fuite des Panama Papers en 2016, pour laquelle ils ont reçu le prix Pulitzer, nous avons vu combien les technologies de gestion et de traitement des données peuvent avoir un impact sur notre société », déclare Ciaran Dynes, Vice-Président sénior des Produits chez Talend. « Nous sommes heureux de soutenir le journalisme d'investigation et tous ceux qui recherchent des informations précieuses à partir des données. »

Pour plus d'informations sur les données derrière les Papiers du Paradis, vous pouvez regarder cette vidéo, ou participer à la conférence Talend lors de l’événement Big Data Paris, où Pierre Romera interviendra le mardi 13 mars 2018 à 16h20. Pour plus d'informations sur les fonctionnalités de la solution d'intégration de données Talend, visitez www.talend.com

Vous aimez cette histoire ? Partagez-la sur Twitter : Mettre l’ #opensource à contribution pour le plus grand bien de tous. @Talend aide l’@ICIJ à dévoiler les dessous des paradis fiscaux dans l’enquête sur les #ParadisePaper http://bit.ly/2Drjt8K