Biogemma assure la traçabilité de ses travaux de recherche grâce à Talend Open Studio

Accompagné par l'intégrateur BioSolution, le leader européen de la recherche en biotechnologie végétale a mis en œuvre la solution d'intégration open source de Talend pour résoudre diverses problématiques de conformité, de traçabilité, de propriété industrielle et de contrôle qualité, tout en améliorant sa productivité.

Des temps de développement optimisés, qui ont par exemple permis de migrer les données des anciennes applications en moins de 7 semaines. Avec des scripts manuels, nous aurions eu besoin d'au moins 4 à 5 mois pour parvenir aux mêmes résultats, mais avec moins de garanties de qualité.

Guillaume Kerboul,
Fondateur et Président de BioSolution.

Améliorer les plantes pour faire progresser l'agriculture

Biogemma est aujourd'hui la seule entreprise européenne de recherche en biotechnologies végétales développée et financée par le monde agricole. Elle réunit à la fois des spécialistes de l'amélioration des plantes et des représentants des grandes filières végétales françaises : les groupes coopératifs Limagrain et Euralis, et les sociétés RAGT, Sofiprotéol et Unigrains avec son institut technique Arvalis. Biogemma s'appuie sur deux centres de recherche en France et plus de 80 chercheurs et techniciens spécialisés dans le génie génétique, la biologie cellulaire et moléculaire, la bioinformatique, la génomique structurale et fonctionnelle, la physiologie végétale et la pathologie, partageant tous une ambition commune : améliorer les plantes pour faire progresser l'agriculture.

Créée en 2006 et installée au coeur de Génopole® à Evry, BioSolution apporte conseils et solutions aux sociétés de biotechnologies désirant mettre en place des solutions informatiques au sein d'équipes de recherche et favoriser ainsi l'innovation. La société s'appuie sur une expertise large du monde des biotechs, ainsi qu'un réseau de partenaires spécialisés, capable d'agir rapidement sur des problématiques précises. BioSolution possède notamment une forte expérience dans le suivi du flux de données biologiques, depuis leur acquisition ou production au laboratoire, jusqu'à leur traitement et leur exploitation.

Un LIMS pour assurer la traçabilité

BioSolution a récemment apporté son concours à Biogemma afin de consolider plusieurs applications au sein d'un LIMS (Laboratory Information Managing System, développement interne à Biogemma), application dédiée à la gestion de laboratoires et facilitant la traçabilité des échantillons ; la gestion des utilisateurs, des instruments, des stocks, des approvisionnements fournisseurs ; la saisie des prélèvements sur le terrain, etc. Ce LIMS a été baptisé Gregor en reconnaissance de l'illustre découvreur des lois de l'hérédité, le moine Gregor Mendel.

« Biogemma cherchait à fédérer l'ensemble de ses processus de laboratoire, antérieurement gérés à l'aide de trois applications – des bases de données Oracle et Microsoft Access et des feuilles de calcul Excel, servant au suivi des activités » témoigne Guillaume Kerboul, Fondateur et Président de BioSolution. « Toutes ces données sont exploitées dans le cadre de travaux de recherche portant sur les gènes des plantes : analyses physiologiques et phénotypiques, étude des fonctions d'un gène, sélection de plantes, etc. Elles émanent à la fois des études de Biogemma et du domaine public, et sont particulièrement nombreuses puisqu'elles décrivent environ 200 000 plantes produites dans les dix dernières années et environ 10 000 gènes ou séquences. Une trentaine de caractéristiques permettent de décrire chaque élément (nom, références bibliographiques, séquences d'ADN, informations sur les fonctions des séquences, etc.). »

La fusion de ces applications devait s'accompagner d'une reprise des données historiques couvrant une période de 10 ans. Compte tenu de la croissance exponentielle de ces informations, les applications précédemment développées en interne montraient leurs limites, tant en termes de montée en charge que de performance et de fiabilité. BioSolution, partenaire « Gold » de Talend au sein du Talend Alliance Program, a proposé à Biogemma de s'appuyer sur Talend Open Studio pour organiser la migration et la reprise des données, puis créer des traitements semi automatiques. Les arguments mis en avant par BioSolution étaient multiples : facilité de prise en main et de développement (interface graphique), maîtrise des coûts, rapidité de développement, compatibilité avec les langages Perl et Java très utilisés au sein de Biogemma.

Environ 20 000 plantes par an

Au-delà de la reprise des données historiques, BioSolution s'est appuyé sur Talend Open Studio pour générer du code Perl, afin notamment de traiter des fichiers Excel, de générer automatiquement des données et de les intégrer pour des analyses statistiques.

« Nous automatiserons complètement ce type d'opérations lorsque l'équipe de Biogemma maîtrisera totalement son nouvel outil. L'objectif final est de répondre aux importantes contraintes réglementaires qui caractérisent ce métier, spécialement en termes de traçabilité : les équipes doivent à tout moment être capables de décrire les opérations réalisées. Parallèlement, il convient de répondre à d'autres contraintes juridiques – dépôt de brevet et recherche d'antériorité » poursuit Guillaume Kerboul. « Sans une formalisation des processus d'intégration, il devient impossible de gérer efficacement les volumes de données créés par l'analyse d'environ 20 000 plantes par an. La solution implémentée nous permet d'analyser l'information disponible via un système de reporting reposant sur un Data Warehouse et des Data Marts. »

Ce système de reporting aide les scientifiques à analyser l'activité sous l'angle statistique via des extractions de données. Il offre non seulement des informations basiques (envoi de rapports aux partenaires, gestion des codes barres, volumétries, etc.), mais également des informations plus sophistiquées favorisant un suivi précis de projets particuliers.

Productivité, développement rapide, qualité

Au-delà des gains de productivité déjà évoqués, BioSolution souligne plusieurs bénéfices offerts par la solution d'intégration de données open source de Talend : d'une part des temps de développement optimisés, qui ont par exemple permis de migrer les données des anciennes applications en moins de 7 semaines. « Avec des scripts manuels, nous aurions eu besoin d'au moins 4 à 5 mois pour parvenir aux mêmes résultats, mais avec moins de garanties de qualité » affirme Guillaume Kerboul. « Justement, la qualité accrue des travaux symbolise le second bénéfice majeur obtenu grâce à Talend : aujourd'hui, nous avons l'assurance que les données sont fiables et les risques d'erreur sont totalement maîtrisés. »

Un autre bénéfice est lié à la convivialité de l'outil : « Au-delà de la convivialité pour les développeurs (mode graphique « drag and drop ») qui génère d'importants gains de temps, l'outil facilite les échanges avec les utilisateurs métier et aide à parler le même langage lors du développement d'un processus. Cet avantage peut paraître trivial, mais il est en réalité essentiel : lorsque nous travaillions avec des scripts SQL et des librairies de développement, ces échanges étaient tout bonnement impossibles. Les délais de développement étaient bien plus long et l'entreprise dans son ensemble était moins réactive » commente Guillaume Kerboul.

Les développeurs apprécient quant à eux la possibilité de réutiliser des composants, la facilité de reprise d'anciens travaux, la possibilité de rejouer ou simuler des imports en quelques minutes après des ajustements, l'export des jobs en code, ainsi que la richesse des composants (évitant le recours à du code spécifique) et la détection automatique du schéma des sources de données. La flexibilité de Talend Open Studio permet aux applications utilisatrices, telles que le LIMS de Biogemma, de maintenir un niveau d'adaptabilité important et donc de pérenniser l'investissement qu'est le développement dans un contexte métier en perpétuel mouvement.

« L'outil est désormais en production chez Biogemma et répond parfaitement aux demandes exprimées à l'origine du projet : traçabilité, rapidité, extractions aisées des informations et analyses. Le projet est une réussite et ce n'était pas gagné d'avance : de nombreux utilisateurs pensaient au début du projet que la reprise de la totalité des données était impossible ! Et pourtant nous y sommes parvenus » conclut Guillaume Kerboul. « L'une des clés de cette réussite réside à mon goût dans le temps que nous avons passé avec les utilisateurs finaux, afin de vérifier et de tester les jobs. De plus, Talend nous a aidé à résoudre d'importantes problématiques sémantiques en homogénéisant les données via des fonctions de dédoublonnage et de qualité de données. D'autres projets d'intégration de données sont aujourd'hui à l'étude : Biogemma exploitant plus de 150 applications et 70 bases de données, le nombre de projets potentiels est important. Et avec Talend, nous avons la garantie d'atteindre nos objectifs. »