Julie Bourbeillon

Enseignant-chercheur en informatique

Département Statistique et informatique

Unité pédagogique : Statistique et informatique
Unité de recherche : UMR IRHS (Institut de recherche en horticulture et semences)

    Parcours

    Carrière

    Formation

    Activités d'enseignement

    Je suis responsable de l'ensemble des enseignements d'informatique sur le site d'Angers. Mes interventions sont répertoriées ci-dessous.

    En complément, je suis régulièrement tutrice d'étudiants dans différents contextes (projets spécifiques d'une UC, stages, apprentissage, etc.) et je fais régulièrement parti de divers jurys du L1 au M2.

    Licence

    Les thèmes abordés concernent les aspects Technologies de l'Information et de la Communication et informatique d'entreprise (programmation, systèmes d'information et bases de données). Ces enseignements correspondent à 4 UC dans deux cursus différents.

    Enseignements Niveau Licence - Cursus « post-bac »

    En première année du cursus post-bac, l'enseignement est centré sur l'usage des Technologies de l'Information et de la Communication, au sein de l'établissement mais aussi dans une perspective professionnelle. Les objectifs sont les suivants :

    • Connaissances de base en informatique (matériel, système d'exploitation, réseaux),

    • Principes d'une utilisation efficace des outils courants (organisation des données informatiques personnelles, bureautique, recherche d'information sur Internet),

    • Contexte déontologique et juridique de l'usage des outils et en particulier d'internet.

    En troisième année du cursus post-bac, les enseignements d'informatique visent à apporter une compréhension de l'informatique d'entreprise, pour permettre une communication efficace avec des informaticiens. Ainsi, l'UC « Programmation » est centrée sur la notion de résolution de problème, d'un point de vue informatique. Les différentes étapes sont abordées :

    • Introduction aux principes de l'analyse d'un problème,

    • Bases de l'algorithmique comme méthode de résolution de problème,

    • Bases d'un langage de programmation, pour exprimer des algorithmes sous une forme compréhensible pour l'ordinateur,

    • Analyse itérative d'erreurs : hypothèse sur l'origine du dysfonctionnement, solutions, tests...

    Toujours en troisième année du cursus post-bac, l'UC « Bases de données et système d'information » aborde les systèmes d'information et la place des bases de données dans ces systèmes lorsqu'ils sont informatisés. Le contenu inclut :

    • Démarche d'informatisation pour l'entreprise, infrastructures et architectures possibles,

    • Principes essentiels de conception de bases de données,

    • Bases permettant de passer d'un modèle théorique à une implémentation, associée à la mise en place d'interfaces graphiques à destination des utilisateurs.

    Enseignements Niveau Licence - Cursus « post-prépa »

    En première année du cursus post-prépa, l'UC « Informatique » visent à apporter les mêmes compétences que les trois UC du cursus post-bac. Les objectifs restent les mêmes :

    • Connaissances de base en informatique (matériel, système d'exploitation, réseaux),

    • Principes d'une utilisation efficace des outils courants (organisation des données informatiques personnelles, bureautique, recherche d'information sur Internet),

    • Contexte déontologique et juridique de l'usage des outils et en particulier d'internet,

    • Informatique d'entreprise : programmation et bases des données.

    Master

    Les enseignements de niveau master visent à une professionnalisation des étudiants ou apportent des compétences plus spécialisées en lien avec leur domaine métier.

    Enseignements Niveau Master

    Je suis co-responsable de l'UE de M1 « Ingénierie de Projet » depuis 2010. Cette UE inclut un volet théorique (découverte des méthodes et outils de gestion de projet) et pratique (conduite de projets réels, apportés par des commanditaires extérieurs à l'établissement, par des groupes de 8 étudiants, supervisés par deux tuteurs enseignants). J'interviens dans la partie théorique en CM et TD. J'assure avec 4 autres collègues la sélection des projets proposés aux étudiants. J'ai mis en place des outils informatiques, connectés au reste du système d'information de l'établissement, pour gérer l'UE (gestion des projets, affectation de étudiants et tuteurs aux projets, etc.).

    Je pilote une UC au choix d'« Initiation à la Bioinformatique » à destination des M1 en Horticulture. l'objectif est de faire découvrir les méthodes et outils de bioinformatique du point de vue de l'usager, c'est-à-dire le biologiste, tout en fournissant les concepts théoriques sous-jacents aux outils pour leur usage optimal. Les thèmes abordés incluent banques de données (genebank, swissprot, etc., alignements de séquences (exact, BLAST), assemblage de génome / NGS, outils d'annotation et genomeBrowser, comparaison de génome, transcriptomique (analyse de données puce - RNASeq)

    Je suis co-responsable d'une UE de M2 "Expérimentation et exploitation de données massives", à destination des élèves ingénieurs en horticulture de la spécialité "Sciences et ingénierie du végétal", option "Semences et plants", mutualisée avec le Master "Biologie Végétale". L'objectif est de faire connaître aux étudiants la diversité et la complexité des données de phénotypage et génotypage pour leur exploitation…. Il s'agit de leur montrer le problème biologique sous-jacent et la manière dont les données sont produites à travers la conception de dispositifs expérimentaux et la visite de plateformes pour qu'ils puissent mettre en œuvre les outils d’exploitation adéquats (analyse, modélisation).

    Thèmes de recherche

    Contexte

    Une tendance notable de la recherche, en particulier biologique, est l'accroissement de l'échelle à laquelle sont réalisées les études. Celle-ci résulte de l'émergence de techniques expérimentales à haut débit et d'une augmentation du volume de données publiquement disponibles. Une difficulté complémentaire réside dans l'hétérogénéité tout à la fois des sources d'information (banques de données, multiples et distantes, aux formats et interfaces hétérogènes, fichiers variés, etc) et des données (multiples échelles : de la population à la molécule ; multiples natures : quantitative ou qualitative ; multiples modes : texte ou image ; multiples niveaux de structuration : champs de base de données, structuration par balises, texte libre). Ceci rend problématique l'analyse des données, qui nécessite la mise en place d'approches spécifiques, de plus en plus informatisées. Ce cadre est de plus en plus connu comme celui du « big data » ou données massives.

    Thématiques

    Dans ce contexte, un ensemble de difficultés (acquisition, gestion et exploitation de données) se posent à la communauté scientifique. Mon projet de recherche, qui relève du domaine de la science des données, de l'ingénierie des connaissances et de l'aide à la décision, vise à proposer des solutions à ces problèmes par le biais d'une plateforme informatique intégrée. Cette plateforme, peut être considérée comme un LIMS (Laboratory Information Management System, Système de gestion de laboratoire), à destination de scientifiques non informaticiens, qui vise à accompagner l'ensemble du processus expérimental, et pas uniquement l'acquisition et la gestion de données. Ce LIMS implique de mettre en œuvre des mécanismes relevant de disciplines telles que la Recherche d'Information, l'Ingénierie des Connaissances, la Visualisation d'information, les Interactions Homme-Machine, etc.. Cet objectif me conduit à m'intéresser à diverses thématiques :

    L'automatisation des expériences, dans un cadre où l'expertise des équipements complexes n'est pas partagée par tous et où la conception des expériences est une tâche complexe, implique une documentation des expériences, un contrôle simplifié des automates, un pré-traitement unifié des données brutes en sortie des machines. Par exemple, des projets d'étude de l'interaction entre génotype et environnement tels ceux menés sur le pommier par l'équipe Qualipom (Qualité des Fruits) de l'IRHS impliquent des études multi-échelles, multi-factorielles et pluriannuelles dont la mise en place adéquate est cruciale. Documenter et faciliter la pratique expérimentale passe par la mise en place de LIMS permettant de limiter l'interaction des novices avec l'équipement, une gestion de projet de recherche, une planification de l'usage du matériel, la documentation des expériences et de l'expertise acquise à des fins de réutilisation. Or il n'existe pas à ma connaissance de système open-source générique ciblant l'ensemble de ces besoins, ce qui limite la diffusion de l'usage des LIMS.

    L'équipe bioinfomatique de l'IRHS développe des outils dans ce sens, développements auxquels je contribue. Ainsi, ELVIS (Experiment and Laboratory on Vegetal Information System) regroupe les base de données et couche serveur communes aux différents outils de gestion / traitement de données développés dans l'équipe. ELVIS se présente sous la forme d'une base de données PostgreSQL et une couche service web d'accès aux données développée en Python. ELVIS est décomposé en un ensemble de modules thématiques. PLusieurs applications métier reposent sur ELVIS :

    • GLAMS : gestion de laboratoire (projets, expériences, résultats expérimentaux, etc.)

    • PREMS : gestion de ressources biologiques

    • Elterm : gestion de terminologie

    La génération en interne de gros volumes de données et la disponibilité de données externes posent un problème de représentation commune de l'information en vue de l'intégration des données biologiques. Il s'agit d'une problématique centrale pour nombre de travaux en bioinformatique et des approches variées sont proposées, sans pour autant atteindre de solution idéale.

    Cette problématique de représentation des données a fait l'objet de mes travaux dans le cadre des projets « AI-Fruit », « Verger de Demain » ou « CRB FraPeR et Apiacées », où j'ai exploré des approches issues du Web Sémantique. Je pilote le développement d'ontologies de domaine spécifiques à l'unité pour répondre aux besoins d'annotation de données des biologistes. Pour supporter cette démarche, je développe un logiciel de description de terminologie adossé à la base de données ELVIS mise en place au sein de l'unité.

     

    La mise à disposition de gros volumes de données pose un problème de sélection des données pertinentes dans le cadre d'une hypothèse à tester. Les interfaces Web simples actuelles proposent trop peu d'axes d'interrogation pour répondre aux besoins des biologistes et des approches plus avancées sont nécessaires, par exemple basées sur des paradigmes de Recherche d'Information et du Web Sémantique. J'ai exploré ces approches dans le cadre de ma thèse, en proposant une interface de saisie de requête simple, basée sur une taxonomie du domaine, permettant de dépasser la simple description de critères de sélection. De plus, l'informatisation de l'analyse de données ouvre de nouveaux défis d'exploitation des données pertinentes dans le contexte d'une hypothèse à tester. Il existe pléthore d'outils bioinformatiques, aux finalités différentes et aux formats d'entrée et sortie variés, aux paramétrages plus ou moins complexes et aux résultats plus ou moins explicites. La sélection des outils permettant la mise en place d'un pipeline de traitement fonctionnel et répondant aux besoins d'analyse est alors une tâche difficile, même si des initiatives existent en ce sens. L'utilisation et en particulier le paramétrage des outils choisis peuvent aussi s'avérer difficiles pour un novice sans connaissance des algorithmes sous-jacents.

    J'ai abordé ce thème dans le cadre du projet « AI-Fruit ». Mais j'ai surtout participé à l'analyse de jeux de données, dans le cadre des projets « PAYTAL » et « GRIOTE », ou en contribuant aux activités de l'équipe Arch-E de l'IRHS sur la qualité visuelle des rosiers. C'est aussi le coeur du projet « DIVIS ».

     

    Malgré les avancées réalisées en ce qui concerne l'informatisation de chacune des étapes du processus expérimental, des freins à la diffusion et utilisation des outils par les chercheurs du domaine biologique persistent : coût, manque de connaissances concernant les outils et ressources disponibles, manque de compétences informatiques pour leur mise en place et utilisation optimale, manque de temps pour apprendre l'usage d'outils complexes. Un petit pas dans cette direction a été représenté par ma participation au déploiement d'une plateforme Galaxy destinée aux membres de la SFR Quasav et à la mise à disposition de l'outil « Phenoplant ». Il s'agit d'un paradigme sous-jacent à l'ensemble des réalisations axquelles je contribue.

    Projets

    Je réalise ces travaux au sein de l'équipe Bioinformatique de l'IRHS. Ils se sont inscrits ou s'inscrivent dans le cadre de divers projets de recherche :

    • PAYTAL (2011-2015)

    • Verger de Demain (2011-2015)

    • AI-Fruit (2012-2016)

    • CRB FraPeR et Apiacées (2014-2016)

    • GRIOTE (2014-2018)

    • ANANdb (2015-2016)

    • DIVIS (2018-2021)

    Productions

    Logiciels

    Je suis impliquée dans le développement de plusieurs logiciels dont le code source est mis à disposition sur la forge SourceSup de RENATER.

    L'équipe bioinfomatique de l'IRHS développe des outils dans ce sens, développements auxquels je contribue. Ainsi, ELVIS (Experiment and Laboratory on Vegetal Information System) regroupe les base de données et couche serveur communes aux différents outils de gestion / traitement de données développés dans l'équipe. ELVIS se présente sous la forme d'une base de données PostgreSQL et une couche service web d'accès aux données développée en Python. ELVIS est décomposé en un ensemble de modules thématiques. Plusieurs applications métier développées par l'équipe reposent sur ELVIS.

    La page du projet ELVIS sur SourceSup

    GLAMS est l'application métier orientée vers la gestion de laboratoire qui repose sur ELVIS. GLAMS se compose en un ensemble de briques incluant la gestion des projets, des échantillons, des résultats expérimentaux.

    La page du projet GLAMS sur SourceSup

    Elterm est l'application de gestion de terminologie qui repose sur ELVIS.

    Dans ELVIS, le contenu de nombreux champs est contrôlé par des listes de valeurs possibles, qui sont généralement issues de terminologies :

    • terminologies du domaine reconnues, éventuellement issues de taxonomies ou d'ontologies disponibles publiquement (Plant Ontology, Crop Ontology, etc.)
    • terminologies spécifiques que nous pouvons envisager de diffuser

    Nous stockons donc un ensemble de terminologies couvrant chacune un thème : morphologie des organismes, stades de développement, conditions de culture, etc. Le principe général de ce qu'on veut stocker est similaire à ce qui se trouve dans les représentations standard de terminologies au format XML type TermBase Exchange, mais sous la forme de base de données. Elterm fournit un ensemble d'interfaces graphiques permettant aux utilisateurs de manipuler des terminologies stockées dans ELVIS.

    La page du projet Elterm sur SourceSup