Julie Bourbeillon

Enseignant-chercheur en informatique

Département Statistique et informatique

Unité pédagogique : Statistique et informatique
Unité de recherche : UMR IRHS (Institut de recherche en horticulture et semences)

Parcours

Carrière

Formation

Activités d'enseignement

Je suis responsable de l'ensemble des enseignements d'informatique sur le site d'Angers. Mes interventions sont répertoriées ci-dessous.

En complément, je suis régulièrement tutrice d'étudiants dans différents contextes (projets spécifiques d'une UC, stages, apprentissage, etc.) et je fais régulièrement parti de divers jurys du L1 au M2.

Licence

Les thèmes abordés concernent les aspects Technologies de l'Information et de la Communication, informatique scientifique et informatique d'entreprise (culture générale informatique, bureautique, programmation, systèmes d'information, bases de données, traitement de données de natures variées en lien avec la biologie, l'horticulture ou le paysage). Ces enseignements correspondent à 4 UC dans deux cursus différents.

Enseignements Niveau Licence - Cursus « post-bac »

En première année du cursus post-bac, l'enseignement est centré sur l'usage des Technologies de l'Information et de la Communication, au sein de l'établissement mais aussi dans une perspective professionnelle. Les objectifs sont les suivants :

  • Connaissances de base en informatique (matériel, système d'exploitation, réseaux),

  • Mise en place et configuration de son environnement de travail

  • Principes d'une utilisation efficace des outils courants (organisation des données informatiques personnelles, bureautique, recherche d'information sur Internet),

  • Publication sur internet

  • Contexte déontologique et juridique de l'usage des outils et en particulier d'internet.

  • Gestion de son identité numérique et protection de ses données personnelles

En L1 du parcours post-bac, des interventions dans d'autres modules permettent d'introduire des premières notions d'informatique scientifique :

  • Découverte de la programmation par des activités d'électricité et électronique sur Arduino en lien avec l'enseignant de physique
  • Premières notions de gestion de données dans le cadre de l'Analyse de la Biodiversité du Campus avec les enseignants d'écologie

En deuxième année du cursus post-bac, le cours d'Initiation à la programmation a pour objectif de fournir aux étudiants des outils leur permettant l'automatisation de tâches de traitement de données ou la résolution numérique de problèmes pour lesquels il n'existe pas forcément de solution analytique. Ainsi, le module est centrée sur la notion de résolution de problèmes, d'un point de vue informatique. Les différentes étapes sont abordées :

  •     Introduction aux principes de l'analyse des problèmes,
  •     Bases de l'algorithmique comme méthode de résolution de problèmes,
  •     Bases d'un langage de programmation, pour exprimer les algorithmes sous une forme compréhensible par l'ordinateur,
  •     Analyse itérative des erreurs : hypothèse sur l'origine du dysfonctionnement, solutions, tests...

Des problèmes d'application sont apportés par d'autres disciplines : écologie, économie, physique, chimie, etc.

En troisième année du cursus post-bac, l'UC « Bases de données et système d'information » aborde les systèmes d'information et la place des bases de données dans ces systèmes lorsqu'ils sont informatisés. Le contenu inclut :

  • Démarche d'informatisation pour l'entreprise, infrastructures et architectures possibles,

  • Principes essentiels de conception de bases de données,

  • Bases permettant de passer d'un modèle théorique à une implémentation, associée à la mise en place d'interfaces graphiques à destination des utilisateurs.

Enseignements Niveau Licence - Cursus « post-prépa »

En première année du cursus post-prépa, l'UC « Informatique » visent à apporter les mêmes compétences que les trois UC du cursus post-bac. Les objectifs restent les mêmes :

  • Connaissances de base en informatique (matériel, système d'exploitation, réseaux),

  • Principes d'une utilisation efficace des outils courants (organisation des données informatiques personnelles, bureautique, recherche d'information sur Internet),

  • Contexte déontologique et juridique de l'usage des outils et en particulier d'internet,

  • Informatique d'entreprise : programmation et bases des données.

Master

Les enseignements de niveau master visent à une professionnalisation des étudiants ou apportent des compétences plus spécialisées en lien avec leur domaine métier.

Je co-pilote une UC au choix d'« Initiation à la Bioinformatique » à destination des M1 en Horticulture. L'objectif est de faire découvrir les méthodes et outils de bioinformatique du point de vue de l'usager, c'est-à-dire le biologiste, en :
    • Présentant les grands principes de la bioinformatique et l’usage de ces approches dans les filières du végétal (R&D, sélection, etc.).
    • Présentant les méthodes d’obtention et de traitement de différents types de données (génomiques, transcriptomiques, phénotypiques, etc.) en biologie.
    • Fournissant un premier aperçu des méthodes pour exploiter ces données selon les protocoles R standard, des logiciels d'analyse d'image ou les outils de bioinformatique disponibles gratuitement.

Je suis co-responsable d'une UE de M2 "Expérimentation et exploitation de données massives", à destination des élèves ingénieurs en horticulture de la spécialité "Sciences et ingénierie du végétal", option "Semences et plants", mutualisée avec le Master "Biologie Végétale". L'objectif est de faire connaître aux étudiants la diversité et la complexité des données de phénotypage et génotypage pour leur exploitation…. Il s'agit de leur montrer le problème biologique sous-jacent et la manière dont les données sont produites à travers la conception de dispositifs expérimentaux et la visite de plateformes pour qu'ils puissent mettre en œuvre les outils d’exploitation adéquats (analyse, modélisation).

Thèmes de recherche

Contexte

Une tendance notable de la recherche, en particulier biologique, est l'accroissement de l'échelle à laquelle sont réalisées les études. Celle-ci résulte de l'émergence de techniques expérimentales à haut débit et d'une augmentation du volume de données publiquement disponibles. Une difficulté complémentaire réside dans l'hétérogénéité tout à la fois des sources d'information (banques de données, multiples et distantes, aux formats et interfaces hétérogènes, fichiers variés, etc) et des données (multiples échelles : de la population à la molécule ; multiples natures : quantitative ou qualitative ; multiples modes : texte ou image ; multiples niveaux de structuration : champs de base de données, structuration par balises, texte libre). Ceci rend problématique la manipulation des données, qui nécessite la mise en place d'approches spécifiques, de plus en plus informatisées, adaptations au domaine biologique de techniques du « Big Data ».

Thématiques

Dans ce contexte, un ensemble de difficultés se pose tout au long du cycle de vie de la donnée scientifique.

Mes activités de recherche visent à accompagner les biologistes tout au long de ce processus, par le développement de méthodes et outils à destination de scientifiques non informaticiens. Ceci implique de mettre en œuvre des mécanismes relevant de disciplines telles que le traitement d’image, la science des données, l'ingénierie des connaissances, la visualisation d'information, les interactions homme-machine, etc. Cet objectif me conduit à m'intéresser à diverses thématiques :
    • Création : accompagnement de la conduite d'expériences, facilitant ainsi l'acquisition de données, dans un contexte d’automatisation et de robotisation, d’approches haut-débit (en particulier phénotypage à haut-débit avec des méthodes d'imagerie),
    • Traitement : préparation des jeux de données (regrouper, filtrer, organiser, présenter, etc.),
    • Analyse : exploitation de données en réponse à une question biologique,
    • Stockage : gestion de données scientifiques, associée au problème de leur représentation pour faciliter tout à la fois leur intégration et leur exploitation,
    • Partage : mise à disposition de données dans des banques publiques, choix des caractéristiques à partager, formats d’échange,
    • Intégration : Combinaison et exploitation de données selon des perspectives nouvelles.

Projets

Je réalise ces travaux au sein de l'équipe ImHorPhen de l'IRHS. Ils se sont inscrits ou s'inscrivent dans le cadre de divers projets de recherche :

  • PAYTAL (2011-2015)

  • Verger de Demain (2011-2015)

  • AI-Fruit (2012-2016)

  • CRB FraPeR et Apiacées (2014-2016)

  • GRIOTE (2014-2018)

  • ANANdb (2015-2016)

  • EUCLEG (2017-2021)

  • DIVIS (2018-2021)

Productions

Logiciels

Je suis impliquée dans le développement de plusieurs logiciels dont le code source est mis à disposition sur la forge forgemia de l'INRAe.

L'équipe bioinfomatique de l'IRHS développe des outils dans ce sens, développements auxquels je contribue. Ainsi, ELVIS (Experiment and Laboratory on Vegetal Information System) regroupe les base de données et couche serveur communes aux différents outils de gestion / traitement de données développés dans l'équipe. ELVIS se présente sous la forme d'une base de données PostgreSQL et une couche service web d'accès aux données développée en Python. ELVIS est décomposé en un ensemble de modules thématiques. Plusieurs applications métier développées par l'équipe reposent sur ELVIS.

La page du projet ELVIS sur ForgeMIA

PREMS est l'application métier orientée vers la gestion de laboratoire qui repose sur ELVIS. PREMS se compose en un ensemble de briques incluant la gestion des projets, des échantillons, des résultats expérimentaux.

La page du projet PREMS sur ForgeMIA

Elterm est l'application de gestion de terminologie qui repose sur ELVIS.

Dans ELVIS, le contenu de nombreux champs est contrôlé par des listes de valeurs possibles, qui sont généralement issues de terminologies :

  • terminologies du domaine reconnues, éventuellement issues de taxonomies ou d'ontologies disponibles publiquement (Plant Ontology, Crop Ontology, etc.)
  • terminologies spécifiques que nous pouvons envisager de diffuser

Nous stockons donc un ensemble de terminologies couvrant chacune un thème : morphologie des organismes, stades de développement, conditions de culture, etc. Le principe général de ce qu'on veut stocker est similaire à ce qui se trouve dans les représentations standard de terminologies au format XML type TermBase Exchange, mais sous la forme de base de données. Elterm fournit un ensemble d'interfaces graphiques permettant aux utilisateurs de manipuler des terminologies stockées dans ELVIS.

La page du projet ELTerm sur ForgeMIA

Grâce à la généralisation des techniques expérimentales à haut débit, les biologistes accumulent de grandes quantités de données qui mélangent souvent des variables quantitatives et qualitatives et ne sont pas toujours complètes, en particulier lorsqu'il s'agit de traits phénotypiques. Afin d'obtenir un premier aperçu de ces ensembles de données et de réduire la taille des matrices à manipuler, les scientifiques ont souvent recours à des techniques d'analyse multivariée. Cependant, ces approches ne sont pas toujours faciles à mettre en œuvre, en particulier lorsqu'il s'agit de jeux de données mixtes. De plus, l'affichage d'un grand nombre d'individus conduit à des visualisations encombrées et difficiles à interpréter.

Nous avons développé une nouvelle méthodologie pour surmonter ces limites. Sa principale caractéristique est une nouvelle distance sémantique adaptée aux variables quantitatives et qualitatives qui permet une représentation réaliste des relations entre les individus (descriptions phénotypiques dans notre cas). Cette distance sémantique est basée sur des ontologies qui sont conçues pour représenter les connaissances réelles concernant les variables sous-jacentes. Pour faciliter la manipulation par les biologistes, nous avons intégré son utilisation dans un outil complet, du fichier de données brutes à la visualisation. Après le calcul de la distance, les étapes suivantes réalisées par l'outil consistent à (i) regrouper les individus similaires, (ii) représenter chaque groupe par des individus emblématiques que nous appelons archétypes et (iii) construire des visualisations éparses basées sur ces archétypes.Notre approche est implémentée sous la forme d'un pipeline Python et appliquée à un ensemble de données sur le rosier comprenant des données de passeport et des données phénotypiques.

La page du projet DIVIS sur ForgeMIA

Dans le cadre du projet DIVIS, nous avons été confrontés à la nécessité de caractériser des groupes d'individus en fonction des valeurs des variables du jeu de données. Une telle méthode a été développée par F. Husson et al avec la fonction catdes() du package R FactoMiner. Cependant, nous n'étions pas entièrement satisfaits du résultat de cette fonction, tant au niveau du tableau de données que de la visualisation. Nous avons donc développé notre propre implémentation Python, avec des extras...

La page du projet QuaDS sur ForgeMIA