Projet EcoGenoDB

Dans le cadre du stage de M2 (Rapport complet), j’ai mis en place une base donnée moléculaire et écologique (données poissons) à l’aide de Postgres SQL 9.1 et du module géographique PostGIS, dans le but d’archiver, trier, faciliter l’utilisation et le maniement des données du laboratoire, actuelles et futures. Aujourd’hui EcoGenoDB est une base de données en pleine expansion qui ne cesse d’accueillir de nouvelles données éco-génomiques toujours plus récentes. En permanence maintenue à jour par mes soins, cette base de donnée est une référence en écologie en particulier pour le modèle chondostoma tant par les données qu’elle contient que par l’avancée des outils d’analyses et de représentations géographiques des données développées par mes soins qui lui sont associées. EcoGenoDB a même fait l’objet d’un poster à la VI e Rencontres de l’Ichtyologie en France à Paris (Section publication).

Cette base de donnée est pilotée à l’aide d’une interface WEB réalisée en Python CGI hébergée sur le même serveur que celui qui la contient.
Cette interface permet de consulter, modifier et télécharger les données contenues dans cette base de donnée selon les droits accordés à chaque utilisateur. (Disponible sur ecogenodb.imbe.fr)

Ci-dessous, vous pouvez voir dans l’ordre d’apparition, une capture d’écran de l’interface principale de gestion de la base de donnée, un aperçu du tableau de visualisation des données contenues dans la base et enfin la fiche détaillée d’un individu en particulier.

L’utilisateur peut ainsi charger dans la base les informations contenues dans les fichiers grâce à l’option « Entrée données », vérifier ses données avant sauvegarde et enfin les archiver dans la base de données.

L’utilisateur peut également consulter la base de donnée et visualiser sur un tableau ou télécharger sous forme de fichiers les données selon une sélection parmi les critères associés au contenu de la base à l’instant de sa consultation. A tout moment la sélection de données en cours de visualisation peut être supprimée ou modifiée en cas où celles ci seraient erronées.
Le tableau de visualisation permet de résumer l’ensemble des données disponibles pour chaque individu de la sélection en un seul coup d’œil, ensuite, le détail des données (Séquences ADN, photos, méristique, genotypes…) pour un individu en particulier est disponible sur sa fiche détaillé consultable à tout instant.

Des outils de traitement sont également disponibles directement sur les serveurs du laboratoire, comme par exemple le calcul d’indices génétiques via Genepop.
j’ai également mis en place un outil de cartographie automatisée toujours en Python.





Mon étude réalisée durant mon stage et mon CDD au sein du laboratoire IMBE, s’appuie essentiellement sur la localisation géographique ainsi que sur les liens génétiques entre les différentes populations. Cet outil est capable de positionner géographiquement les stations d’intérêt grâce à leurs coordonnées géographiques contenues dans la base de donnée, il associe à chaque station les proportions des espèces présentes dans la base de donnée au moment de sa consultation, retrouvées aux niveaux de ces localités. Cet outil est également capable de représenter le tracé des cours d’eaux de différentes couleurs, reliant nos stations entre elles et permettant ainsi de visualiser les indices calculés à l’aide de l’outil Genepop directement à partir des données génomiques contenues dans la base de donnée.

La sortie s’effectue à l’aide d’un fichier au format kml que Google Earth ou tout autre logiciel de cartographie peut lire, visualiser et ainsi superposer nos points et cours d’eaux sur une vue satellite.
La même visualisation peut également être réalisée sous forme de graphes visualisant ainsi les liens génétiques entres les populations qui ne communiquent pas entres elles par des cours d’eaux. Bien que pouvant engendrer des biais d’interprétation, cette visualisation en réseau est également nécessaire pour la réalisation des études du laboratoire, bien qu’elle ne puisse pas se substituer au réseau hydrographique.

Il constitue donc un outil de visualisation dynamique qui servira à toute l’équipe du laboratoire pour suivre l’évolution de la biodiversité au cours du temps quand de nouvelles informations seront ajoutées dans la base de donnée (Campagnes futures de génotypage).
Ci dessous un exemple de carte interactive générée par mon logiciel, cela prouve également que le contenu de ces cartes peut être rendu facilement accessible au public en intégrant celles ci au site internet de l’entreprise.



Représentation spatiale des indices de différenciation Fst des stations connectées entre elles (couleur du lit de la rivière) et des proportions des trois populations d’intérêt (diagrammes circulaires par station).

Legende 2 Legende 1


Détail de la représentation spatiale linéaire des indices de différenciation Fst pour Parachondrostoma toxostoma.