Sélectionner une page

Outils Python

Vous trouverez ici quelques outils pratiques en Python, appliqués à la biologie. Ces scripts n’ont pas été testés sous Python 3.

FASTA to FASTAQ

Cet outil permet de convertir un fichier au format fasta en format fastaq. Contrairement au fasta, le fastaq permet d’intégrer une information de qualité des séquences par nucléotide. Cette qualité est codée en caractères texte ASCII définissant une échelle de qualité croissante de « ! » à « ~ ».
Dans notre cas, l’information de qualité est inconnue dans le fasta à convertir, c’est pour cela qu’une qualité arbitraire peut être appliquée aux séquences via un argument.

  • Fichier à fournir: query.fasta
  • Import Python nécessaire: sys & BioPython (SeqIO)
  • Exemple de commande sous LINUX:

python FASTA_to_FASTAQ.py [Nom du fichier fasta] [indice de qualité]

Téléchargement: FASTA_to_FASTAQ.zip

FASTAQ to FASTA

Cet outil permet de convertir un fichier au format fastaq en format fasta. Aujourd’hui la plupart des données de séquençage sont fournies aux laboratoires sous forme de fastaq, un format qui inclut une information de qualité par nucléotides pour chaque séquence, information essentielle au bon fonctionnement des logiciels d’assemblage.
Cependant, certains logiciels de traitement de données génomiques ne prennent en compte que le format fasta, cet outil peux donc s’avérer bien utile !

  • Fichier à fournir: Fichier au format fastaq
  • Import Python nécessaire: sys & os
  • Exemple de commande sous LINUX:

python FASTAQ_to_FASTA.py [Nom du fichier fastaq]

Téléchargement: FASTAQ_to_FASTA.zip

Analyse colonnes

Cet outil compare des éléments communs se situant dans diverses colonnes. Il peut être utile pour comparer la présence ou l’absence de gènes comme c’est le cas dans le jeu de données fournies en exemple. Les colonnes sont dans un fichier texte avec « , » comme séparateur, le fichier doit obligatoirement s’appeler query.txt, les résultats sont dans le dossier match.

  • Fichier à fournir: query.txt
  • Import Python nécessaire: sys & os
  • Exemple de commande sous LINUX:

python analyse_Colonnes.py [Nombre de colonnes dans lequel doit être retrouvé le match]

Téléchargement:  analyse_Colonnes.zip

Matrice visualisation

Cet outil permet de générer un fichier html à partir d’une matrice tout en réalisant un dégradé de couleur au choix permettant ainsi de visualiser plus intuitivement les éléments comparés entre eux. Le script prend en entrée un fichier au format csv avec comme séparateur le caractère « , » (fichier exemple fourni).

  • Fichier à fournir: Fichier au format csv avec « , » comme séparateur.
  • Import Python nécessaire: sys & OS
  • Exemple de commande sous LINUX:

python matrice_visualisation.py [nom du fichier csv] [code couleur choisi de 1 à 3]

Téléchargement: Matrice_visualisation.zip

aleatoire seq generator

C’est un générateur de séquences ADN aléatoires avec un tirage à probabilité égale entre les quatre bases. La longueur et le nombre de séquences est à choisir en argument. Cela permet de générer un fichier fasta aléatoire pouvant servir à tester d’autres outils.

  • Fichier à fournir: Aucun.
  • Import Python nécessaire: sys & numpy
  • Exemple de commande sous LINUX:

python aleatoire_seq.py [Nombre de nucléotides par séquence] [Nombre de séquences]

Téléchargement: aleatoire_seq_generator.zip

ATGC Stat

Analyse statistique de la composition des séquences ADN en A,T,G,C.
Cet outil prend en entrée un fichier fasta, pouvant contenir plusieurs séquences, spécifié en argument. (fichier exemple query.fasta fourni)

  • Fichier à fournir: Fichier au format fasta
  • Import Python nécessaire: sys & BioPython (SeqIO)
  • Exemple de commande sous LINUX:

python ATGC_stat.py [Nom du fichier fasta]

Téléchargement: ATGC_Stat.zip

Get randomSQ

Cet outil permet de récupérer aléatoirement un nombre de séquences demandées dans un fichier fasta nommé obligatoirement query.fasta

  • Fichier à fournir: query.fasta
  • Import Python nécessaire:sys, os, numpy & BioPython (SeqIO)
  • Exemple de commande sous LINUX:

python get_randomSQ.py [Nombre de séquences demandées]

Téléchargement: get_randomSQ.zip

ORFtoPROT

Cet outil recherche tous les cadres de lecture ouvert ou ORF pour chaque séquence du fichier fasta en entrée, les rapporte dans des fichiers fasta indépendants par séquence et par cadre de lecture. De plus il convertit les séquences trouvées en séquences protéiques. Cet outil est particulièrement adapté à la recherche d’ORF sur de grandes séquences (chromosomes entiers !) dans la mesure où il fonctionne en flux tendu et non en chargeant la séquence en RAM. La base du code génétique pour la conversion peut être modifié dans le fichier GC.txt

  • Fichier à fournir: query.fasta et GC.txt (fourni de base)
  • Import Python nécessaire:sys, os & BioPython (SeqIO)
  • Exemple de commande sous LINUX:

python ORFtoPROT.py

Téléchargement: ORFtoPROT.zip

Pour toutes questions concernant le fonctionnement de ces outils n’hésitez pas à me contacter via ce site ou par mail.
D’autres outils sont à venir…