Qu'est-ce qu'une base de données ?

Pour commencer, commençons bien et commençons par le début ! Savez-vous exactement ce qu'est une base de données et à quoi cela sert ? Si la réponse est non, ce petit paragraphe va remplir ces inconnues avec quelques notions essentielles à la compréhension du métier.

Une base de données est une structure très commune, permettant de rassembler au sein d'une même entité un ensemble de données ayant une cohérence entre-elles. Les bases de données se retrouvent dans le milieu de la biologie mais aussi dans tous les milieux professionnels, de la banque à l'hotellerie, en passant par le milieu de la recherche internationale.

Le but d'une base de données est d'avoir :

  • accès simultanée aux données par plusieurs postes
  • grande capacité de stockage
  • une gestion plus facile (pas besoin de recouper 25 fichiers différents) : centralisation des données + confidentialité



PS: pour les puristes, je ne ferais pas le distingo ici entre base et banques de données

Les missions de l'ingénieur

La mission principale ici est, bien évidemment, de créer la base de données demandées mais cela passe par plusieurs phases qui ne sont pas forcément toutes rencontrées par des ingénieurs informaticiens.

  1. Rencontrer les chercheurs : une base de données biologiques n'est correcte que si elle a été créée en adéquation avec le monde scientifique. Il ne sert à rien de refaire ce qui a déjà été fait et il ne sert à rien de faire ce qui ne servira pas. Ainsi, il faut de nombreuses discussions avec les chercheurs qui sont à l'origine du projet pour comprendre leurs attentes et comprendre à quoi pourra et devra servir la base.
  2. Vérifier la localisation des données : Les données biologiques sont multiples : elles sont "trouvées" sur des publications, générées automatiquement via des règles précises (synthèse dite in silico), ou calculées (exemple : masse des composés). Le but est donc, avant la création de toute base, d'analyser le type de données nécessaires et de vérifier où trouver ces données. Lors un cas récent auquel j'ai dû faire face, le but était de créer une base regroupant des informations présentes sur plusieurs supports au sein d'une même structure, ceci afin de simplifier les interrogations.
  3. A la mode informatique : Une fois que ces étapes sont réalisées, nous nous changeons alors en véritable informaticien, et nous réfléchissons au schéma de la base, et nous commençons notre codage. Ce qu'il faut néanmoins savoir est que la majorité des biologistes ne connaissent pas la langage des bases de données (SQL) et qu'il faut prévoir un outil de requêtage pour eux, avec une interface conviviale.



Pourquoi un bioinformaticien pour ce travail ?

Il est vrai que la création d'une base de données peut parraître spécifique des informaticiens "purs". Toutefois, il faut considérer ici que les biologistes ne parlent pas le langage informatique et que le dialogue entre 2 personnes ne comprenant pas le monde de l'autre est difficile.
Un bioinformaticien a pour capacité de comprendre les 2 mondes, sans pour autant être excellent dans les 2 domaines. Sa spécificité est ici d'être multi-thématique et d'avoir une forte capacité d'adaptation.

De plus, pour comprendre comment construire sa base de données "biologiques", il faut comprendre les données, et pouvoir dégager des tables d'intérêt, à la fois pour permettre d'interroger facilement la base mais aussi que les entités crées aient biologiquement du sens.

Exemple de bases de donnes "biologiques"

  • PubMed regroupe les papiers publiés
  • Uniprot KB regroupe des informations sur les protéines
  • PubChem regroupe des informations sur des éléments chimiques
  • ... et encore bien bien d'autres...