Les tests d'hypothèses et les performances en bioinfo
Par Evelyne Duvernois le jeudi 2 juillet 2009, 21:11 - Des maths et de la bioinfo - Lien permanent
Cher ninternaute
En voulant te faire un topo sur mon travail de bioanalyste, je me suis rendue compte qu'il m'était très difficile de t'expliquer les choses sans parler avant de stats et de math... Ouille, je sais, ça fait mal ! Mais mon travail est ainsi, et si je ne t'explique pas ce qu'est une p-valeur ou une e-valeur, et ben, tu vas rien comprendre ! Et ça, ça me ferait encore plus mal à moi.
Voilà donc l'ouverture d'une nouvelle catégorie intitulée "Des algo et des maths", avec en tout premier lieu, les tests d'hypothèses et les performances.
Mon ninternaute, tu dois être conscient du fait que la bioinformatique est une science basée sur l'algorithmie et donc, en quelques sortes, sur les maths. Nous cherchons ce que la technique ne peut pas encore nous offrir et ce sont nos découvertes qui pourront être validées expérimentalement. Or, toutes nos recherches sont par définition informatiques, et il nous faut une méthode pour exprimer la validité de nos données. Comment savoir si telle découverte a plus de valeur (biologique) que sa petite voisine qui dit l'inverse ?
Test d'hypothèse
Avant de définir des valeurs statistiques, il faut analyser le problème. En stat donc, on se propose de clarifier les idées en posant des tests d'hypothèse. On compare alors 2 hypothèses :
- l'hypothèse nulle ou H0 est celle dont la différence avec le risque est non significative. En clair, c'est l'hypothèse qui suppose une absence d'effet et corresponds à ce que l'on souhaite vérifier.
- l'hypothèse alternative ou H1 regroupe les autres cas et implique une action.
Le problème est donc de trouver un moyen de d'affirmer ou d'infirmer H0. Le but du test est de savoir, avec un niveau de confiance donné, si H0 doit être rejeter ou non. Autrement dit, il faut pouvoir identifier une situation "biologiquement vraie" d'une situation "biologiquement fausse".
On définit alpha le risque de rejeter à tord H0 et bêta celui d'accepter à tord H1. On associe alors des coûts à ces valeurs. En math comme en biologie, on accepte le plus souvent H0 avec un alpha à 5%.
Performance et courbes ROC
Alors là ça se complique. Ce qu'il faut bien comprendre c'est que ce n'est pas parce qu'un test stat nous dit que c'est vrai, que ça l'est forcément. On analyse donc les performances de notre analyse et pour ce faire, pour un ensemble de données à analyser, on définit 4 sous-ensembles de données : les vrais-positifs, les faux-positifs, les vrais-négatifs et les faux-négatifs. Le "vrai-faux" décrit les prédictions et le "positifs-négatifs" décrit l'échantillon (la réalité).

Le but est que nous ayons un maximum de positifs et limitant les négatifs. Pour analyser cela, nous avons quelques calculs :
- la sensibilité ou rappel R = VP/(VP+FN) : pourcentage de vrais dans ce qu'on trouve
- la sélectivité ou précision P = VP/(VP+FP) : pourcentage de ce qu'on trouve qui est vrai
En clair, plus la sensibilité est forte, plus on trouve de réponses justes, et plus la sélectivité est forte, plus ce qu'on trouve est juste. Un système idéal proposerait une sensibilité et une sélectivité à 100%, ce qui n'est malheureusement pas possible. On déssine des courbes ROC pour montrer ce phénomène.
Ayé, vous avez tout compris ? Je poursuivrai cette catégorie par la description de valeurs importantes pour les bioinformatiques, j'ai nommé la p-value et la e-value (je t'en ai parlais en intro, faut bien que je m'y colle maintenant), en faisant un petit passage par le Blast... Ouhh je te sens intéressé mais il va falloir attendre un peu. A ciao bonsoir mon ninternaute.








Commentaires
Clair, net, précis.... bref je comprends mieux ^^
Merci pour cette page, elle correspond à un souci que je ne trouve pas à résoudre:
Y a-t-il des tables ou des fonctions graphiques permettant de calculer ou lire les valeurs du Bêta ou 1-Bêta de H1 ?
(ayant bien entendu à préciser les éléments intervenants)
Merci d'avance.