LA P-VALUE !
Dans le monde des tests statistiques, le principe est de fournir à l’investigateur une réponse à une question en situation d’incertitude. En effet, les tests ne sont jamais réalisés sur l’ensemble de la population concernée (par exemple l’ensemble des patients hypertendus ou atteints d’un cancer). Les résultats d’une étude (un essai randomisé par exemple) sont toujours entachés d’une incertitude car réalisés sur un échantillon, soumis à des fluctuations. Le principe général des tests est donc de répondre à la question existe-t-il une réelle différence entre un traitement X et un traitement Y dans la population d’ou est tiré l’échantillon ou les résultats sont-ils liés au hasard ?
En pratique on pose une hypothèse dite nulle (H0) qui est l’hypothèse d’absence de différence entre 2 traitements. On construit alors un test sur le don- nés observées pour mesurer s’il y a suffisamment de preuves contre cette hypothèse nulle. Il s’agit donc d’un principe de réfutation dans lequel on adopte une règle de décision qui amène à rejeter ou à ne pas rejeter H0. Au terme de toute étude, par exemple un essai randomisé, la décision de rejeter ou non H0 est fondée sur les données observées et leur compatibilité ou non par rapport à l’hypothèse nulle ; H0 étant l’affirmation de l’absence de différence, H0 peut être vraie ou fausse. Dans le cas d’un essai randomisé, le p (ou risque alpha ou risque de première espèce ou erreur de type I) est le risque d’affirmer qu’un traitement est meilleur qu’un autre alors qu’en réalité c’est faux. L’un des problèmes majeur est la valeur habituelle utilisée pour ce p (p-value) qui est de 5%. On considère que si l’on a moins de 5% de chance de voir une différence entre les 2 traitements dans l’essai, cette différence sera considérée comme statistiquement significative. Ce que ce degré de signification veut dire est que, si on le considère par exemple à 0.02, si l’on réalisait un très grand nombre de fois l’essai, sous l’hypothèse que les 2 traitements ne sont pas différents, on observerait la différence observée dans 2 cas sur 100. Le choix de ce seuil est parfaitement arbitraire et ne repose pas sur une base «statistique», mais sur un consensus dont l’origine remonte aux écrits du statisticien Anglais Fischer. Attention, on vous le répète toujours, mais n’oubliez pas qu’il ne faut pas confondre statistiquement et cliniquement significatif ! La valeur de p n’est que le ni- veau de confiance que l’on peut avoir dans le fait que la différence observée ne soit pas simplement due au hasard. Cette valeur n’est en aucun cas la mesure de l’importance de l’effet (ou taille d’effet). Plus p est petit, plus notre certitude (ou confiance) augmente, mais cela ne dit rien de la force de cette différence. L’autre grand piège autour du degré de signification est de conclure, lorsque p > 0.05 que les 2 traitements sont équivalents. Un résultat dit non significatif correspond à 2 réalités possibles :
1. il n’y a réellement pas de différence entre les 2 traitements ;
2. soit le test manque de puissance pour pouvoir la mettre en évidence..
Enfin une vidéo que je vous recommande pour bien comprendre le p, avec le sourire…(par le «Jack Black of statistics» !)