Les analyses post-hoc dans les études interventionnelles : comment démêler le vrai du faux ?
Niveau de difficulté : *
Mots clés : analyses post-hoc, sous-groupes, multiplicité des tests, comparabilité des groupes
Contexte
Dans les essais cliniques de phase 2 et 3, qui testent l’efficacité, un nombre important de données sont recueillies dans le cahier d’observation. Parmi elles, certaines correspondent aux critères de jugement et permettent donc de répondre aux objectifs de l’étude définis dans le protocole, d’autres seront prévues dans le cadre d’études ancillaires, d’autres encore sont utiles pour décrire la population et peuvent être utilisées dans des analyses non planifiées.
La problématique
La réalisation d’analyses post-hoc a généralement pour but d’apporter une information supplémentaire de l’analyse principale, et spécialement celle de l’objectif principal. Ces analyses ont-elles le même impact que les analyses prévues dans le protocole ? Quels en sont les bénéfices et les limites ?
La réponse
Définition d’analyse post-hoc
Une analyse post-hoc dans un essai clinique se définit comme toute analyse d’un ensemble de données non planifiée lors de la rédaction du protocole ou dans le plan d’analyse statistique. L’idée de la réalisation de cette analyse apparait au moment de la production des résultats principaux ou même après la publication des résultats principaux. Les analyses post-hoc peuvent porter sur le critère de jugement principal et sont alors réalisées dans différents sous-groupes, d’intérêt ou non, ou encore des nouveaux critères de jugement non prévus dans le protocole.
Les analyses en sous-groupes planifiées
Tout comme l’analyse des critères de jugement d’un essai, les analyses en sous-groupes, la définition de ces groupes ainsi que les méthodes utilisées doivent être clairement indiquées dans le protocole de l’étude et/ou dans le plan d’analyse statistique. Leur réalisation doit être minutieuse et respecter les recommandations pour éviter des surinterprétations qui amènent à des conclusions erronées. Malgré cela, ces analyses planifiées sont à limiter et leur utilisation est à justifier. Et pour cause, les analyses en sous-groupes se heurtent à plusieurs problèmes méthodologiques : inflation du risque alpha due à la multiplicité des tests, une diminution de la puissance statistique en raison du faible nombre de patients dans les différents sous-groupes. Enfin, une comparabilité des bras de randomisation qui pourrait être remise en question même dans les sous-groupes planifiés dans le cas où la randomisation n’a pas été stratifiée sur ces derniers.
Analyses en sous-groupes non planifiées
Quant aux analyses en sous-groupes post-hoc, elles rencontrent les mêmes problématiques citées au-dessus. De plus, aucune hypothèse n’est préalablement formulée et les auteurs de l’étude se retrouvent confrontés à interpréter, voire souvent surinterpréter, de nombreux résultats du critère de jugement principal. Il faut savoir que de nombreuses comparaisons peuvent être réalisées sans forcément être publiées. Le risque de présenter un résultat erroné est y exacerbé avec la possible présence de données faussement positives ou négatives. Prenons deux cas concrets : celui d’un essai non efficace et un autre dont l’efficacité du traitement a été démontrée.
Dans la première situation, les auteurs vont rechercher l’existence d’un effet dans un des sous-groupes comme c’est le cas dans l’étude de M. Gertz (abstract #760) qui a présenté une analyse réalisée sur une partie (stade IV de la Mayo Clinic) du facteur utilisé (stade III/IV versus I/II)
dans la stratification de la randomisation. Cela suppose que les auteurs aient testé les facteurs utilisés dans la stratification mais face aux résultats non significatifs, ils ont exploré davantage de sous-groupes. Comme signalé dans la critique méthodologique de cette étude, le résultat trouvé chez les stades IV apporte un doute sur la comparabilité des deux bras de traitement, et surtout sur le niveau réel du risque alpha. En effet, de nombreuses comparaisons du critère de jugement principal ont probablement été réalisées et le risque de trouver une différence significative, c’est-à-dire un effet qui n’est pas lié au hasard n’est plus de 5% mais bien plus important. De plus, ce résultat est susceptible de ne pas être confirmé par d’autres études.
Lorsqu’un essai est concluant, certaines publications s’intéressent à l’absence d’effet dans certains sous-groupes. Cela pose un autre problème méthodologique car en plus de la multiplicité des tests et de la non-comparabilité des bras, un résultat non significatif ne signifie pas une absence d’effet puisque la puissance statistique n’est pas suffisante pour mettre en évidence cet effet. Peut-être que la taille d’effet est aussi importante que dans la population totale mais l’effectif ne permet pas d’avoir une différence significative.
Dans certains cas, il peut être justifié de réaliser des analyses non planifiées, tel que la publication dans la littérature de nouveaux facteurs pronostiques après la conception de l’étude ou encore le changement de seuil de dichotomisation d’un paramètre quantitatif (exemple la MRD). Enfin, tout en évitant de réaliser des tests de comparaison, des données descriptives du critère de jugement dans les sous-groupes peuvent servir d’hypothèses pour des futures études randomisées.
Recommandations pour les analyses en sous-groupes
Pour remédier à ces difficultés, des recommandations ont été faites pour traiter ces analyses en sous-groupes. Parmi elles, la réalisation d’un test d’interaction au préalable est nécessaire, si ce dernier est significatif, des analyses en sous-groupes peuvent être envisagées. Pour tenir compte du déséquilibre des bras de randomisation, il est conseillé de réaliser des analyses ajustées sur des variables pronostiques qui sont idéalement prédéfinies dans le protocole. Cependant, l’ajustement est limité à l’effectif des sous-groupes et donc la comparabilité des bras ne peut être garantie. En plus des analyses en sous-groupes rapportées, le nombre d’analyses effectuées doit être indiqué dans les publications. Malgré ces recommandations, les conclusions doivent rester le plus souvent exploratoires, surtout pour les analyses post-hoc où l’interprétation doit être faite avec circonspection.
Autres types d’analyses post-hoc
Les sous-groupes ne sont pas les seuls concernés par les analyses post-hoc, c’est le cas également de des critères de jugement ajoutés après la conception dont l’interprétation doit rester exploratoire. Autre situation, une nouvelle analyse d’un essai clinique randomisé utilisant une méthode bayésienne. Celle-ci peut fournir des nouvelles informations et une interprétation différente de l’analyse principale dont les conclusions ne sont pas certaines.
Ce qu’il faut retenir
- La réalisation d’analyses en sous-groupes se heurte à plusieurs problèmes méthodologiques.
- Les analyses en sous-groupes post-hoc sont déconseillées.
Pour aller plus loin
- Chan AW, Tetzlaff JM, Altman DG, Laupacis A, Gøtzsche PC, KrleŽa-Jerić K, et al. . SPIRIT 2013 statement: defining standard protocol items for clinical trials. Ann Intern Med. (2013) 158:200.
- Wang R, Lagakos SW, Ware JH, et al. Statistics in medicine—reporting of subgroup analyses in clinical trials. N Engl J Med. 2007;357:2189–94.
- ICH Official web site : ICH. https://www.ich.org/pdfich/e9.pdf.
- EMA. Guideline on the investigation of subgroups in confirmatory clinical trials. European Medicines Agency/Committee for Medicinal Products for Human Use. 2014. EMA/CHMP/539146/2013.