Comment appréhender la question des tests multiples dans le cadre d’essai cliniques multi-bras ?
Niveau de difficulté : *
Mots clés : hypothèses – risque alpha – ajustement
Contexte
Il arrive parfois de voir apparaître des essais cliniques de phase 3 n’étudiant pas un bras expérimental versus un bras contrôle, mais 2 bras de traitements expérimentaux ; trois bras étant bien plus rare. On appelle cela des essais multi-bras. Cela peut avoir un impact sur le bon choix du risque alpha, ou seuil de significativité, par conséquent sur le calcul du bon nombre de patients par bras.
La problématique
Lorsqu’on effectue plusieurs comparaisons ou tests statistiques, le risqua alpha peut « enfler » et la question des tests multiples se pose légitimement. Dans le cadre d’analyses exploratoires, ce n’est pas indispensable mais s’il est question de confirmer un résultat, d’avoir un niveau de preuve fort, il convient dès lors de soit réévaluer le seuil de significativité (notre risque alpha) ou soit de corriger les p-values (selon une méthode choisie parmi tout un panel). Comment aborder cette question ?
La Réponse
Il existe plusieurs situations possibles, certaines n’ont pas de consensus et demandent juste un peu de bon sens.
Prenons le cas le plus simple : deux traitements expérimentaux différents. Dans ce cas de figure, chaque bras expérimental est comparé à un seul et même bras contrôle. À noter que d’avoir 2 bras “contrôle” différents revient à faire 2 essais cliniques séparés (cela n’a aucun intérêt si le but est d’économiser le nombre de patients). Nous sommes donc en présence de deux hypothèses distinctes mais liées par le fait de partager le même groupe de patient contrôle. Étant donné que les deux hypothèses sont indépendantes, c’est-à-dire que l’on analyse les bras expérimentaux séparément par rapport aux contrôles, il n’y a pas de consensus formel. Autrement dit, on peut conserver le seuil habituel de 5% mais la règle (tacite ?) de la multiplicité des tests nous suggère d’ajuster le seuil/corriger la p-value selon le nombre de comparaisons effectuées. Si on utilise la méthode Bonferroni, on divise ce seuil par 2, soit 2.5%. Il existe d’autres méthodes moins contraignantes, chacun fera son choix.
Dans le cas de combinaisons de traitements ou d’un même traitement à différentes doses, toujours avec deux bras expérimentaux, l’ajustement (ou correction) devient indispensable. D’autant plus si l’on souhaite ajouter une 3e hypothèse, qui consiste à comparer les 2 bras expérimentaux entre eux (avec versus sans association d’une molécule supplémentaire ? 200 mg versus 400 mg ?). Cela se traduira par alors 3 tests à effectuer et donc un seuil à 1.67% selon la méthode Bonferroni.
Il existe d’autres éléments à prendre en compte dans la détermination de ce seuil :
le ratio des différents bras (1:1:1, 2:1:1 ou 1:2:2 ?) ;
s’il y a une dépendance entre les 2 ou 3 hypothèses formulées, c’est-à-dire si l’on soumet le résultat au rejet d’au moins une ou plusieurs des hypothèses, il faut considérer le taux d’erreur autour de la « famille » ou série de tests (FWER, FMER…), appelée aussi erreur de type I
cumulative.
Dans tous les cas, durant la rédaction du protocole, il convient de discuter avec le ou les biostatisticiens pour déterminer les hypothèses à vérifier et des ajustements à opérer pour évaluer le risque alpha. Ce risque sera déterminant dans le calcul du nombre de patients à inclure pour vérifier ces hypothèses.
Ce qu’il faut retenir :
- Le choix du bon risque alpha est déterminant pour le bon calcul du nombre de patients, il doit se faire en amont d’un essai.
- Le seuil de significativité dépend de plusieurs critères : de la nature des bras expérimentaux (traitements différents ? Combinaison de traitements ? Doses différentes), du ratio, du nombre d’hypothèses et de leur dépendance.
- Précision supplémentaire : comme tout essai clinique, cela peut se complexifier davantage avec le nombre d’objectifs à analyser et s’il y a oui ou non des analyses intermédiaires.
Pour aller plus loin
- Wason JM, Stecher L, Mander AP. “Correcting for multiple-testing in multi-arm trials: is it necessary and is it done?” Trials. 2014 Sep 17;15:364. doi: 10.1186/1745-6215-15-364. PMID: 25230772; PMCID: PMC4177585.
- Howard DR, Brown JM, Todd S, Gregory WM. “Recommendations on multiple testing adjustment in multi-arm trials with a shared control group”. Statistical Methods in Medical Research. 2018; 27(5):1513-1530. doi:10.1177/0962280216664759.