Glossaire - HematoStat.net

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

A

Analyse ddPCR : technique de PCR de type “droplets digital“, analysant de petits échantillons.

Analyse par landmark : méthode d’analyse utilisée pour prendre en compte les variables d’exposition dépendantes du temps.

Analyse multivariée/analyse ajustée : analyse où sont évalués simultanément les effets de plusieurs variables explicatives sur une variable réponse, en général par l’utilisation d’un modèle de régression, dont le choix dépend de la nature de la variable réponse.

Analyse post-hoc : analyse des données (ou d’une partie des données) d’une étude, non prévue au protocole de l’étude et réalisée a posteriori.

Appariement (matching) : procédure utilisée dans les études comparatives visant à apparier les sujets entre les groupes sur des variables pré-identifiées (âge par exemple) dans le but de rendre les groupes comparables.

B

BATTing séquentiel : méthode récente de classification mis au point spécifiquement sur l’étude de la survie en fonction de la présence ou non de mutations.

Biais d’attribution : estimation faussée de l’association entre une intervention et la survenue d’un évènement, du fait que l’intervention a été prescrite principalement à des patients au pronostic différent.

Biais de sélection : sur ou sous-estimation d’un résultat découlant d’un échantillon non représentatif de la population cible. Ce biais intervient à la conception de l’étude.

Boxplot : ces graphiques sont très courants pour afficher des distributions de valeurs, ils se font appeler aussi “boîtes à moustache”. Ces “boîtes” sont formées de 3 barres, l’inférieure le 1^er quartile, la centrale la médiane et la supérieure le 3e quartile, et entourée de traits verticaux représentant la dispersion des valeurs autour de cette médiane.

C

Calcul d’effectif : calcul fait au moment de la planification d’un essai afin de déterminer, en faisant certaines hypothèses sur l’effet attendu du traitement, le nombre nécessaire de patients à inclure pour obtenir la puissance voulue (c’est-à-dire la probabilité de mettre en évidence l’effet du traitement si les hypothèses sont exactes).

Calibration d’un modèle : capacité du modèle à prédire le niveau de risque d’un évènement proche du niveau de risque réel. La calibration est une des composantes de la performance de prédiction d’un modèle.

Cause-specific hazard : fonction de risque instantanée d’un évènement particulier dans le cadre des évènements en compétition.

Censure : terme utilisé dans le cadre de données de survie (cf. survival data). La censure est un évènement qui interrompt le suivi d’un patient, autre que l’évènement d’intérêt qui constitue le critère de jugement. Si le critère de jugement est la survie globale, l’évènement d’intérêt est le décès, et la censure peut correspondre soit à un patient perdu de vue ou bien à l’arrêt du suivi car fin de l’étude (censure administrative).

Cohorte : très généralement une cohorte est un ensemble de sujets. Dans une étude dite de cohorte les sujets sont répartis en groupes en fonction de leur exposition et l’évènement n’est pas survenu au moment où cette répartition est faite. La comparaison du taux de survenue de l’évènement entre les différentes sous-cohortes, définies par l’exposition permettra de mesurer l’association entre exposition et évènement.

Conditional inference trees (CIT) : outil de machine learning proche du ‘random forest’ permettant également d’effectuer des classifications selon un arbre de décision mais avec un algorithme de type récursif et considéré comme plus puissant que son homologue en forêt aléatoire.

Correction de Firth : méthode de correction pouvant être utilisée pour des régressions logistique et de Cox lorsqu’il y a peu d’événements à étudier.

Courbe ROC : outil statistique graphique permettant d’étudier la performance diagnostic d’une variable quantitative (numérique) sur une variable réponse binaire (présence ou absence d’une maladie ou d’un événement) grâce au calcul de l’aire sous la courbe, avec en abscisse l’inverse de la spécificité (le taux de faux positifs) et en ordonnée la sensibilité (le taux de vrai positifs). Cet outil est utile pour la détermination de seuil (ou “cut-off“) d’une variable diagnostic afin de discriminer au mieux la variable réponse étudiée.

Critère composite : critère de jugement comportant plusieurs évènements, pouvant relever de l’efficacité et/ou de la tolérance de l’intervention étudiée (par exemple, décès de cause cardiovasculaire ou hospitalisation pour insuffisance cardiaque).

Cross-validation : ou validation croisée. Nom d’un processus de machine learning visant à analyser les performances d’un modèle issu d’une cohorte d’apprentissage par une cohorte de validation.

Cut-off : valeur seuil permettant de dichotomiser une variable numérique (i.e. continue ou qualitative).

D

Degré de signification / p-value (p) : probabilité d’observer sous l’hypothèse nulle (en général hypothèse d’absence de différence) une différence au moins aussi grande que celle observée dans l’étude. Lorsqu’il est inférieur au risque de première espèce (fixé en général à 0,05), on conclut à une différence statistiquement significative. Le degré de signification quantifie la force de notre conviction : plus il est faible, moins on pense que la différence observée dans l’étude puisse être liée au hasard.

Discrimination d’un modèle : capacité du modèle à différencier les patients à haut risque des patients à bas risque de développer un évènement. La discrimination est une des composantes de la performance de prédiction d’un modèle.

Doplot : ou diagramme en points, cette représentation permet de comptabiliser le nombre d’éléments appartenant à une catégorie (comme pour un histogramme).

E

Échantillon : sous-ensemble d’une population sélectionnée pour les besoins d’une étude.

Endpoint ou Outcome : critère de jugement clinique permettant d’évaluer l’impact d’un ou plusieurs paramètres (aucun effet, amélioration ou détérioration), paramètre(s) pouvant être une donnée biologique, un traitement, etc.

Étude cas-témoin (case control study) : étude rétrospective observationnelle dans le but d’évaluer l’association entre des facteurs de risques (exposition) et une maladie.

Étude pangénomique : étude évaluant l’association entre des polymorphismes génétiques et une maladie.

Étude prospective : étude dans laquelle l’exposition est mesurée avant la survenue de l’évènement étudié.

Étude randomisée : étude dans laquelle l’attribution du traitement a été tirée au sort. Le tirage au sort garantit l’équilibre, en moyenne, de tous les facteurs pronostiques connus et inconnus entre les groupes de traitement. Dans une étude randomisée idéale on peut estimer que les patients traités par A et B sont échangeables ce qui permet l’affirmation du lien de causalité entre différence de devenir des deux populations et traitement.

Étude rétrospective : étude dans laquelle l’exposition est mesurée après la survenue de l’évènement étudié.

Event free survival (EFS) / survie sans évènement : analyse de survie où l’on s’intéresse au délai de survenue d’un évènement composite regroupant le décès et la survenue d’un évènement (rechute, complication, en fonction de la définition choisie). En pratique on s’intéressera au délai du plus précoce de ces différents évènements.

F

Facteur de confusion : facteur ou variable lié à la fois à la variable à expliquer (critère de jugement par exemple) et la variable explicative (traitement). Peut être responsable d’un biais de confusion pour l’analyse de l’association entre la variable explicative et la variable à expliquer.

Facteurs de risque : variable associée à la survenue d’une maladie.

Facteur pronostique : variable associée à l’évolution (décès, survenue d’une complication) d’une maladie.

False discovery rate : probabilité d’avoir obtenu par erreur un résultat avec une p-value considérée comme significative.

Flowchart / diagramme de flux : organigramme décrivant le recrutement, la randomisation, et le suivi de l’ensemble des patients lors de l’étude.

Fonction de O’Brien-Fleming. : méthode d’allocation du risque alpha qui consiste à déterminer des seuils de p-values pour les objectifs à étudier en prévision d’analyses intérimaires (ou analyses séquentielles).

Forest plot : type de représentation graphique illustrant des résultats de modélisations univariées ou multivariées, ou bien la synthèse d’analyses en sous-groupes. On retrouve en abscisse la valeur du coefficient ou ratio (odds-ratio, hazard-ratio, risque relatif,…) avec son intervalle de confiance, et en ordonnée variables ou sous-groupes.

Funnel plot : dit aussi graphique « en entonnoir », cette représentation graphique affiche des valeurs estimées (prévalences, risques, odds-ratios, etc.) en fonction de la taille de l’échantillon d’une étude ou population, l’entonnoir étant dessiné par l’intervalles de confiance de 95% en fonction de l’effectif. Ainsi on peut observer si certaines études ou populations n’ont pas de biais importants si celles-ci sont à l’intérieur de cet intervalle ou « entonnoir ».

G

Gold standard : ou “étalon-or”, il s’agit de la méthode de référence qui permet la meilleure qualité de résultats.

H

Hazard Ratio : rapport des risques instantanés, mesure d’effet utilisée dans les modèles de régression pour données de survie.

Heatmap : traduit en français par “carte thermique”, cette représentation graphique se constitue de mosaïques de couleurs utilisant généralement des couleurs chaudes (jaune au rouge) ou froides (violet au bleu) suivant l’augmentation ou la diminution de valeurs.

I

Incidence : nombre de nouveaux cas observés dans une population donnée, divisé par la taille de cette population et la durée de la période d’observation, à ne pas confondre avec la prévalence.

Index C (Harrell) : mesure de concordance permettant d’évaluer la discrimination d’un modèle ou d’un marqueur.

Imputation multiple : technique basée sur différents algorithmes permettant de remplacer des données manquantes dans une base de données.

IPTW : méthode de pondération d’une régression par l’inverse du score de propension (voir focus statistique dédié).

J

K

Kaplan-Meier (méthode) : estimation non paramétrique de la fonction de survie (S(t)= probabilité d’être encore en vie au temps t) qui permet de tenir compte de la censure, c’est-à-dire de l’interruption du suivi de certains patients avant la survenue de leur décès. La représentation de la survie au cours du temps est appelée courbe de Kaplan-Meier.

L

Leave-one out : batterie d’analyses en série où pour chaque analyse, une sous-partie différente de la population analysée est soustraite (une fraction choisie aléatoirement comme un sous-groupe de patients, une cohorte spécifique).

M

Machine learning : ou “apprentissage machine” en français, est un aspect de la science des données utilisant des algorithmes d’intelligence artificielle.

Médiane de suivi : délai au-delà duquel moins de 50 % des patients sont encore suivis.

Médiane PFS : délai au-delà duquel 50 % des patients sont décédés ou ont vu leur maladie progresser.

Méthode ATT : pour ‘Average Treatment effect in the Treated’. Dans le cadre d’une étude rétrospective, au cours de laquelle on souhaite étudier l’effet d’un traitement, il arrive qu’on ait recours au procédé de pondération inverse en faisant une régression, afin de limiter l’effet des variables confondantes liées au choix du traitement. La méthode ATT est celle utilisée dans le cas où les variables confondantes peuvent potentiellement influer sur le choix du traitement et se calcule comme suit : Traitement (variable codée A=0/B=1) + SP x (1−Traitement)/(1−SP), où SP est le score de propension d’avoir préférentiellement le traitement B par rapport à A.

Méthode de Bonferroni : technique post hoc très conservatrice de correction de p-values dans le cadre de tests multiples qui consiste à multiplier la valeur brute des p-values par le nombre de tests effectués.

Méthode de Clopper-Pearson : méthode de calcul d’intervalles de confiance autour de la fréquence d’un événement.

Méthode de Lan-Demets : méthode dérivée de la fonction de O’Brien-Fleming qui est plus flexible et ne tient pas forcément du compte du moment où l’analyse intérimaire se produit ni de l’effectif total à inclure. Elle peut dès lors être utile quand lorsqu’on stoppe les inclusions sans l’avoir prévu au départ.

Méthode de pondération : méthode qui consiste à donner un ‘poids’ à un événement ou une mesure dans une régression.

Méthode des moindres carrés pondérés (weighted least squares ou WLS) : méthode communément employée dans le cadre de méta-analyses visant à évaluer l’impact et/ou la corrélation entre un paramètre et un critère d’étude à l’échelle des études compilées, où l’importance d’une étude est pondérée en fonction de son effectif par rapport aux autres études.

Méthode XG Boost : algorithme de machine learning dit d’amplification de gradients utilisant différentes méthodes d’optimisation, et dont le résultat se traduit par des arbres de décision.

Modèle de Cox : ou régression de Cox. Cette modélisation, partant du principe que les risques sont proportionnels, vise à estimer le hazard-ratio d’une variable continue ou de la catégorie par rapport à une autre d’une variable qualitative dans le cadre d’analyses de survie principalement.

Modélisation de Cox : type de régression utilisée pour l’estimation de l’effet d’une ou plusieurs variables dans le cadre d’analyses de survie par le calcul de hazard-ratio. Comme pour la méthode de Kaplan-Meier, cette régression a pour variable réponse la survenue d’un événement observé au cours du temps (bien souvent le décès, seul ou avec autre événement choisi dans le cadre de critères composites) avec possibilité de censure (le fait que l’événement ne soit pas observé dans le temps), le temps étant défini comme la durée entre le date de début du suivi (randomisation, diagnostic, greffe, traitement, etc.) jusqu’à la date de dernier suivi ou celle de l’événement observé. En d’autres termes, il s’agit d’une forme de régression logistique étudiant sur la survenue d’un événement mais qui tient compte de la temporalité de cet événement.

Modélisation de Fine&Gray : type de régression utilisée dans le cadre d’analyse d’incidence cumulative d’un événement donné dans le temps (rechute par exemple), comme pour les modélisations de Cox mais qui intègre en plus l’impact d’un ou plusieurs risques compétitifs (le décès sans rechute dans notre exemple). Elle permet l’estimation de l’effet d’une variable sur cet événement par le calcul d’un hazard-ratio de sous-distribution.

Modèle IRMMa : modèle prédictif basé sur des outils d’intelligence artificielle permettant d’évaluer le risque individuel de décès chez des patients atteints de myélome multiple selon ses caractéristiques, celle de la maladie et sa génétique.

Modèle multi-état : modèle complexe basé généralement sur des régressions de Cox, tenant compte de différentes phases du patient tout au long de son suivi. Généralement, il est étudié la survie, la rechute, etc., de manière séparée, ce type de modélisation permet d’étudier les différentes phases de la vie d’un patient, comme le passage entre la rechute et le décès, ou bien la guérison après une rechute, ce tout à la fois.

Modèle de Royston&Pamar : modèle permettant d’estimer la variation d’un hazard-ratio d’une variable au cours du temps dans le cas où l’hypothèse de proportionnalité d’un effet n’est pas respectée.

Modèle linéaire mixte : un modèle pour lequel le modèle comprend à la fois des effets fixes et des effets aléatoires.

Multiple-multivariate-imputation-by-chained-equations : abrégé par MICE, cette méthode d’imputation multiple (pouvant être utilisée pour remplacer des données manquantes) se base sur des prédictions en fonction des données et variables en présence dans la base.

N

O

Odds-ratio : rapport de risques calculé par une régression logistique permettant d’évaluer l’effet d’un facteur ou d’un groupe sur une réponse ou événement de type binaire (présence/absence, oui/non). L’hypothèse nulle stipulant l’absence d’effet se traduit par un odds-ratio égal à 1; s’il est supérieur à 1 c’est que le risque que l’événement ou réponse se produise plus souvent, et inversement s’il est inférieur à 1.

P

Patients-reported outcomes (ou PRO) : se traduit par « résultats apportés par le patient ». Il s’agit d’un outil de reporting où le patient lui-même, de son propre point de vue, rapporte son état et non le médecin. On peut assimiler les questionnaires de qualité de vie du PRO.

Pénalisation LASSO : outil permettant de sélectionner des variables parmi un ensemble de paramètres par une contraction des coefficients de régression, dont le niveau de pénalisation est décidé par l’utilisateur.

Placebo : préparation dépourvue de tout principe actif.

Plackett copula : méthode complexe et très pointue d’analyse de corrélation utilisée dans le cadre de méta-analyses dont l’objectif est d’étudier le caractère pronostic d’un ou plusieurs paramètres. L’intérêt de cette méthode est qu’elle étudie la corrélation à l’échelle individuelle et non pas de l’essai/d’une cohorte.

Plan de Simon : souvent utilisé dans des essais de phase 2, le plan de Simon permet d’inclure des patients en plusieurs étapes à partir d’un effectif initial, avec une prise de décision “stop ou encore” à chaque étape, le but étant de gagner du temps si un essai s’avère très tôt efficace.

Prévalence : nombre de cas de maladies présents à un moment donné (que le diagnostic soit récent ou ancien) divisé par taille de la population de l’étude. Correspond donc à la proportion de sujets malades à un instant donné dans la population.

Progression free survival (PFS) / survie sans progression : analyse de survie où l’on s’intéresse au délai de survenue d’un évènement composite regroupant le décès et la progression de la maladie (i.e. au délai du plus précoce de ces deux évènements).

Progression free survival 2 (PFS2)/ survie sans progression 2 : critère de jugement où l’on s’intéresse au délai de survenue d’un évènement composite regroupant le décès et la progression de la maladie après une deuxième ligne de traitement. La progression sous la 1^re ligne de traitement n’est pas donc pas considérée comme un évènement avec ce critère.

Puissance : dans le cadre d’un test statistique, probabilité de mettre en évidence une différence entre deux populations, à partir d’une étude sur échantillons de patients, sachant qu’il existe réellement une différence.

p-value : probabilité d’obtenir les résultats observés en supposant H0 (hypothèse nulle d’égalité) à l’issue d’un test statistique ou d’une régression. On considère en général que si cette valeur de p-value est inférieure au risque alpha (fixé habituellement à 5%), on rejette cette hypothèse nulle car on a moins de 5% de chance que l’effet observé soit celui du hasard.

Q

R

Randomisation : affectation aléatoire des participants dans les groupes de traitements.

Random forest : outil de machine learning permettant de déterminer à partir de variables d’intérêt (qualitatives ou quantitatives) des profils significativement distincts d’un endpoint étudié à travers une illustration sous forme de diagramme en arbre.

Random survival forest : sous-type de random forest permettant de distinguer des profils d’individus suivant leur niveau de survie (en se basant sur la méthode de Kaplan Meier).

Rank Preserving Structural Failure Time : méthode nouvellement utilisée afin d’estimer l’impact sur la survie (globale ou sans événement) d’un traitement dans le cadre d’un essai où les cross-over ou switching sont permis. Elle permet d’estimer le gain (ou la perte) en terme de temps de survie d’un traitement donné depuis le switching.

Recommandations de PRISMA : dans le cadre de méta-analyses, ces recommandations visent à encadrer et faire preuve de transparence vis-à-vis de la revue de la littérature et de la description des publications retenues dans ce type d’étude en suivant un certain nombre de critères.

Recul : délai entre la date de début du suivi et la date de l’analyse (ou date d’arrêt du recueil de données de l’étude). Le recul est individuel, spécifique à chaque patient.

Régression de Cox : modélisation utilisée pour analyser l’effet de paramètres sur la survie au cours du temps en présence de censures, en estimant des hazard-ratios.

Régression du Fine&Gray : équivalent du modèle de Cox pour l’analyse d’incidences cumulées tenant compte de risques compétitifs.

Représentations de Simon & Makuch : ce sont des courbes de Kaplan-Meier (courbes de survie) modifiées utilisées dans le cadre de variables temps-dépendantes, comme une modification de traitement durant le suivi des patients.

Risque alpha / risque de première espèce : probabilité de rejeter à tort l’hypothèse nulle (en général hypothèse d’absence de différence) alors qu’elle est vraie. Ce seuil est de manière consensuelle fixé dans la littérature biomédicale à 5 %. Si le degré de signification (p-value) du test est inférieur au risque alpha, on rejette l’hypothèse nulle et conclut à une différence significative.

Risques compétitifs ou en compétition (Competing risks) : situation d’analyse de survie où le patient peut être exposé simultanément à la survenue de plusieurs évènements, la survenue de l’un annulant ou modifiant la probabilité de survenue des autres.

S

Score IPI : l’International Prognostic Index est score pronostic de la survie conçu spécialement pour les études sur les cohortes de patients atteints de lymphomes non-hodgkiniens.

Score prédictif : il s’agit d’une valeur numérique composite calculée à partir de variables pré-existantes (facteurs de risque par exemple) et coefficients (estimés à partir d’un modèle prédictif) pouvant déterminer la propension d’un patient à avoir un risque accru sur un endpoint d’intérêt (survie, survie sans progression, etc.).

Score pronostique : score permettant d’estimer le pronostic d’une personne. Il est établi selon plusieurs facteurs pronostiques.

Score de propension : probabilité de recevoir un traitement, issue d’un modèle de régression sur les caractéristiques initiales. Ce score permet de neutraliser le biais d’attribution dans les études observationnelles.

Standards de Cochrane : Outils méthodologiques et statistiques requis pour mener une méta-analyse en bonne et due forme.

Standard of care : traitement(s) et/ou prise en charge préconisés actuellement en routine.

Statistique R² : appelée aussi coefficient de détermination, est une valeur comprise en entre 0 et 1 apportant une indication sur l’adéquation du modèle de régression linéaire par rapport à la variable réponse étudiée.

Stratification : terme employé pour indiquer la prise en compte d’un facteur de confusion. S’emploie soit dans le cadre du design d’un essai randomisé (randomisation stratifiée) soit au moment de l’analyse statistique des données.

Survie médiane : délai au-delà duquel 50 %, des patients de l’étude sont décédés (ou ont expérimenté l’évènement d’intérêt si l’outcome n’est pas le décès).

Survival data / Time to event data / Time to failure data : données pour lesquelles la variable d’intérêt est un délai d’évènement (event/failure) : délai jusqu’au décès pour la survie, ou délai jusqu’à un évènement d’intérêt ou jusqu’au premier de plusieurs évènement d’intérêt en fonction des définitions choisies (EFS, PFS). Le fait que les délais d’évènement aient une distribution asymétrique et qu’une partie des données soit censurée (l’évènement n’est pas observé pour la totalité des patients de l’étude) impose d’utiliser des méthodes d’analyse spécifiques.

Swimmer plots : représentations graphiques semblables à des histogrammes verticaux ou frises, décrivant l’évolution dans le temps (en abscisse) des patients (placés en ordonnées). Ces graphiques détaillent par exemple les évolutions de niveaux de réponses à un traitement ainsi que des événements divers survenus au cours de son suivi (sortie d’étude, décès, progression de la maladie, greffe,… au choix). Ces représentations sont souvent utilisées dans le cadre d’essai cliniques de phase I/II sur de petits échantillons.

T

Test apparié paramétrique : ou test t apparié (équivalent d’un test one-way comparant des différences de valeur par rapport à 0).

Test non-paramétrique de Wilcoxon : équivalent non-paramétrique du test t de Student comparant 2 échantillons, effectué sur les rangs.

Test de Chi² : écrit aussi Khi-deux ou χ², ce test permet d’analyser l’effectif observé d’une table par rapport un effectif théorique. Il existe plusieurs sortes de test de Chi²: d’adéquation (à une loi), d’homogénéité et d’indépendance (dit de Pearson) qui s’applique aux données catégorielles (ou variables qualitatives).

Tests d’Egger et Begg : tests utilisés dans le cadre de méta-analyses dont l’hypothèse nulle est qu’il n’y a pas de biais de publications.

Test de Gray : test de comparaison des fonctions d’incidence cumulée. Equivalent du test de log-rank pour comparer des courbes d’incidences cumulées (avec risque compétitifs).

Test du Logrank : test de comparaison des fonctions de survie.

Test de Mann-Whitney : équivalent non-paramétrique de test t de Student, ce test statistique permet de comparer les distributions de 2 échantillons en utilisant la somme des rangs des valeurs. Son intérêt qu’il permet également de comparer des échantillons de petite taille.

Test exact de Fisher : ce test de contingence est utilisé couramment pour des tables de taille 2×2 afin d’évaluer l’association de deux variables qualitatives. Il est plus adapté que le test de Chi2 si des effectifs sont inférieurs à 5 et se base sur l’estimation de l’odds-ratio.

Test non-paramétrique de Kruskal-Wallis : équivalent non-paramétrique de l’ANOVA, ce test statistique permet de comparer les distributions de 3 échantillons ou plus en utilisant la somme des rangs des valeurs. Son intérêt qu’il permet également de comparer des échantillons de petite taille.

Tests séquentiels : ou analyse séquentielle, tests effectués lorsque des analyses sont effectuées avant la période d’analyse finale ou avec une part des effectifs totaux prévus. Ces tests nécessitent souvent des corrections de p-value (ou réévaluations de seuils de risque alpha).

U

V

Variables d’ajustement : lorsqu’on souhaite estimer l’effet d’un paramètre (traitement, facteur démographique, etc…) sur une réponse, il se peut que d’autres paramètres puisse biaiser ce résultat. Afin de rectifier cet effet, il convient de faire un modèle multivarié ajusté sur ces paramètres, dites variables d’ajustement.