Machine learning : comment personnaliser encore l’évaluation pronostique ?
Le machine learning supervisé améliore la stratification du risque dans les syndromes myélodysplasiques nouvellement diagnostiqués : une analyse du groupe espagnol des syndromes myélodysplasiques.
Supervised Machine Learning Improves Risk Stratification in Newly Diagnosed Myelodysplastic Syndromes: An Analysis of the Spanish Group of Myelodysplastic
Syndromes.
D’après la communication orale de Adrian Mosquera Orgueira et al. Abstract #468, ASH 2022.
Contexte de l’étude
L’évaluation du risque pronostique est essentielle à la décision thérapeutique dans les syndromes myélodysplasiques, et la publication en 2022 de l’IPSS-M marque une étape importante dans l’évolution de la façon d’évaluer le pronostic en intégrant les données moléculaires (1). Parallèlement, l’utilisation de données de nombreux malades permet de bâtir des algorithmes de machine learning, où chaque historique de patient nourrit un algorithme de prédiction de la survie plus précis que le simple modèle de Cox(2). C’est ce que le groupe espagnol des syndromes myélodysplasiques a voulu faire dans ce travail.
Objectifs de l’étude
L’objectif était de construire un modèle intégrant des caractéristiques cliniques, de l’hémogramme, et de cytogénétique (pas de données moléculaires), avec un algorithme de machine learning, et de comparer sa prédiction à celle de l’IPSS-R (figure 1).
Résultats de l’étude
Les auteurs ont intégré les résultats de 7 202 patients inclus dans un registre regroupant 90 centres entre 2006 et 2022. Les patients étaient répartis en 80% pour la cohorte d’entraînement et les 20% restants pour la cohorte de validation. Le suivi médian était de 5 ans environ, la survie de 4,4 ans, les scores IPSS-R étaient Low ou Very Low dans deux tiers des cas, ce qui est représentatif d’une population de SMD « tout venant ».
Le prédicteur de machine learning a intégré 8 variables utiles pour la prédiction de la survie : l’âge, le sexe, la blastose médullaire, le taux d’hémoglobine, les plaquettes, les leucocytes, le pourcentage de neutrophiles et la cytogénétique. Les auteurs retrouvaient une capacité de prédiction avec ce modèle supérieure à l’IPSS-R (qui pour mémoire ne contient pas l’âge). Cependant, même dans les populations de moins ou de plus de 65 ans, le modèle de machine learning restait plus performant que l’IPSS-R. Si on regarde la façon dont les patients ont été reclassifiés, on observe que 60% des patients étaient reclassés dans leurs 5 nouveaux groupes de risque (figure 2).
La prédiction de la survie sans leucémie était aussi plus performante avec les mêmes variables, ainsi que la prédiction du risque par sous-catégorie diagnostique.
Quels impacts sur les connaissances et les pratiques cliniques ?
En pratique, l’IPSS moléculaire va certainement devenir l’outil de choix pour l’hématologue. La place d’un algorithme de machine learning sans données moléculaires risque d’être malaisé dans les prochains mois.
La suite logique de ce travail sera certainement la personnalisation de l’évaluation pronostique incorporant les données cliniques, biologiques, et moléculaires dans un même modèle. Les auteurs le proposent naturellement d’eux-mêmes.
Critique méthodologique
Pour calculer un nouveau prédicteur pronostique des patients atteints de syndromes myélodysplasiques nouvellement diagnostiqués, les auteurs ont choisi d’utiliser une technique de machine learning supervisé et plus précisément le Random Survival Forest (RSF).
Un des intérêts de cette méthode (voir le focus statistique sur Random Survival Forest et modèle de Cox) est de pouvoir inclure une multitude de variables sans se soucier de l’effectif de l’étude.
Il difficile d’apporter une critique méthodologique sur cette technique utilisée ici puisque l’auteur ne présente pas d’information sur les critères choisis, excepté le nombre de variables utilisées dans le modèle final. D’ailleurs, le nombre de variables et leurs caractéristiques ne sont pas communiquées. Il est nécessaire pour cette analyse de les présenter ainsi que l’importance des variables qui permettent de sélectionner les facteurs prédictifs dans le modèle final.
Toujours à propos des 8 variables utilisées dans ces nouvelles prédictions, il est étonnant de constater que ce sont les mêmes pour la survie globale et la survie sans leucémie. Ainsi, cela suggère que l’analyse a porté probablement sur seulement ces 8 variables présentées, ce qui est très peu compte-tenu du nombre de paramètres contenus dans le registre dont sont issues les données. Une petite remarque concernant ces 8 variables utilisées, il y a le niveau de risque cytogénétique provenant de l’IPSS-R. On peut se demander comment peut-on inclure dans le même ce score et les paramètres utilisés dans son calcul. En réalité et contrairement aux modèles de régression tels que le modèle de Cox, la multicoliéarité des covariables n’est pas un problème dans le RSF. Enfin, concernant les résultats, la capacité de prédiction du nouveau modèle est estimée par l’index-c qui est une probabilité de concordance (l’inverse du taux d’erreur entre les données prédites et observées). Cet indicateur n’est pas calculé pour l’IPSS-R dans cette population, difficile alors de conclure à une meilleure prédiction du nouveau score. De plus, certes 60% des patients sont reclassés dans différents groupes du risque de décès (figure 2), mais quid de ceux reclassés correctement ?
Références :
1 – Bernard, E., Tuechler, H., Greenberg, P. L., Hasserjian, R. P., Arango Ossa, J. E., Nannya, Y., Devlin, S. M., Creignou, M., Pinel, P., Monnier, L., Gundem, G., Medina-Martinez, J. S., Domenico, D., Jädersten, M., Germing, U., Sanz, G., van de Loosdrecht, A. A., Kosmider, O., Follo, M. Y., … Papaemmanuil, E. (2022). Molecular International Prognostic Scoring System for Myelodysplastic Syndromes. NEJM Evidence, 1(7). https://doi.org/10.1056/EVIDOA2200008.
2 – Nazha, A., Komrokji, R., Meggendorfer, M., Jia, X., Radakovich, N., Shreve, J., Beau Hilton, C., Nagata, Y., Hamilton, B. K., Mukherjee, S., al Ali, N., Walter, W., Hutter, S., Padron, E., Sallman, D., Kuzmanovic, T., Kerr, C., Adema, V., Steensma, D. P., … Sekeres, M. A. (2021). Personalized Prediction Model to Risk Stratify Patients With Myelodysplastic Syndromes. Journal of Clinical Oncology : Official Journal of the American Society of Clinical Oncology, 39(33), 3737–3746. https://doi.org/10.1200/JCO.20.02810.