Deep learning et pronostic du cancer colorectal, un certain manque de profondeur

L’émergence de meilleurs marqueurs pronostiques est nécessaire pour stratifier les patients atteints d'un cancer colorectal (CCR) à un stade précoce afin de sélectionner le traitement adjuvant le plus adapté. Le statut MSI, la recherche d’une mutation BRAF constituent des avancées de la biologie moléculaire tumorale et sont utilisées en routine. Cependant, aucun facteur biologique prédictif de l’efficacité d’une chimiothérapie adjuvante n’a été, à ce jour, identifié avec un niveau de preuve suffisant. Depuis plus de deux décennies les protocoles adjuvants utilisant des fluoropyrimidines, en combinaison avec des agents cytotoxiques tels que l'oxaliplatine, ont permis d'améliorer la survie globale d'environ 3 à 5 % pour les patients atteints d'un cancer colorectal de stade II ou IIIA. De nombreux patients sont guéris par la chirurgie seule, tandis qu'environ 25 % sont victimes d’une récidive malgré une chimiothérapie adjuvante. Le taux de mortalité associé à la chimiothérapie est voisin de 0,5 à 1 % et 20 % des malades subiront des effets secondaires importants du traitement. Le rapport bénéfice/risque pourrait être amélioré par la recherche de sous-groupes de patients présentant un risque plus élevé ou plus faible de récidive et de décès spécifique. Un biomarqueur pronostique, généré par ordinateur, a été développé en utilisant l'apprentissage en profondeur (deep learning) à partir de la scannerisation de lames anatomo-pathologiques de CCR.

Un apprentissage sur plus de 12 millions d’images

A partir de coupes conventionnelles de tissu tumoral, colorées à l'hématoxyline et à l'éosine, fixées au formol et incluses en paraffine, plus de 12 millions d’images obtenues chez des patients, issus de 4 cohortes de CCR, comportant un pronostic nettement bon ou mauvais ont été numérisées pour former un réseau de neurones convolutionnels (CNN) comportant dix couches et spécialement conçus pour classer les images hétérogènes, difficiles à classifier. Un biomarqueur pronostique intégrant le CNN a été déterminé en « utilisant » des patients avec un résultat imprécis. Le marqueur a ensuite été testé sur 920 patients avec des lames préparées au Royaume-Uni, puis validé indépendamment selon un protocole prédéfini chez 1 122 patients traités avec de la capécitabine en monothérapie à l'aide de lames préparées en Norvège. Toutes les cohortes comprenaient uniquement des patients atteints de tumeurs résécables. Le résultat principal était la survie spécifique au cancer avec un bon pronostic (survie à 6 ans et plus) ou un mauvais pronostic (décès entre 100 jours et 2,5 ans) après chirurgie curatrice.

La cohorte de formation ou d’entrainement a comporté 828 patients issus des quatre cohortes avec un résultat distinct. Au total 1 645 patients ont eu un résultat intermédiaire et ont été utilisés pour la mise au point. Le rapport de risque de ce biomarqueur distinguant un mauvais pronostic par rapport à un bon pronostic est de 3,84 (p <0 • 0001) dans l'analyse de la cohorte de validation rétrospective, et 3,04 (p < 0,0001) après ajustement pour les marqueurs pronostiques classiques (stade pN, le stade pT, invasion lymphatique et veineuse) dans les analyses univariées de la même cohorte. Le biomarqueur DoMore-v1-CRC a ainsi été largement évalué dans de grandes populations indépendantes de patients. Il est corrélé à certains marqueurs pronostiques moléculaires et morphologiques établis, et donne des résultats cohérents à travers le stade tumoral et nodal. Le biomarqueur a stratifié les patients de stade II et III en groupes pronostiques suffisamment distincts, pour potentiellement guider le choix du traitement adjuvant. Il éviterait alors, d’après les auteurs, une chimiothérapie dans les groupes à très faible risque et identifierait les patients pouvant bénéficier de traitement plus agressif.

Des faiblesses et des biais

Les commentaires des 2 éditorialistes pointent les faiblesses et les biais de ce classificateur DoMore-v1-CRC, associé à la survie spécifique au cancer (RR= 3,04 ; p <0,0001) indépendamment de covariables significatives. Des limites importantes existent : si l’inclusion a concerné les patients présentant des stades tumoraux groupés, les données de stadification, comme le nombre de ganglions lymphatiques examinés en peropératoire n'ont pas été fournies. Le traitement et l'évaluation de suivi n'étaient pas uniformes et le statut d'instabilité des microsatellites était absent, tandis que le BRAF n’a pas d’intérêt à ce stade non métastatique. Les cancers colorectaux restent enfin des tumeurs très hétérogènes qui n’ont pas encore été clairement démembrées par les progrès de la biologie moléculaire ; la proportion relative d’une tumeur à son stroma inflammatoire reste un problème important pour le deep learning appliquée à l’anatomo-pathologie numérisée. Certains patients atteints d'un cancer de même stade ont reçu un traitement adjuvant, et tous les patients atteints d'un cancer de stade III n'ont pas reçu de traitement adjuvant standard (capécitabine ou fluorouracile associé à l'oxaliplatine (CAPOX ou FOLFOX3), source importante de biais. Si les résultats rapportés dans l'étude sont bien ajustés pour le pronostic, ils ne paraissent pas suffisants pour montrer que le classificateur DoMore-v1-CRC est un marqueur prédictif de l’efficacité d’une chimiothérapie adjuvante.

Une intervention humaine experte demeure indispensable

Le Deep Learning est un système d’apprentissage et de classification, basé sur des « réseaux de neurones artificiels » numériques et profonds qui permettent à un ordinateur d’acquérir certaines capacités du cerveau humain. Le terme « profond » se rapporte généralement au nombre élevé (jusqu’à 150) de couches cachées du réseau de neurones. Un des types de réseaux de neurones profonds le plus répandu est le réseau de neurones à convolution ou CNN. L’entraînement des modèles s’effectue à l’aide de vastes ensembles de données labellisées et d’architectures de réseaux de neurones qui apprennent des caractéristiques directement depuis des « big data », sans avoir à effectuer une extraction manuelle. Même si un système d’images peut être automatisé par le Deep Learning, il reste entièrement basé sur les données initiales dont le scanning des lames a ici été testé avec plusieurs appareils avant d’être numérisé. Le choix des algorithmes informatiques comporte néanmoins un phénomène de boite noire, inhérent à l’intelligence artificielle utilisée (CNN) sans validation interne pour les applications cliniques. Une intervention humaine experte demeure encore indispensable pour valider la précision des résultats de ce nouveau biomarqueur face à la survie spécifique du cancer à 3 ans. Si on compare le groupe de bon pronostic vs les groupes de pronostic incertain et mauvais, les résultats ne sont pas optimaux: la sensibilité médiane est alors de 52 %, la spécificité de 78 %, la valeur prédictive positive faible de 19 %, la valeur prédictive négative importante de 94 % et la proportion des patients correctement classés n’atteint que 76 %. À l'avenir, tout biomarqueur basé sur l'apprentissage profond et l’intelligence artificielle doit être évalué prospectivement chez les patients ayant des attributs cliniques bien définis, bénéficiant d'un traitement standard et d'une évaluation de suivi à plus long terme.

Dr Sylvain Beorchia

Références
Skrede OJ, De Raedt S, Kleppe A et coll. : Deep learning for prediction of colorectal cancer outcome: a discovery and validation study. Lancet 2020; 395: 350–60
Specogna AV, Sinicrope FA : Defining colon cancer biomarkers by using deep learning. Lancet,2020; publication avancée en ligne le 1er février. doi.org/10.1016/S0140-6736(20)30034-9

Copyright © http://www.jim.fr

Réagir

Vos réactions

Soyez le premier à réagir !

Les réactions aux articles sont réservées aux professionnels de santé inscrits
Elles ne seront publiées sur le site qu’après modération par la rédaction (avec un délai de quelques heures à 48 heures). Sauf exception, les réactions sont publiées avec la signature de leur auteur.

Réagir à cet article