Les résultats sont négatifs ! What else ?

Nos lecteurs qui nous font l'honneur de nous suivre depuis des années (quand ce n'est pas des décennies !), sont habitués à la publication sur JIM d'analyses et de commentaires d'essais cliniques au cours desquels aucune différence statistiquement significative n'est mise en évidence sur le critère principal de jugement pré-spécifié. Ces études où la valeur de p n'atteint pas le seuil fatidique de 0,05 sont généralement considérées comme négatives (par les promoteurs de l'essai et par les praticiens) et le traitement testé est jugé inefficace et abandonné.

Mais, comme le rappellent Stuart Pocock et Gregg Stone dans une mise au point remarquable publiée par le New England Journal of Medicine, une étude aux résultats en apparence négatifs ne doit pas nécessairement conduire à l'abandon de l'hypothèse testée et du protocole thérapeutique expérimenté. 

12 questions clefs

En se basant sur des exemples tirés d'essais randomisés cardiologiques publiés récemment, pour ces deux auteurs britanniques et américains, face à un essai apparemment négatif il est indispensable que les responsables de l'étude (et les praticiens simple lecteurs) se posent 12 questions clefs avant de conclure à l'absence d'intérêt du traitement testé.

1) Malgré l'absence de significativité statistique des résultats sur le critère principal de jugement, existe-t-il des arguments en faveur d'un effet positif du traitement testé (par exemple sur l'un des éléments d'un critère composite de jugement)?

2) L'essai en cause avait-il une puissance suffisante ? En d'autres termes avait-il inclus le nombre de patients nécessaire pour permettre de conclure et d'écarter une erreur de type 2 ? Si tel n'est pas le cas, ce qui est fréquent pour des pathologies relativement rares, il convient de considérer l'essai comme non concluant plutôt que comme négatif. 

3) Le critère principal de jugement avait-il été choisi et défini judicieusement ? Par exemple n'avait-il pas inclus dans le cadre d'un critère composite, des événements sur lesquels le traitement testé ne pouvait avoir d'influence ?

4) La population étudiée était-elle adaptée (patients "insuffisamment" atteints par exemple) ?

5) Le protocole thérapeutique étudié (posologie, durée...) était-il approprié ?

6) Le traitement testé a-t-il été correctement suivi ou y-a-t-il eu beaucoup de déviations du protocole pouvant expliquer une absence de significativité statistique ?

7) Peut-on, malgré la non supériorité du traitement testé, établir sa non infériorité ? Ceci peut avoir une importance pratique lorsque la thérapeutique étudiée a, par exemple, des avantages en termes de tolérance ou de coûts.

8) Des résultats positifs dans un ou des sous groupes, pré-spécifiés ou post-hoc, justifient-ils de conduire un nouvel essai randomisé (comme cela a été le cas par exemple dans l'étude SYNTAX au cours de laquelle la revascularisation per-cutanée est apparue possiblement supérieure au pontage pour le sous groupe des patients atteints de sténose du tronc commun de la coronaire gauche) ?  

9) Des résultats positifs sur un ou des critères secondaires de jugement peuvent-ils remettre en cause le caractère négatif de l'étude et justifier de nouveaux essais ? C'est ainsi par exemple que  dans l'étude ASCOT comparant amlodipine et aténolol dans l'hypertension l'amlodipine s'est révélée non supérieure à l'aténolol sur le critère principal de jugement (infarctus non fatal et décès par pathologie coronaire) mais significativement supérieure sur les AVC, les événements cardiovasculaires défavorables, la mortalité toute cause et l'apparition de diabète ce qui a conduit à modifier certaines recommandations. 

10) De nouvelles analyses des données recueillies aboutissent-elles à des résultats divergents ? Il peut s'agir d'analyses ajustées, d'examen des résultats en per protocole plutôt qu'en intention de traiter, d'analyses tenant compte non plus de la survenue d'un premier événement défavorable (comme cela est habituel) mais de la répétition de ces événements. Cela a été le cas de l'étude CHARM au cours de laquelle le risque d'hospitalisation pour insuffisance cardiaque ne paraissait pas réduit sous candesartan lorsque l'on ne tenait compte que de la première hospitalisation mais l'était si l'on incluait dans l'analyse la répétition des hospitalisations.

11) Existe-t-il d'autres études de bonne qualité méthodologique (essais randomisés ou méta-analyse) donnant des résultats positifs statistiquement significatifs avec des protocoles similaires ? Dans ces cas, surtout si p est proche de la significativité statistique, il faut peut-être envisager de nouvelles études.

12) Y a-t-il des arguments biologiques très forts en faveur de l'efficacité du traitement ? Pour les auteurs ce type de motif ne doit pas en général remettre en cause le caractère négatif d'un essai mais doit plutôt faire envisager une révision des hypothèses physiopathologiques. 

Un résultat négatif n'exclut pas une autorisation de mise sur le marché !

Pour les auteurs, les réponses à ces 12 questions conduisent à 3 types de conclusions :

- le plus souvent le caractère négatif de l'étude est confirmé et le traitement abandonné;
- le doute persiste et il convient de conduire de nouvelles études sur la thérapeutique testée (il en est ainsi par exemple de la dénervation rénale dans l'hypertension pour laquelle les résultats de l'essai randomisé SYMPLICITY HTN-3 ont été négatifs contre toute attente).
- L'étude est considérée comme positive malgré l'absence de significativité statistique des résultats sur le critère principal de jugement. Cela peut, rarement, conduire à une autorisation de mise sur le marché ou à une nouvelle indication. Cela a été la décision de certaines autorités sanitaires, par exemple, après la publication de l'étude CAPRICORN sur le carvedilol dans la dysfonction ventriculaire gauche après infarctus du myocarde où les résultats étaient négatifs sur un critère de jugement composite (décès ou hospitalisations) mais positifs sur un critère fondamental, la mortalité toutes causes.

On le voit la lecture critique d'articles n'est pas qu'un exercice scolaire mais est une étape essentielle de la recherche clinique et un must pour les praticiens sollicités de façon pluriquotidienne  (notamment par le JIM !) par des résultats d'études...

Dr Anastasia Roublev

Référence
Pocock S et coll.: The primary outcome fails. What Next ? N Engl J Med., 2016; 375: 861-70.

Copyright © http://www.jim.fr

Réagir

Vos réactions (2)

  • Biais méthodologiques

    Le 16 septembre 2016

    Inversement des résultats positifs sur le critère de jugement principal n'impliquent pas une meilleure efficacité thérapeutique : ainsi l'essai randomisé qui compare Dénosumab à Alendronate est positif sur le critère de jugement principal :amélioration de la DMO. Le critère clinique le plus robuste est relégué comme effet indésirable; et là il y a plus de fractures de fragilité dans le bras dénosumab. De même ce produit comparé au placébo réduit l'incidence des fractures de fragilité. Il obtient donc l'AMM dans l'ostéoporose alors qu'un essai de supériorité versus traitement de référence aurait été indispensable. Quant aux effets indésirables plus sérieux avec l'anticorps monoclonal, ils ne sont même pas pris en compte.

    La multiplication des sous-groupes permet d'obtenir une probabilité plus élevée d'avoir une différence statistiquement significative : c'est ce qu'on appelle l'inflation du risque alpha.
    La probabilité que le P à 5% soit le fruit du hasard est égale à 1-O,95 puissance n. Plus le nombre de sous-groupes augmente, plus P tend vers 1. Donc il faut pratiquer un test de Bonféroni en divisant 5% par n. Pour qu'un critère secondaire soit jugé statistiquement significatif il doit faire l'objet de ce simple calcul; ce que les auteurs de l'article n'envisagent même pas.

    Quant aux critères composites ils sont le plus souvent utilisés pour impressionner le lecteur : ainsi on a vu dans les essais concernant le traitement de l'insuffisance rénale un critère composite associant mortalité et dégradation du DFG. En fait seul le second était significatif.
    Par ailleurs les essais sont par nécessité des expériences qui ne reflètent pas forcément la réalité : en particulier les patients qui participent sont plus jeunes que ceux qui sont traités en pratique courante, ils sont moins polymédiqués, les effets indésirables ne sont bien souvent pas repérés. Quant à estimer que donner des résultats en intention de traiter dans un essai de supériorité sous-estime un éventuel effet bénéfique, c'est oublier que dans la réalité le suivi per protocole est encore plus faible que dans les essais.

    Il ne faut pas oublier le run-in qui est la sélection avant l'essai des patients déjà admis sur les critères d'exclusion, en excluant les moins observants ou ceux qui ont des antécédents susceptibles de s'accompagner d'effets indésirables (myalgies dans les essais avec les statines).

    Ainsi contrairement à ce que laissent penser les auteurs, c'est plutôt une nette tendance à la surestimation de l'effet traitement qui entache les essais contrôlés randomisé(RCT) que le contraire. Car l'objectif d'un laboratoire qui veut promouvoir un nouveau produit est de se donner les moyens en choisissant la population étudiée et les différents critères de jugement afin d'obtenir un résultat statistiquement positif pour d'obtenir une AMM.

    Dr Alain Siary

  • Re: Biais méthodologiques

    Le 23 septembre 2016

    Je trouve l'analyse du Dr Siary très pertinente.
    Cependant, il me semble, que certains biais méthodologiques auraient dû être relevés lors de l'examen du protocole par certaines instances (en France ce serait le CPP) et le protocole n'aurait pas dû avoir leur autorisation. Parmi ces biais, la correction des comparaisons multiples (qui donne l'inflation du risque alpha) est l'exemple typique, même s'il ne concerne que les critères secondaires. De même les critères d'exclusion inadaptés qui remettraientt en cause la randomisation du choix de l'échantillon, est un autre exemple.
    Il faut dire à la décharge des promoteurs que le choix d'un critère de jugement principal unique est une limitation importante. Cela oblige les investigateurs à tabler sur un seul critère sans forcément avoir des arguments a priori pour ce choix plutôt qu'un autre. C'est la raison pour laquelle ils choisissent un critère composite (parfois de manière incongrue) pour maximiser le risque de succès. Mais cela n'excuse pas, bien entendu, tous les biais méthodologiques.

    Leila Boulanouar

Réagir à cet article