Introduction
Dans la dernière décennie, les CardioVascular Outcomes Trials (CVOT) ont suscité l’intérêt général et animé le débat parmi les diabétologues et les cardiologues. Dans ces études randomisées contrôlées (RCT, randomized controlled trial) de type time-to-event (« le temps avant l’évènement ») évaluant la sécurité cardiovasculaire de nouvelles classes de médicaments antidiabétiques, le critère d’évaluation principal est souvent un critère cardiovasculaire composite appelé « MACE-3P » associant mortalité de cause cardiovasculaire, infarctus non fatal et AVC non fatal. Les CVOTs ont notamment permis d’établir la sécurité voire le bénéfice sur le plan cardiovasculaire de deux classes thérapeutiques, les agonistes du récepteur au GLP-1 (AR GLP-1) et les inhibiteurs de Sodium-Glucose Co-Transporteur-2 (SGLT-2), et de les positionner prioritairement dans la stratégie de prise en charge du diabète de type 2, en particulier chez les patients avec une maladie cardiovasculaire établie, une insuffisance cardiaque et/ou une maladie rénale. L’ensemble de ces résultats, confirmés également par deux récentes méta-analyses1,2, ont conduit à la rédaction d’un nouveau consensus ADA/ EASD en 20183 , révisé à la fin de l’année 20194 , ainsi qu’à des recommandations de la Société Européenne de Cardiologie en 20205 . Se pose alors la question de l’efficacité relative des molécules ou des classes les unes par rapport aux autres. En effet, les résultats significatifs obtenus dans plusieurs études interrogent sur la possibilité d’établir une échelle de puissance entre les molécules ou les classes. Outre les mesures statistiques classiques rapportées dans les essais randomisés contrôlés (risque absolu et différence de risque absolu, risque relatif et réduction du risque relatif, odds ratio et hazard ratio), les discussions font souvent référence à une autre mesure dont l’interprétation clinique semble plus aisée : le Number Needed to Treat (NNT, ou nombre de sujet à traiter).
Désormais courant, le NNT est une mesure statistique témoignant de l’utilité clinique d’une thérapie. Chaque communication de résultats d’essais randomisés contrôlés donne lieu à de vives discussions sur le retentissement, plus ou moins conséquent, du NNT associé sur les pratiques cliniques voire l’efficience clinique de la molécule. Si la valeur de la mesure est d’un intérêt certain, son calcul reste pour le moins controversé. En apparence simple, le calcul du NNT présente néanmoins quelques subtilités lorsqu’il est dérivé de données d’études interventionnelles où la survenue du critère d’évaluation principal est dépendante du temps. Plusieurs méthodes statistiques permettant d’ajuster le calcul du NNT selon les hypothèses statistiques inhérentes à chaque étude ont été proposées, certaines plus consensuelles que d’autres. Toutefois, de nombreuses erreurs de calcul subsistent, tout particulièrement dans ces études où la survenue du critère primaire de jugement est une fonction du temps et dont les CVOTs font partie. En effet, ces erreurs relatives à la complexité du calcul et de l’interprétation des NNTs sont fréquentes (au moins 50% des valeurs rapportées seraient erronées), concernent l’ensemble des revues internationales, y compris les plus renommées (BMJ, JAMA, NEJM, Lancet), ainsi qu’un large éventail d’aires thérapeutiques et de classes médicamenteuses6–11, démontrant ainsi l’intérêt de prêter une attention particulière à l’analyse des NNTs.
Calcul du NNT
Introduit en 1988 par Laupacis et al., le NNT correspond au nombre de patients à traiter pendant une période donnée pour prévenir l’apparition d’un évènement redouté ou défavorable12. Un NNT peut être calculé si le résultat du critère de jugement est binaire, mais malheureusement pas à partir de variables continues. Le choix de la méthode de calcul d’un NNT dépend notamment de la méthodologie de l’étude ainsi que du type de variables obtenues pour décrire l’évènement d’intérêt.
Dans les études randomisées contrôlées où les variables obtenues sont binaires (« évènement » vs « pas d’évènement ») et où tous les patients sont suivis durant une période de temps prédéfinie, on mesure le risque c’est-à-dire la proportion de patients qui présentent l’évènement redouté dans chacun des groupes13. Le NNT est alors estimé par l’inverse de la différence de risque absolu. Plus le traitement sera efficace, plus la différence de risque absolu sera grande et donc plus le NNT sera faible. Un objectif utopique serait d’obtenir un NNT égal à 1 : le traitement permettrait à tous les patients d’éviter la survenue de l’évènement redouté. A l’inverse, si un traitement n’a aucun effet bénéfique sur l’évènement d’intérêt, la différence de risque absolu serait proche de 0, et le NNT serait par conséquent infini : mêmeen traitant un nombre infini de patients, aucun effet bénéfique ne serait observé.
Enfin, un NNT négatif devrait amener le clinicien à considérer le traitement comme néfaste pour les patients (une dystopie clinique donc !). On parlera alors de Number Needed to Harm (NNH, “nombre nécessaire pour nuire ”) par opposition au Number Needed to Benefit (NNB, “nombre nécessaire pour être bénéfique”)14.
Dans certaines études randomisées contrôlées, le critère d’évaluation principal est dépendant de la durée de suivi de chaque patient : il s’agit d’une étude de type timeto-event (« le temps avant l’évènement »). Les CVOTs sont le meilleur exemple de ces études de type time-to-event. En effet, le critère de jugement principal des CVOTs est souvent un « MACE-3P » (un critère CV composite combinant mortalité de cause CV, infarctus du myocarde non-fatal et accident vasculaire cérébral non fatal), dont la survenue ne peut être prévue ou contrôlée, et se produira éventuellement à un moment différent pour chaque patient. Ainsi, la durée de suivi des patients ne sera pas défi nie a priori. Les méthodologistes vont plutôt pré-spécifier un nombre d’évènements à atteindre pour garantir la puissance nécessaire à l’interprétation statistique de l’étude. La durée de suivi de chaque patient et le nombre de sujets restant dans l’étude vont donc varier au cours du temps. Dès lors, le risque de présenter le dit évènement varie aussi au cours du temps, et ne pourra être estimé de la même façon que dans une étude avec un critère d’évaluation binaire et une durée d’étude constante. Des analyses de survie, ajustées ou non, sont réalisées et parfois un Hazard Ratio (HR) est également estimé. Les CVOTs rapportent généralement ce type de données.
Ainsi, le calcul du NNT doit lui aussi tenir compte de la variation du risque résiduel de la population étudiée. Le NNT est une fonction du temps, dont la valeur varie à travers le temps. En d’autres termes, il n’existe pas un NNT unique représentatif de l’ensemble de l’étude, mais une valeur de NNT pour chaque temps t qui pourrait être représenté sous forme de courbe (NNT en ordonnées et temps en abscisse). Un NNT à un temps spécifique NNT(t) est interprété comme le nombre moyen de patients qu’il faudra traiter pour qu’un patient de plus du bras expérimental ne présente pas l’évènement redouté en comparaison du groupe contrôle au temps t. Bien souvent, le temps t retenu comme point d’intérêt particulier dans les CVOTs correspond à la médiane de suivi des patients. En 1999, Altman et Andersen, deux statisticiens renommés, ont proposé une méthode de calcul du NNT ajustée aux études de type time-to-event, en fonction du type de données de survie disponible15. Baser son calcul sur l’utilisation des analyses de survie présente précisément l’avantage d’être ajusté en fonction des durées de suivi variables des patients et des données censurées (ex. la perte de patients toujours « à risque » de présenter l’évènement en raison d’une sortie d’étude ou d’évènements concurrents comme un décès d’une autre cause que CV).
Ainsi, le NNT peut être calculé à partir de l’analyse de survie (régression de Cox), classiquement réalisée dans les CVOTs, en utilisant l’estimation de la probabilité de survie dans chaque groupe à un temps donné, ainsi que l’estimation du Hazard Ratio (HR)15,16.
Le calcul de l’intervalle de confiance (IC) à 95%, essentiel bien que rarement fait en pratique, s’effectuera via la même formule, en remplaçant simplement la valeur du HR par les valeurs de son propre IC. Attention : les termes de « survie » et « mortalité » sont souvent confondus dans la littérature scientifique. Or, c’est bien la probabilité de survie sans l’évènement qui doit être utilisée dans cette formule, et non la mortalité M(t)16. Pour rappel : S(t)=1-M(t) Prenons l’exemple de l’étude EMPAREG-OUTCOME, un CVOT évaluant l’effet de l’empagliflozine (iSGLT-2) sur les évènements cardiovasculaires majeurs (MACE3P). Dans cette étude, 12,1% des patients du groupe placebo ont présenté l’évènement d’intérêt, ce qui signifie que 87,9% n’ont pas présenté cet évènement d’intérêt durant l’étude. Le HR associé était de 0,86 (IC 95% 0,74-0,99). En appliquant la méthode d’Altman et Andersen, le NNT associé à la survenue d’un MACE-3P après une durée médiane d’observation de 3,1 ans était de 63 dans cette étude, et l’IC 95% [34-882]. Notez cependant qu’un NNT de 63 ne signifie pas qu’un seul patient bénéficierait du plein effet du traitement et 62 patients n’en bénéficieront pas du tout ; le bénéfice est en réalité partagé, plus ou moins équitablement, entre les 63 patients.
Interprétation critique du NNT
Grâce à sa simplicité de compréhension et d’interprétation, la mesure du NNT a été utilisée de façon croissante par la communauté médicale pour rendre compte de l’utilité clinique d’une thérapie. Depuis 2001, le groupe CONSORT (CONsolidated Standards Of Reporting Trials) recommande également de rapporter le NNT dans les résultats des essais randomisés contrôlés à critère d’évaluation binaire ou dépendant du temps (time-to-event), en plus des autres mesures d’effet habituelles17. Malgré cette simplicité, des erreurs à la fois de calcul et d’interprétation sont couramment constatées, et susceptibles d’aboutir à des conclusions erronées. L’interprétation d’un NNT nécessite la prise en compte de 3 facteurs influençant sa valeur18 :
Le premier facteur à prendre en considération est le risque de base de la population étudiée. En effet, le NNT varie de façon inversement proportionnelle au risque de base ce qui signifie que plus le risque de base de la population est faible, plus le NNT sera important. Dans la plupart des CVOTs, des populations à haut ou très haut risque cardiovasculaire ont été sélectionnées garantissant un risque absolu élevé et donc une probabilité élevée d’évènements CV sur un intervalle de temps court (Tableau 1 ; Figure 1 – Panneaux a et b).
C’est le cas, par exemple, dans l’étude HARMONY Outcomes évaluant la sécurité CV de l’albiglutide où la totalité des patients présentaient un très haut risque CV ou une maladie cardiovasculaire avérée, comme le suggère le taux annuel d’évènements dans le groupe placebo de 5,9 pour 100 patient-années. Le NNT associé au MACE-3P était de 53 (IC 95% 36-116) après une durée médiane de suivi de 1,6 années. Par opposition, les patients recrutés dans l’étude REWIND avec le dulaglutide présentaient globalement un risque CV plus faible avec un taux annuel d’évènements dans le groupe placebo de 2,7 pour 100 patient-années, même si la proportion de patients à haut et très haut risque CV est inconnue. Le NNT associé au MACE-3P était de 67 (IC 95% 38- 803) avec un suivi médian de 5,4 années. Compte tenu de la différence évidente de niveau de risque absolu à l’inclusion de ces deux populations, il semblerait inapproprié voire faux d’envisager une comparaison indirecte des deux molécules sur la base du NNT, et de conclure à une échelle de puissance entre l’albiglutide sur le dulaglutide.
Le deuxième facteur dont il faut tenir compte pour interpréter un NNT est la durée de l’étude. Chaque NNT est associé à une durée bien défi nie, habituellement la durée de suivi médiane des patients d’une étude. Une erreur, certes tentante, serait de chercher à uniformiser les durées de suivi des différentes études pour pouvoir comparer les NNTs sur une durée standardisée. On pourrait, à tort, imaginer convertir les NNTs de chaque CVOT sur une durée de suivi standardisée d’un an par exemple. Cette démarche est à nouveau incorrecte puisque lorsque la durée de suivi augmente, le NNT aura tendance à diminuer car le taux d’évènement absolu va augmenter. Nonobstant, ce type de projection à une échelle de temps différente a été proposée par le passé, par exemple avec les ARNI sur la base de l’étude PARADIGM-HF (suivi médian : 27 mois) pour estimer le NNT à 5 ans. Malgré l’utilisation d’un modèle statistique sophistiqué, les données générées devraient être considérées comme exploratoires avec toutes les limites soulignées par les auteurs. Par ailleurs, les CVOTs sont généralement des études longues durant lesquelles des évènements concurrents, comme un décès d’une autre cause, vont potentiellement entrer en compétition et influencer la survenue de l’évènement d’intérêt19. La valeur du NNT va donc varier de façon non linéaire à travers le temps, et il serait par conséquent maladroit d’extrapoler l’une des valeurs vers un horizon de temps différent, plus court ou plus long. Ne semble-t-il pas fallacieux d’affirmer que traiter 60 patients pendant 3 ans équivaudrait à traiter 180 patients pendant 1 an ? Inexact, certainement.
Enfin, le critère d’évaluation lui-même joue un rôle. Un NNT est, en effet, spécifique d’un critère d’évaluation, et il faudrait prendre en compte le NNT de chaque critère d’intérêt pour interpréter de façon globale la balance bénéfice/risque d’un traitement. Prenons l’exemple de l’étude DECLARETIMI58 avec la dapagliflozine qui intégrait deux co-critères primaires d’évaluation : un MACE-3P et un composite de mortalité CV et d’hospitalisation pour insuffisance cardiaque. Les NNT associés étaient respectivement, 160 et 104 après 4,2 années de traitement. On pourrait également imaginer calculer des NNT pour les différents paramètres de tolérance en plus des paramètres d’efficacité : dans l’étude DECLARE-TIMI58, un évènement indésirable grave se produirait tous les 38 patients traités.
Conclusion
En définitive, un NNT ne devrait pas être considéré comme une mesure absolue du bénéfice clinique global d’un traitement. Une différence de NNT entre les études peut aussi bien témoigner d’une vraie différence d’efficacité entre les traitements que d’une différence du risque absolu des patients à l’inclusion ou toute autre caractéristique inhérente à un CVOT. Aussi, le bénéfice d’un traitement basé sur la valeur d’un NNT devrait être systématiquement mis en balance avec la toxicité, et éventuellement son coût pour une évaluation globale de l’efficience de la thérapie. Enfin, soulignons que les comparaisons indirectes entre les NNT de deux études distinctes devraient être évitées puisqu’ils ne sont pas ajustés de la même façon20.
L’auteur déclare ne pas avoir de liens d’intérêts avec cet article
Lisa Ludwig1 , Patrice Darmon2 , Bruno Guerci1
1 Service Endocrinologie, Diabétologie et Nutrition CHRU de Nancy & Université de Lorraine
2 Service d’Endocrinologie, Maladies Métaboliques et Nutrition, Assistance Publique Hôpitaux de Marseille & Université d’Aix Marseille