Notas metodológicas

← vista completa

Ensayos clínicos con análisis secuencial y su interrupción precoz ¿cómo interpretarlos?

How to interpret clinical trials with sequential analysis that were stopped early

Resumen

El análisis secuencial de ensayos clínicos permite el monitoreo continuo de los datos emergentes para el investigador, así como una mayor seguridad para evitar someter a los participantes a una terapia inferior o fútil en términos de eficacia o seguridad, antes que esta sea evidente, mientras se controla la tasa de error general. Si bien ha sido extensamente empleado desde su desarrollo, no está exento de problemas. Entre ellos se puede mencionar el balance entre seguridad y eficacia, el sesgo condicional y la sobrestimación del tamaño del efecto de las intervenciones. En esta revisión se desarrollan distintos aspectos de esta metodología y el impacto que tiene la inclusión de ensayos clínicos precozmente interrumpidos en las revisiones sistemáticas con metanálisis.

Ideas clave

  • Los ensayos clínicos podrían finalizarse tempranamente debido a la eficacia de la intervención, su seguridad o por razones científicas.
  • Los ensayos clínicos secuenciales estipulan análisis intermedios repetidos en su diseño metodológico para investigar las diferencias entre grupos en el tiempo. Permiten el monitoreo continuo de los datos emergentes para llegar a una conclusión lo antes posible.
  • Los análisis intermedios aumentan la probabilidad de error tipo I y podrían promover la adopción de una terapia sin comprender completamente sus consecuencias o sobreestimar sus efectos.
  • Los metanálisis de ensayos clínicos interrumpidos pueden sobrestimar los efectos del tratamiento.

Introducción

En la investigación con seres humanos, el ensayo clínico es el principal diseño metodológico experimental. Se trata de un experimento controlado utilizado para evaluar la seguridad y la eficacia de las intervenciones para cualquier tipo de problema de salud, así como para determinar otros efectos de estas intervenciones, incluyendo el análisis de eventos adversos. Son considerados el paradigma de la investigación epidemiológica para el establecimiento de relaciones causales entre las intervenciones y sus efectos[1],[2],[3]. Los ensayos clínicos son los estudios primarios que nutren a las revisiones sistemáticas de intervenciones, las que aportarán un nivel de evidencia incluso mayor. Por lo tanto, las características del ensayo clínico impactarán directamente en el resultado de una revisión sistemática y eventualmente de su metanálisis.

Los ensayos clínicos suelen tener una temporalidad planificada, concluyendo una vez que ocurren los eventos esperados en los participantes. Tanto la temporalidad como la cantidad mínima de participantes que deben incorporarse a los grupos de comparación para demostrar diferencias significativas en desenlaces clínicamente relevantes, son definidas a priori. No obstante, puede ocurrir que, por condiciones éticas, el estudio deba ser finalizado precozmente. Esto puede asociarse a razones de eficacia (por ejemplo, se observa una clara eficacia en una intervención por sobre otra), de seguridad (por ejemplo, múltiples eventos adversos en una intervención) o científicas (por ejemplo, emergencia de nueva información que invalide la realización del ensayo)[4]. Un ejemplo podría ser lo sucedido con la utilización de la proteína C activada recombinante humana en pacientes críticamente enfermos con sepsis: el ensayo clínico original, publicado en 2001, fue interrumpido precozmente luego de un análisis interino debido a aparentes diferencias en la mortalidad[5], lo que llevó a la recomendación de su uso en las guías de la campaña Surviving sepsis[6]. Algunos ensayos posteriores generaron preocupación debido al aumento en el riesgo de sangrado serio[7], cuestionando la reducción en la mortalidad hallada en el estudio original, hasta que la droga fue finalmente retirada del mercado en 2011 y eliminada de las guías de práctica clínica[6]. Como se observa, la interrupción precoz no está exenta de imprevistos y controversias; aunque puede establecerse durante el protocolo de algunos tipos de ensayo clínicos: los ensayos clínicos secuenciales[8].

En esta revisión narrativa se desarrollan los principales aspectos teóricos y las controversias en cuanto a la ejecución de ensayos clínicos con diseño secuencial que llevan a la interrupción precoz positiva, así como su impacto en las revisiones sistemáticas con metanálisis, con el objetivo de clarificar algunos conceptos que han sido escasamente tratados en la literatura. Existen distintos análisis secuenciales: clásicos o fijos, flexibles y por grupos[9]. En esta revisión abarcaremos estos últimos, los más utilizados en los ensayos clínicos.

¿Qué son los ensayos clínicos secuenciales?

Los ensayos clínicos secuenciales estipulan en su diseño metodológico análisis intermedios repetidos a razón de pesquisar diferencias intergrupales a tiempo, lo que conlleva diversas ventajas. Los análisis intermedios pueden devenir en:

  1. La continuidad del estudio: no demostrar diferencias, continuar con la inclusión de participantes y realizar otro análisis intermedio.
  2. Interrupción por futilidad o equivalencia: alcanzar un tamaño muestral máximo definido con antelación y aceptar la hipótesis nula de igualdad de efectos en caso de que el análisis no demuestre diferencias estadísticamente significativas.
  3. Interrupción por superioridad o inferioridad: demostrar diferencias y concluir el ensayo mediante un análisis interino[8],[10].

Características y análisis de sus resultados

Los ensayos clínicos secuenciales deben contar con un tamaño de muestra elevado, debido a que los análisis intermedios implican fraccionar y comparar bloques de la muestra. Asimismo, su duración debe prolongarse por al menos dos años. Además, los análisis intermedios deben llevarse a cabo por un comité independiente de monitoreo de datos para cuidar el enmascaramiento[4]. De este modo, si una regla estadística indica la necesidad de detener el estudio, se puede realizar un análisis interino con los datos recolectados para evaluar la evidencia emergente sobre la eficacia de un tratamiento hasta el momento de la detención[11]. Debido a su naturaleza dinámica, los ensayos clínicos que siguen esta metodología deben evaluar desenlaces que puedan producirse en el lapso estipulado, como así también deben garantizar la rápida disponibilidad de datos para su análisis interino.

El análisis secuencial es una metodología que permite el monitoreo continuo de los datos emergentes para llegar a una conclusión lo antes posible, mientras se controla la tasa de error general[12]. Desarrollada por Wald a fines de la década de 1940 y adaptada para las ciencias médicas años más tarde, ha sido extensamente empleada desde entonces. También  ha abierto un nuevo capítulo en estudios a gran escala mediante la creación y utilización de comités de monitoreo estadístico y de datos[12],[13]. La existencia de estos comités se justifica en función de algunas desventajas de este tipo de estudios, las que serán abordadas más adelante. Es importante señalar que la decisión de interrumpir un ensayo clínico es más compleja y no está supeditada únicamente a un análisis interino, ajustado por un método estadístico.

Los diseños secuenciales proporcionan un marco de prueba de hipótesis para tomar decisiones respecto a la terminación temprana de un estudio, posibilitando algunas veces no continuar destinando recursos de todo tipo en un ensayo más allá del punto en el que la evidencia es convincente sobre la superioridad de una terapia frente a otra. Ello permite minimizar el número de pacientes que recibirían una terapia inferior y divulgar esta nueva información a pacientes, personal de salud, proveedores y tomadores de decisión tan pronto como sea posible[11].

Análisis intermedios: evaluación periódica del balance seguridad-eficacia

Los análisis intermedios que buscan probar un beneficio de la intervención elevan la probabilidad de un “falso positivo” o error tipo I. Este error se comete cuando el investigador rechaza la hipótesis nula siendo esta verdadera en la población. Esto sería equivalente a llegar a la conclusión de que existe una asociación estadística entre ambas ramas cuando en realidad no existe. En consecuencia, deben considerarse algunos ajustes estadísticos dado que mientras más comparaciones entre intervenciones se realicen, mayor será la probabilidad de cometer un error tipo I[14].

Entre los métodos existentes para realizar estos ajustes se incluyen reglas de detención secuencial como los límites de O’Brien y Fleming o Haybittle y Peto (reglas también conocidas como métodos de análisis secuencial por grupos con regla de finalización), así como las generalizaciones de gasto de α de Lan-DeMets[15],[16]. En estas últimas reglas es posible efectuar los análisis intermedios que se deseen sin que hayan sido establecidos previamente, puesto que existe una disminución del valor de significancia estadística en virtud de evitar cometer un error asociado a las comparaciones múltiples[4]. Estos métodos son de difícil implementación y requieren conocimientos estadísticos avanzados[17].

Si bien existen metodologías de reciente origen en la evaluación de diseños secuenciales[18], los métodos clásicos han sido ampliamente aceptados e implementados en la práctica[19]. Sin embargo, pueden surgir múltiples problemas cuando los investigadores terminan un ensayo antes de lo planificado, especialmente cuando la decisión de terminar el ensayo se basa en el hallazgo de un efecto de tratamiento aparentemente beneficioso[20].

El problema de equilibrar la información sobre seguridad y eficacia, posiblemente sea el más difícil de resolver. Es bastante común que los resultados asociados a la seguridad se produzcan más tarde, y más infrecuentemente que los relacionados con la eficacia. Un ensayo detenido precozmente por su eficacia podría promover la adopción de una terapia sin comprender totalmente sus consecuencias, ya sea porque el ensayo fue demasiado pequeño o la duración fue demasiado breve como para acumular criterios de seguridad suficientes. Ello constituye un potencial problema, incluso si el ensayo continúa hasta el término planificado[12]. Esto sucede debido a que el análisis secuencial se basa en la eficacia de las intervenciones, por lo que tiene menor poder para evaluar su seguridad, como ilustra el ejemplo anteriormente citado sobre la proteína C activada recombinante humana.

Consideraciones especiales sobre los análisis interinos

A) Sesgo condicional

Otro problema asociado al análisis secuencial es que, cuando se detiene el ensayo debido a un tamaño del efecto pequeño o grande, existe una mayor probabilidad de que el ensayo se encuentre en un nivel “alto” o “bajo” con respecto a la estimación de la magnitud del efecto. Este problema se conoce  como “sesgo condicional”[12]. El sesgo puede surgir debido a grandes fluctuaciones aleatorias del efecto estimado del tratamiento, particularmente al comienzo del progreso de un ensayo.

La Figura 1 muestra la variabilidad en la estimación del efecto según el tiempo en tres escenarios posibles teóricos. La línea roja superior muestra un ensayo cuyo efecto fluctúa hacia un beneficio exagerado. La línea roja inferior muestra un ensayo cuyo efecto fluctúa hacia un daño exagerado. La línea azul muestra un ensayo cuyo efecto oscila alrededor del verdadero efecto. Los límites de interrupción en cada escenario podrían determinar efectos muy disímiles respecto al verdadero efecto, según se utilice un umbral tradicional o reglas de interrupción.   

Fluctuación de la medición del efecto y posibles umbrales de interrupción.
Tamaño completo

Por lo tanto, cuando los investigadores detienen un ensayo basado en un efecto de tratamiento aparentemente beneficioso, sus resultados pueden proporcionar resultados erróneos[20]. Se ha argumentado, sobre la base del examen empírico de los estudios detenidos tempranamente, que el sesgo condicional es sustancial y conlleva el potencial de distorsionar las estimaciones del balance riesgo-beneficio y del efecto metanalítico. Por otra parte, también se ha aseverado que la interrupción temprana de un estudio a veces se describe de manera dramática, lo que dificulta la planificación y ejecución de estudios posteriores sobre el mismo tema debido a la creencia infundada de que el efecto es mucho mayor o más seguro de lo que realmente es[12].

La probabilidad de este sesgo condicional ha sido reconocida desde hace décadas. Se han propuesto varios métodos de análisis para controlarlo luego de la finalización de un ensayo secuencial. No obstante, tales métodos generalmente son menos conocidos que los métodos para controlar el error tipo I, y rara vez se utilizan en la práctica al informar los resultados de los ensayos detenidos precozmente[19],[21].

B) Sobrestimación del efecto del tratamiento

Los modelos estadísticos sugieren que los ensayos clínicos aleatorizados que se suspenden anticipadamente por demostrar algún beneficio sobrestiman sistemáticamente los efectos del tratamiento[20]. Del mismo modo, al detenerse precozmente el efecto del error aleatorio será mayor, ya que la cantidad de observaciones será menor[8],[10]. Al analizar repetidamente los resultados de un ensayo, serán las fluctuaciones aleatorias que tiendan a exagerar el efecto las que llevarán a determinar su finalización. Si se interrumpe un ensayo tras obtener un valor p particularmente bajo es probable que, de haber continuado con el estudio, los futuros valores p hubiesen sido mayores, lo que se asocia al fenómeno de regresión a la media[14],[22].

Bassler y colaboradores[20] compararon el efecto del tratamiento de los ensayos clínicos aleatorizados truncados con el de los metanálisis de los ensayos clínicos aleatorizados que abordaron la misma pregunta de investigación, pero que no se detuvieron precozmente, y exploraron los factores asociados con la sobrestimación del efecto. Encontraron grandes diferencias en el tamaño del efecto del tratamiento entre ensayos clínicos aleatorizados truncados y no truncados (con un cociente de riesgos relativos entre truncados versus no truncados de 0,71), con ensayos clínicos aleatorizados truncados que tuvieron menos de 500 eventos, independientemente de la presencia de una regla de detención estadística y de la calidad metodológica de los estudios, evaluada mediante el ocultamiento de la asignación y del cegamiento. Las sobrestimaciones grandes fueron comunes cuando el número total de eventos fue inferior a 200; ocurrieron sobrestimaciones más pequeñas pero importantes con 200 a 500 eventos, mientras que pruebas con más de 500 eventos mostraron pequeñas sobrestimaciones.

Esta sobrestimación del efecto del tratamiento que surge de la interrupción precoz debe diferenciarse de otro tipo de sobrestimación debida al reporte selectivo de resultados de investigaciones. Por ejemplo, en que los investigadores pueden elegir reportar algunos de los múltiples desenlaces analizados durante la investigación, basados en la naturaleza y dirección de los mismos[23]⁠. La tendencia de los ensayos truncados a sobrestimar los efectos del tratamiento es particularmente peligrosa, porque permitiría la introducción de sesgos de publicación, ya que sus resultados aparentemente convincentes a menudo se publican rápidamente en revistas destacadas, se difunden en los medios de comunicación con premura y se toman decisiones basados en ellos, como la incorporación a guías de práctica clínica, políticas públicas e iniciativas de garantía de calidad[24].

Implicancias en revisiones sistemáticas y metanálisis

Dada esta rápida divulgación de ensayos truncados en revistas de corriente principal[25],[26],[27] y su amplia incorporación a la práctica clínica, es muy probable que, durante las búsquedas de estudios primarios para revisiones sistemáticas, estos estudios sean identificados e incluidos. En ese caso, los aspectos que deben ser adecuadamente reportados en los estudios primarios son la estimación del tamaño muestral, el análisis intermedio que dio paso a la interrupción y la regla que se ha usado para determinarla. Si los autores de la revisión sistemática no notan el truncamiento y no consideran la interrupción precoz de los ensayos como fuente de una posible sobrestimación de los efectos del tratamiento, los metanálisis pueden sobrestimar muchos de los efectos del tratamiento[28]. De hecho, la inclusión de ensayos clínicos aleatorizados truncados puede introducir una heterogeneidad artificial entre los estudios, lo que conduce a un mayor uso de la técnica metanalítica de efectos aleatorios, por lo que se vuelve importante examinar el potencial de sesgo tanto en los modelos de efectos fijos como aleatorios[19].

Como respuesta a este riesgo, se ha planteado la exclusión de estudios truncados en los metanálisis. Sin embargo, esto genera una subestimación del efecto de la intervención que aumenta de acuerdo con el número de análisis interinos, lo que ha sido demostrado a través de simulaciones[19]. Esta subestimación se nutre de la combinación de dos tipos de sesgos: el sesgo de estimación, relacionado a cómo se calcula la medida de efecto, y el sesgo de información, relacionado al modo de ponderación de cada estudio en el metanálisis. Cuando la proporción de estudios secuenciales es baja, el sesgo de excluir los estudios truncados es bajo. Cuando al menos la mitad de los estudios están sujetos a análisis secuencial, el sesgo de subestimación es del orden del cinco al 15%, independientemente de si se utilizó el enfoque de efectos fijos o aleatorios. Cuando todos los estudios están sujetos a monitoreo interino, el sesgo puede ser sustancialmente mayor que ese rango. En general, estos resultados de simulación muestran que una estrategia que excluya los estudios truncados de los metanálisis introduce un sesgo en la estimación de los efectos del tratamiento[19].

Por otra parte, y aunque los estudios que se detienen tempranamente por demostrar un beneficio del tratamiento tienden a sobrestimar su verdadero efecto, no debería ser demasiado sorprendente que su inclusión en los metanálisis conduzca a una estimación válida. Si bien es cierto que al incluir ensayos truncados al metanálisis, la diferencia observada en el tratamiento sobrestima el efecto verdadero y que condicional al no truncamiento, la diferencia observada en el tratamiento subestima el verdadero efecto; en conjunto, los efectos del truncamiento y el no truncamiento se equilibrarían entre sí para permitir una estimación intermedia. No obstante, estas simulaciones suponen que los resultados de un ensayo no influyen en cómo se realiza otro ensayo o directamente si ese ensayo llega a realizarse[19]. Es poco probable que esto refleje la realidad, ya que si un ensayo por casualidad sobrestima los efectos del tratamiento y por lo tanto se detiene tempranamente, será uno de los primeros en realizarse y publicarse; los ensayos de corrección que aportarían a la estimación combinada de un metanálisis nunca se llevarían a cabo[24],[29].

Finalmente, la inclusión de ensayos interrumpidos precozmente podría tener implicancias en la certeza de la evidencia. Como el número de eventos de estos ensayos suele ser menor (justamente por detenerse antes de alcanzar el tamaño requerido), los intervalos de confianza del estimador son usualmente amplios, lo que aporta imprecisión en los resultados de las revisiones sistemáticas, haciendo muy probable que investigaciones adicionales tengan un impacto importante en la confianza sobre las estimaciones del efecto[30].

Conclusiones

El análisis secuencial de ensayos clínicos puede ser una herramienta útil e interesante en términos de tiempo y recursos, pero no está exenta de problemas como el sesgo condicional y la sobrestimación del tamaño del efecto.

Sin embargo, parece ser que los efectos combinados obtenidos mediante metanálisis que incluyen ensayos clínicos aleatorizados truncados no muestran un problema de sesgo, incluso si el estudio truncado impide los experimentos futuros. Por lo tanto, los ensayos clínicos aleatorizados truncados no deberían omitirse en los metanálisis que evalúan los efectos del tratamiento.

La superioridad de un tratamiento sobre otro (demostrada en un análisis intermedio de un ensayo clínico aleatorizado diseñado con reglas de interrupción apropiadas, señaladas en el protocolo del estudio y debidamente ejecutadas), constituye probablemente una inferencia válida, incluso si el efecto es ligeramente mayor al verdadero, aunque la estimación derivada del mismo pueda ser imprecisa.