Notas metodológicas
← vista completaPublicado el 4 de agosto de 2021 | http://doi.org/10.5867/medwave.2021.07.8432
Cómo interpretar las pruebas diagnósticas
How to interpret diagnostic tests
Resumen
En el ámbito de la salud, los profesionales deben tomar decisiones en un marco de incertidumbre. Al realizar un diagnóstico, se categorizan los signos y síntomas, sumados a los hallazgos de exámenes complementarios de una condición clínica particular, implicando la definición de un tratamiento y pronóstico específico. Durante el proceso diagnóstico se utilizan herramientas de la anamnesis, examen físico y exámenes complementarios para apoyar dicha categorización. Estas herramientas, conocidas como pruebas diagnósticas, permiten estimar la probabilidad de la presencia o ausencia de la condición médica sospechada. La utilidad de las pruebas diagnósticas varía para cada condición clínica y se evalúan mediante estudios de exactitud (sensibilidad y especificidad) e impacto diagnóstico (repercusión sobre los desenlaces de salud). En este artículo, se abordan los conceptos teóricos y prácticos generales sobre las pruebas diagnósticas en seres humanos considerando sus antecedentes históricos, su relación con las teorías sobre probabilidades y su utilidad práctica con ejemplos ilustrativos.
Ideas clave
- Al decidir en marcos de incertidumbre, la mayoría de las veces los profesionales no disponen de una certeza absoluta sobre la condición diagnosticada a un paciente.
- Las pruebas diagnósticas apoyan el proceso diagnóstico en la categorización de las vivencias de un paciente en una condición médica particular que implica una patogénesis, tratamiento y pronóstico específicos.
- Existen distintos tipos de pruebas diagnósticas que pueden ser desde preguntas en la anamnesis, signos al examen físico hasta exámenes complementarios (laboratorio, imágenes u otros procedimientos). Estas son evaluadas mediante estudios de exactitud e impacto.
- Este artículo ofrece un acercamiento a las revisiones disponibles en las principales bases de datos y textos de consulta especializados, referidas a pruebas y exactitud diagnóstica en seres humanos en un lenguaje amigable, orientado a la formación de estudiantes de pre y posgrado.
Introducción
En el ámbito de la salud, los profesionales deben tomar decisiones en un contexto de incertidumbre. Al realizar un diagnóstico, los clínicos categorizan las vivencias de un paciente en una condición particular que implica una patogénesis, tratamiento y pronóstico específicos[1]. Sin embargo, la mayoría del tiempo no existe una certeza absoluta si es que un paciente tiene realmente la condición que se le ha diagnosticado[2].
Hace más de un siglo, el diagnóstico se basaba principalmente en la anamnesis y el examen físico. Según Erick Cobo y colaboradores, el monje inglés Thomas Bayes llegó a la conclusión de que la existencia de Dios sólo puede demostrarse si previamente se cree en Dios. Por lo tanto, lo que determina la probabilidad de que exista Dios depende de ser creyente o no[3]. Este razonamiento aplicado al diagnóstico médico plantea que la probabilidad de un evento posterior a la aplicación de una prueba, depende de la probabilidad que el evento tenía previa a la misma y las características propias de la prueba aplicada[4]. La adjudicación de la probabilidad previa a la aplicación de la prueba es un proceso en el cual el profesional de salud utiliza su conocimiento, experiencia y juicio clínico[5].
A su vez existen otras aproximaciones diagnósticas como la heurística, definida por Pérez[6] como “mecanismos psicológicos basados en la actuación humana frente a la resolución de problemas, por los cuales reducimos la incertidumbre que produce nuestra limitación para enfrentarnos a la complejidad de estímulos ambientales”. Por ende, se trata de una forma de pensamiento rápida e intuitiva que otorga estimaciones de probabilidad para la toma de decisiones. Sin embargo, el uso de heurísticos conlleva potenciales errores evitables que pueden conducir a diagnósticos incorrectos[7] (Ejemplo 1). La medicina basada en la evidencia entrega herramientas para “objetivar” de alguna forma la experiencia clínica, evitar sesgos y facilitar la interpretación de las situaciones clínicas.
La información aportada por los métodos diagnósticos incrementan o disminuyen la probabilidad de una condición particular[8], moviéndose entre el umbral diagnóstico y el umbral terapéutico (Figura 1). El umbral diagnóstico refleja la probabilidad mínima necesaria para considerar plausible una condición particular, mientras que el umbral terapéutico refleja la confianza necesaria en el diagnóstico para iniciar tratamiento. Por debajo del umbral diagnóstico no merece la pena realizar pruebas debido a que la probabilidad diagnóstica es baja[2],[9]. A la inversa, superando el umbral terapéutico el diagnóstico tiene una probabilidad tan elevada que justifica las decisiones terapéuticas[2]. Entre ambos, cuando la probabilidad diagnóstica es intermedia, se requiere realizar más pruebas para conseguir una probabilidad que esté bajo el umbral diagnóstico o sobre el umbral del tratamiento[2],[9].
Las pruebas diagnósticas son un grupo de acciones dentro de las cuales se incluyen preguntas en la anamnesis, signos al examen físico y exámenes complementarios (laboratorio, procedimiento o imagen) utilizados con el objetivo de determinar la presencia o ausencia de una condición. En algunos casos también se usan para establecer su severidad. Las pruebas diagnósticas son evaluadas mediante la exactitud y el impacto. La exactitud se define como la probabilidad de que el resultado de la prueba prediga correctamente la existencia y ausencia de determinada condición. Esto puede interpretarse como la frecuencia relativa de sujetos en los que la prueba acertó su condición de enfermedad, representado con la fórmula:
Sin embargo, es importante considerar que una prueba diagnóstica puede ser más exacta para detectar la enfermedad o para detectar a los individuos sanos, volviéndose útiles en distintos escenarios[9]. Una prueba diagnóstica puede ser más exacta para detectar la enfermedad, o serlo para detectar a los individuos sanos.
Asimismo, la exactitud de las pruebas diagnósticas puede representarse con indicadores como sensibilidad, especificidad, valor predictivo positivo, valor predictivo negativo, cocientes de probabilidades y curvas características operativas del receptor (ROC por sus iniciales en inglés Receiver Operating Characteristic). Estos indicadores suelen ser conocidos por la mayoría de los médicos generales. Sin embargo, existe evidencia de que pueden llegar a ser aplicados incorrectamente[10].
La evaluación de la exactitud se realiza comparando la concordancia de los resultados obtenidos de la prueba diagnóstica en evaluación con los de un estándar de referencia en un mismo grupo de pacientes. El estándar de referencia, también llamado estándar de oro, corresponde a un único examen o combinación de métodos (estándar de oro compuesto), que permite establecer de la mejor manera disponible la presencia o ausencia de una determinada condición[9]. A modo de ejemplo, para el diagnóstico de un tromboembolismo pulmonar agudo, el estándar de referencia es la angiografía por tomografía axial computarizada. Si para diagnosticar la misma condición se utilizara la prueba del dímero-D mediante aglutinación por látex, la estimación de la sensibilidad y la especificidad de sus resultados serían a partir de la comparación de estos con el estándar de oro[11]. El impacto de una prueba diagnóstica hace referencia a cómo y/o cuánto un resultado dado de una prueba diagnóstica incide en el cuidado posterior del paciente[12]. Es decir, la evaluación del impacto determina en qué modo la información entregada por el resultado de la prueba, afecta las decisiones terapéuticas y desenlaces clínicos[13].
Para determinar el impacto de una prueba diagnóstica se debe realizar un estudio prospectivo de seguimiento a corto y largo plazo. Otra alternativa que puede sumarse a la anterior es realizar un estudio retrospectivo que permita monitorear, entre otras cosas, número de test diagnósticos aplicados posteriormente, tiempo de demora hasta lograr el diagnóstico definitivo o tiempo de demora hasta instaurar el tratamiento definitivo. A modo de ilustración de la aplicación clínica del impacto, tenemos que en el caso de un paciente en el que se evidencian lesiones de mal pronóstico en una imagen cerebral en el contexto de un accidente vascular cerebral sin alternativas terapéuticas (quirúrgicas o endovasculares), no afectaría el manejo del paciente el conocer las características detalladas de las lesiones a través de nuevas pruebas diagnósticas[14].
Este artículo corresponde al séptimo de una serie metodológica de trece revisiones narrativas acerca de tópicos generales en bioestadística y epidemiología clínica. Esta revisión explora y resume en un lenguaje amigable, artículos publicados disponibles en las principales bases de datos y textos de consulta especializados. La serie está orientada a la formación de estudiantes de pre y posgrado. Es realizada por la Cátedra de Medicina Basada en la Evidencia de la Escuela de Medicina de la Universidad de Valparaíso, Chile, en colaboración con el Instituto Universitario Hospital Italiano de Buenos Aires, Argentina, y el Centro Evidencia UC de la Pontificia Universidad Católica de Chile. El objetivo de este manuscrito es abordar los principales conceptos teóricos y prácticos de las pruebas diagnósticas en seres humanos.
Probabilidades y más probabilidades en el razonamiento clínico
Constantemente en la práctica médica se realizan aproximaciones probabilísticas para determinar la probabilidad que tiene un individuo de padecer una condición particular. Este procedimiento es previo a la realización de una prueba diagnóstica. Esta aproximación diagnóstica inicial corresponde a la probabilidad pretest. Esta prueba depende de la valoración subjetiva del clínico ante la presencia o ausencia de hallazgos semiológicos para el diagnóstico de una condición particular de interés[15],[16]. De forma simplificada, significa que ante la ausencia de información relevante adicional se ha aceptado el uso de la prevalencia de la condición en estudio para estimar la probabilidad pretest[15].
Un resultado negativo de una prueba diagnóstica en el contexto de una alta sospecha clínica o probabilidad pretest elevada (Ejemplo 3) al igual que un resultado positivo de una prueba diagnóstica en el contexto de una probabilidad pretest baja (Ejemplo 4), nos harán dudar en primera instancia del resultado de la prueba. Cuando la probabilidad pretest es intermedia, el resultado de la prueba diagnóstica puede modificar el escenario probabilístico incierto para descartar o confirmar la sospecha diagnóstica (Ejemplo 5).
Los problemas que acarrea realizar pruebas cuando no hay incertidumbre
Tests en el área de incertidumbre
¿Cómo medimos la exactitud diagnóstica?
Sensibilidad y especificidad
Al aplicar una prueba diagnóstica existe la posibilidad de clasificar incorrectamente a los individuos sometidos a la misma. Ejemplo de ello son las personas enfermas que en realidad están sanas (falsos positivos) y viceversa, personas sanas cuando en realidad están enfermas (falsos negativos). La información de los valores obtenidos para la prueba, en contraste con los valores del test de referencia o estándar de oro, se presenta en formato de tablas (Figura 3). Las llamadas “tablas de contingencia 2x2” se construyen con dos columnas. Las columnas corresponden al resultado positivo (izquierda) y negativo (derecha) de la condición según el estándar de referencia. A ellas se suman dos filas que reflejan el resultado positivo (arriba) o negativo (abajo) de la condición, según la prueba índice. Además, se designa una letra a cada celda, siendo de esta manera[9]:
A. Verdaderos positivos: aquellos individuos enfermos con resultado positivo del test.
B. Falsos positivos: aquellos individuos sanos con resultado positivo del test.
C. Falsos negativos: aquellos individuos enfermos con resultado negativo (test).
D. Verdaderos negativos: aquellos individuos sanos con resultado negativo (test).
Para evaluar las pruebas diagnósticas se utilizan la "sensibilidad" y la "especificidad''[2]. Estos son valores establecidos que se obtienen a partir de la aplicación de la prueba diagnóstica en una población específica al momento de su validación. En este sentido, la sensibilidad y la especificidad son propiedades intrínsecas del test diagnóstico. Sin embargo, su rendimiento también depende de las características de la población en la cual se aplicará. Más adelante en el texto se profundiza sobre estos aspectos[18].
La sensibilidad es la probabilidad de que la prueba clasifique correctamente a los individuos enfermos, o la probabilidad de que el individuo enfermo sea positivo[2]. Las pruebas con alta sensibilidad son útiles en caso de tamizaje, porque tienen muy pocos falsos negativos[19]. No obstante, en estos casos también es importante la especificidad para evitar un exceso de falsos positivos, especialmente si estos implican pruebas confirmatorias costosas o invasivas. Además, por la misma baja cantidad de falsos negativos, son especialmente útiles en los casos en que no diagnosticar una enfermedad o evento específico puede resultar peligroso o fatal para los enfermos[16],[18].
La especificidad es la probabilidad de que la prueba clasifique correctamente a los individuos sanos, o la probabilidad de que los individuos sanos tengan un resultado negativo[2]. Una prueba muy específica tiene una tasa de falsos positivos muy baja. Ello le confiere una capacidad de confirmar una enfermedad muy alta. Esto significa que si un resultado en una prueba muy específica da positivo, hay gran posibilidad de que se trate de un verdadero positivo[18]. En la práctica clínica se prefieren pruebas con alta especificidad al momento de confirmar un diagnóstico por su baja cantidad de falsos positivos. Esto es particularmente importante en el caso de enfermedades graves, debido a que un tratamiento oportuno puede disminuir significativamente las consecuencias físicas, económicas y psicológicas[16].
La estimación de la sensibilidad y la especificidad de una prueba diagnóstica tendrán una mayor aplicabilidad entre más amplia sean las características demográficas y/o clínicas de la muestra de individuos enfermos, como no enfermos de la población donde va a utilizarse el test. Si la muestra es representativa de una población y las estimaciones se utilizan en otra población con características distintas se están dando, y empleando en la práctica, valores de sensibilidad y especificidad equivocados, o por lo menos no aplicables a la población donde se está utilizando.
Como se deduce de lo anteriormente explicado, al ser necesario conocer el estado de salud/enfermedad de los pacientes para poder calcular la sensibilidad y la especificidad, se requiere la contrastación del diagnóstico a través de un método que plantea un parámetro ideal o estándar de oro (patrón de referencia). Esta es la técnica diagnóstica que define la presencia de la condición con la máxima certeza conocida[9],[19]. Por otra parte, en la práctica clínica habitual los profesionales de la salud se ven enfrentados a pacientes que les consultan con el resultado de una prueba que ya se han realizado. La probabilidad de estar enfermo o no a partir de los resultados del test se conoce como valor predictivo. Este es el tema que se desarrollará a continuación.
Valores predictivos positivos y negativos
El resultado de una prueba diagnóstica conlleva consigo una determinada probabilidad de que dicho resultado categorice correctamente la presencia o ausencia de la una condición, lo que corresponde a los valores predictivos[20]. El valor predictivo positivo es la probabilidad de que la prueba diagnóstica identifique correctamente los individuos enfermos cuando entrega un resultado positivo. A su vez, el valor predictivo negativo es la probabilidad de que la prueba diagnóstica identifique correctamente los individuos sanos cuando entrega un resultado negativo[21]. Para calcularlos se utilizan proporciones (Figura 3).
Los valores predictivos están condicionados por la probabilidad a priori de la condición en estudio[18]. Cuando la probabilidad a priori es baja, los valores predictivos negativos serán altos y los valores predictivos positivos serán bajos. En este escenario un resultado negativo de una prueba diagnóstica con alto valor predictivo negativo otorga mayor probabilidad para descartar la condición del paciente que un resultado positivo para confirmarla. Por otro lado, cuando la probabilidad a priori es alta, los valores predictivos positivos serán altos y los valores predictivos negativos serán bajos. En este caso un resultado positivo de una prueba diagnóstica con alto valor predictivo positivo otorga mayor probabilidad para confirmar la condición que un resultado negativo para descartarla[2],[16] (Ejemplos 9A y 9B).
Los valores predictivos determinan la probabilidad postest según el resultado de la prueba diagnóstica. Sin embargo, los valores predictivos solo son comparables en poblaciones con una prevalencia o probabilidad pretest de la condición en estudio similar[19].
Cocientes de probabilidades
Los cocientes de probabilidades, también llamados razones de verosimilitud o likelihood ratio, comparan la probabilidad de encontrar un determinado resultado (positivo o negativo) de una prueba diagnóstica en personas enfermas respecto a la probabilidad de encontrar ese mismo resultado en personas no enfermas[16]. Los cocientes de probabilidades se calculan utilizando la sensibilidad y la especificidad de una prueba diagnóstica (Figura 3). Los cocientes de probabilidades permiten calcular la probabilidad de una enfermedad posterior a la aplicación de una prueba, adaptándose a las distintas probabilidades previas de estar enfermo en diferentes poblaciones[23].
El cociente de probabilidad positivo determina cuánto más probable es que el resultado de la prueba sea positivo en un paciente enfermo respecto a uno sano. En cambio, el cociente de probabilidad negativo determina cuánto más probable es que el resultado de la prueba sea negativo en un paciente enfermo respecto a uno sano. Para facilitar la interpretación del cociente de probabilidad negativo se utiliza el recíproco del valor calculado para este indicador, cuyo resultado determina cuánto más probable es que el resultado de la prueba sea negativo en un paciente sano respecto a uno enfermo (Ejemplo 10).
Cociente de probabilidad positivo = 0,51/(1-0,99) = 51
Cociente de probabilidad negativo = (1-0,51)/0,99 = 0,49
El cociente de probabilidad positivo es de 51, lo que significa que un paciente enfermo tiene 51 veces más probabilidades de tener un cuestionario CAGE positivo para alcoholismo en comparación a un paciente sano. El cociente de probabilidad negativo para las localidades A y B es de 0,49 (para calcular su recíproco: 1/0,49 ≈ 2), lo que significa que un paciente sano tiene 2 veces o el doble de probabilidad de tener un cuestionario CAGE negativo para alcoholismo en comparación a un paciente enfermo.
Los cocientes de probabilidad positivos pueden tener valores entre 1 e infinito y los negativos entre 0 y 1. Un cociente de probabilidad de 1 indica nula utilidad para discriminar la presencia o ausencia de una condición[23],[24],[25] (Tabla 1).
La forma más práctica y sencilla de interpretar los cocientes de probabilidades es mediante la aplicación del teorema de Bayes con el nomograma de Fagan[27],[28]. En este gráfico la columna izquierda representa la probabilidad pretest, la del centro el cociente de probabilidad de la prueba diagnóstica aplicada y la de la derecha la probabilidad postest[19]. Mediante la prolongación de una línea recta que una los valores obtenidos de la primera columna con el de la segunda columna, es posible obtener el resultado de la tercera columna, correspondiente a la probabilidad de tener la condición en función del resultado de la prueba diagnóstica (Ejemplo 11).
Un resultado positivo para el factor reumatoideo sin otros signos o síntomas que apoyen la presencia de artritis reumatoide, no es suficiente para realizar el diagnóstico y mucho menos justificar un tratamiento[31].
Curva característica operativa del receptor
Algunas pruebas diagnósticas informan sus resultados en datos continuos u ordinales, tales como la presión arterial o la glicemia. Al utilizar este tipo de datos se debe determinar el punto de corte en donde existe la mayor sensibilidad y especificidad. Es decir, el lugar de la curva en donde mejor se discrimina a los enfermos de los no enfermos[32]. Sin embargo, no hay un valor que separe claramente a los enfermos de los que no lo están, existiendo valores solapados entre ambos grupos.
Las curvas características operativas del receptor son una representación gráfica que relaciona la proporción de verdaderos positivos (sensibilidad) con la proporción de falsos positivos (1 menos especificidad) para los diferentes posibles valores de una prueba diagnóstica con el propósito de determinar qué valor discrimina mejor entre enfermos y no enfermos. La curva característica operativa del receptor se construye a partir de una gráfica de dispersión, cuyos ejes de ordenadas (y) y abscisas (x) corresponden respectivamente a la sensibilidad y al complemento de la especificidad para los diferentes posibles resultados de la prueba diagnóstica. Desde la esquina inferior izquierda y la esquina superior derecha del gráfico se traza una línea punteada que recibe el nombre de “diagonal de referencia” o “línea de no discriminación”. Esta diagonal de referencia corresponde a la representación teórica de una prueba diagnóstica que no discrimina enfermos de no enfermos (distribución idéntica de los resultados para ambos grupos).
El punto de corte que discrimina mejor entre enfermos y no enfermos dentro de la curva característica operativa del receptor es aquel que alcanza la sensibilidad y especificidad más altas al mismo tiempo. Gráficamente corresponde al punto más cercano al ángulo superior izquierdo de la gráfica, calculado mediante el índice de Youden (sensibilidad + especificidad - 1)[33]. Sin embargo, según el objetivo clínico que tenga la prueba diagnóstica, el punto de corte puede ser diferente para así privilegiar la sensibilidad o la especificidad (Ejemplo 12).
El punto de corte que mejor discrimina entre enfermos y no enfermos de enfermedad coronaria para esta prueba diagnóstica sería el supradesnivel del segmento ST mayor o igual a 1,5 milímetros, el cual tiene una sensibilidad de 0,69 y una especificidad de 0,90. Sin embargo, en la práctica clínica el punto de corte utilizado para la enfermedad coronaria es el supradesnivel del segmento ST mayor a 1 milímetro que tiene una sensibilidad de 0,90 y una especificidad de 0,64. Este punto de corte privilegia la sensibilidad a expensas de la especificidad[35],[36], dado que no diagnosticar la enfermedad coronaria cuando existe (falso negativo) puede ser dañino e incluso mortal para los pacientes. Los datos obtenidos en este ejemplo son ilustrados en forma de curva característica operativa del receptor (Figura 7).
El área bajo la curva característica operativa del receptor es el indicador global de la precisión de una prueba diagnóstica, cuyo cálculo de obtención escapa del objetivo de este estudio. Esta área oscila entre 0,5 y 1. En el 1 las pruebas diagnósticas alcanzan el 100% de sensibilidad y de especificidad. Un área cercana a 0,5 significa que la prueba diagnóstica no discrimina pacientes enfermos de sanos. El área bajo la curva característica operativa del receptor permite comparar entre dos o más pruebas diagnósticas[37], eligiendo en términos generales, la que tenga el mayor área al ser la que mejor discrimine entre enfermos y no enfermos (Ejemplo 13).
Conclusiones
Las pruebas diagnósticas asisten a la toma de decisiones clínicas y para su análisis es indispensable entender sus propiedades (sensibilidad, especificidad, valores predictivos y cocientes de probabilidades).
Según el teorema de Bayes, a partir de la probabilidad basal del individuo (probabilidad pretest), las propiedades de la prueba y sus resultados, podemos obtener una nueva probabilidad en relación a la condición en estudio.
Las curvas características operativas del receptor son instrumentos útiles para evaluar pruebas diagnósticas con resultados cuantitativos no dicotómicos, permitiendo discriminar entre dos estados de salud.
La interpretación correcta de los resultados de una prueba puede evitar errores en la toma de decisiones con consecuencias negativas para quienes son sometidos a estas pruebas.