Instituto Nacional de Endocrinología
Dra. Emma Domínguez Alonso1
y Dr. Roberto González Suárez2
Se sabe que los procederes diagnósticos son parte esencial y crítica
en la toma de decisiones clínicas, de ahí la importancia de evaluar
su precisión diagnóstica. El análisis de las curvas Receiver-Operating
Characteristic aporta, de manera sencilla, un magnífico indicador
de la precisión de una prueba diagnóstica. En este trabajo se
consideraron aspectos, fundamentalmente prácticos, relativos a la metodología
Receiver-Operating Characteristic como: utilidad, modo de interpretar
los resultados y ventajas en relación con otros métodos. Se concluyó
que el conocimiento sobre esta metodología resulta de gran utilidad para
todo profesional de la salud encargado de desarrollar, validar, indicar e interpretar
resultados de pruebas diagnósticas.
DeCS: CURVA ROC; TECNICAS Y PROCEDIMIENTOS DIAGNOSTICOS; METODOS Y PROCEDIMIENTOS
ESTADISTICOS; SENSIBILIDAD Y ESPECIFICIDAD.
Los procederes diagnósticos permiten clasificar correctamente a los
pacientes en determinadas categorías, en relación con una enfermedad,
de modo que se pueda aplicar una terapéutica adecuada y estimar su pronóstico.
Sin embargo, ese proceso es a menudo difícil. Los pacientes pueden tener
diversos procesos patológicos concurrentes y los síntomas y signos
clínicos de muchas enfermedades en ocasiones carecen de especificidad.
Además, los resultados de exámenes de laboratorio y otros procederes
diagnósticos de individuos saludables y enfermos a menudo se superponen.
Es necesario aplicar una amplia gama de métodos estadísticos
para evaluar y manejar la información diagnóstica, lo cual facilita
la adecuada atención de los pacientes.1
El desempeño clínico de una prueba diagnóstica puede ser
medido en términos de precisión diagnóstica, o sea, de
su habilidad para clasificar correctamente a los sujetos en subgrupos clínicamente
relevantes.2
Aunque la sensibilidad, la especificidad y los valores predictivos han sido
usados por mucho tiempo como indicadores de la precisión de una prueba
diagnóstica, existen métodos modernos, como las curvas de operación
característica del receptor (Receiver-Operating Characteristic
[ROC]), la regresión logística y la razón de verosimilitud,
que son considerados indicadores más robustos, pues superan muchas de
las limitaciones de los índices tradicionales.3,4
Las curvas ROC proporcionan un buen índice de la capacidad de una prueba
diagnóstica para discriminar entre estados alternativos de salud cuando
los resultados son medidos en escala ordinal, por intervalo o continua.2,5
Son útiles también para comparar distintos procederes diagnósticos4,
6-10 y seleccionar umbrales de decisión (puntos de corte entre
los resultados positivos y negativos de la prueba).2,
10- 13
Las pruebas diagnósticas son una parte crítica del proceso clínico;
estrategias diagnósticas inapropiadas ponen en riesgo al paciente y ocasionan
grandes pérdidas de recursos, esto evidencia la importancia de evaluar
adecuadamente la precisión de las pruebas. Con este trabajo nos hemos
propuesto un acercamiento, fundamentalmente práctico, a un método
muy útil, y aceptablemente sencillo, para evaluar el poder discriminatorio
de un proceder diagnóstico, para esto haremos una breve descripción
teórica del método y de las situaciones en las que está
indicado su uso, expondremos el modo de interpretar los resultados del gráfico
y del área bajo la curva ROC, las ventajas y las desventajas del método.
Hemos incluido algunos ejemplos de la aplicación de esta técnica estadística en la evaluación de métodos diagnósticos en el campo de la Endocrinología.
La metodología ROC fue desarrollada en el contexto de la detección
de señales electrónicas en los inicios de la década de
los 50. A mediados de los 60 se habían usado las curvas ROC en psicología
y psicofísica experimental.14
Leo Lusted, un radiólogo, fue el primero en usarlas en el proceso
de toma de decisiones médicas, en 1967, y comenzó a aplicarlas
en estudios con imágenes, en 1969.15, 16
Las pruebas diagnósticas son utilizadas para ayudar a responder preguntas
en relación con la atención de los pacientes.
La precisión es la principal característica de un proceder diagnóstico
como recurso de clasificación, esta mide la habilidad de la prueba para
distinguir entre estados alternativos de salud, lo cual incluye la distinción
entre enfermedad y salud, entre enfermedad benigna y maligna, entre sujetos
que responden o no a una determinada terapia y predecir quién enfermará
o no. Esta habilidad de discriminar es el punto de comienzo cuando estimamos
qué contribución puede hacer una prueba diagnóstica al
proceso de atención del paciente.
Si bien la precisión de una prueba diagnóstica es el indicador
fundamental de su valor en la atención al paciente, otro aspecto que
debemos considerar al evaluarlas es su utilidad, el valor práctico de
la información que obtendremos. Una prueba puede tener una habilidad
considerable para discriminar y, sin embargo, poco valor práctico para
la atención a los pacientes, por su costo y carácter invasivo,
entre otros aspectos.17,18
La precisión de un proceder diagnóstico ha sido definida como
su habilidad para discriminar entre 2 subclases de sujetos cuando hay alguna
razón clínica relevante para hacerlo.2
La precisión de una prueba diagnóstica puede ser medida en términos
de sensibilidad y especificidad, estas son definidas como la proporción
de sujetos con enfermedad y sin ella, correctamente clasificados por la prueba.19
La importancia de estos conceptos es absolutamente reconocida, pero reportar un solo valor de sensibilidad y especificidad es una simplificación del problema; un proceder diagnóstico no tiene un solo valor de sensibilidad y especificidad, sino muchos. Como el umbral de decisión usado para clasificar a los sujetos como positivos o negativos varía a través del rango de resultados posibles, la sensibilidad y la especificidad se moverán en direcciones opuestas, cuando una aumenta la otra disminuye, para cada umbral de decisión hay una combinación de sensibilidad y especificidad. Consecuentemente, solo el rango completo de los pares sensibilidad/especificidad proporciona un cuadro íntegro de la precisión de la prueba.
Para que una prueba diagnóstica sea usada en la atención de pacientes
es imprescindible seleccionar un umbral de decisión, pero no es necesario
hacerlo para estimar la precisión. La figura de la curva ROC proporciona
un cuadro completo de la habilidad de una prueba para discriminar, se examinan
todos los posibles umbrales de decisión; representa los pares de sensibilidad/especificidad
para todo el rango de resultados observados.
En el eje Y se representa la sensibilidad o la fracción de
verdaderos positivos definido como:
VP: Sujetos enfermos que el proceder diagnóstico clasifica
como tales.
FN: Sujetos enfermos que el proceder diagnóstico clasifica como sanos.
Esta es también definida como la positividad en presencia de una enfermedad o condición y es calculada solo del grupo afectado. En el eje X está la fracción de falsos positivos o 1-especificidad, definida como:
FP: Sujetos sanos que el proceder diag nóstico clasifica
como enfermos.
VN: Sujetos sanos que el proceder diagnóstico clasifica como tales.
Este es un índice de especificidad y solo se calcula en
el grupo no afectado.
Las fracciones de verdaderos y falsos positivos se calculan por
separado para cada subgrupo, por tanto, la curva ROC es independiente de la
prevalencia de la enfermedad en la muestra. Cada punto en la figura representa
un par de sensibilidad/especificidad correspondiente a un umbral de decisión
particular. Una prueba diagnóstica con una discriminación perfecta
tiene una curva que pasa a través de la esquina superior izquierda, donde
la fracción de verdaderos positivos es 1 ó 100 % (sensibilidad
perfecta) y la fracción de falsos positivos es 0 (especificidad perfecta).
Una figura teórica para una prueba que no discrimina (distribución
idéntica de los resultados para ambos grupos) es una línea diagonal
de 45 o desde la esquina inferior izquierda hasta la superior derecha. La mayoría
de las representaciones caen entre estos extremos.
Cuanto más cerca esté la línea de la esquina superior izquierda, mayor será la precisión de la prueba.
Cuando se han obtenido resultados de múltiples pruebas en un mismo grupo de pacientes, pueden ser representados juntos. La posición relativa de las líneas indica la precisión relativa de las pruebas. Una curva que cae encima y a la izquierda de otra indica mayor precisión.
El área bajo la curva ROC es el mejor indicador global de la precisión
de una prueba diagnóstica.4 Hace factible
expresar el desempeño de una prueba mediante un número simple.
Esta área es siempre mayor o igual a 0,5. El rango de valores se mueve
entre 1 (discriminación perfecta) y 0,5 (no hay diferencias en la distribución
de los valores de la prueba entre los 2 grupos). La interpretación del
valor del área sería del modo siguiente: un área de 0,8
significa que un individuo seleccionado aleatoriamente del grupo de enfermos
tiene un valor de la prueba mayor que uno seleccionado aleatoriamente del grupo
de sanos en el 80 % de las veces.
Mediante una prueba de hipótesis y/o de la estimación del intervalo
de confianza para el área, podemos evaluar la precisión de un
proceder diagnóstico. Rechazar la hipótesis de que el área
teórica es igual a 0,5 (p < 0,05 y/o intervalo de confianza que no
contiene al 0,5), proporciona evidencia de que la prueba diagnóstica
tiene la habilidad para distinguir entre los 2 subgrupos.
Utilizando una prueba de hipótesis es posible comparar varias áreas bajo la curva ROC, lo que permite hacer distinciones entre el poder discriminatorio de 2 o más procederes diagnósticos, cuando estos se han realizado en el mismo grupo de pacientes.2
El primer ejemplo muestra los resultados de la aplicación de las curvas
ROC para evaluar la precisión diagnóstica de un método
desarrollado en el Instituto Nacional de Endocrinología (INEN) para determinar
la progesterona en plasma. Se empleó como referencia el diagnóstico
de la ovulación realizado con un kit comercial (prog-ctria, cib bio international)
de uso en el país.
En la tabla 1 se observa que el área es 0,981, con un intervalo de confianza que no contiene al 0,5 y una p = 0,00, todos estos aspectos indican que estamos ante un proceder diagnóstico de alta precisión, lo que se corrobora con una curva muy cercana al extremo superior izquierdo (figura 1).
TABLA 1. Área bajo la curva ROC. Evaluación de un método para determinar progesterona
|
Variable
|
Área
|
Error estándar
|
Significación
|
Límite de confianza 95 %
|
|
|
Límite inferior
|
Límite superior
|
||||
| Proginen | 0,981 | 0,008 | 0,00 |
0,965 | 0,996 |
FIG.1. Gráfico de la Curva ROC. Evaluación de un método para la determinación de progesterona.
En el segundo ejemplo se comparó el desempeño, como indicadores
pronóstico de la evolución de la diabetes, de 3 índices
relacionados con la secreción o la sensibilidad a la insulina, medidos
en sujetos con tolerancia a la glucosa alterada. El resultado evaluado fue si
el sujeto era diabético o no, 18 años después de realizado
el estudio inicial.
Los índices fueron:
De los índices evaluados solo uno (Ind030in) tiene un área significativamente
diferente de 0,5 (área 0,642, p = 0,025 e intervalo de confianza que
no contiene al 0,5); por lo tanto, es el único de los 3 índices
analizados que resulta de utilidad para establecer pronóstico de mala
evolución de la tolerancia a la glucosa (tabla 2). Los índices
restantes tienen áreas que no difieren significativamente de 0,5 y curvas
muy cercanas a la diagonal del gráfico (figura 2).
TABLA 2. Evaluación de 3 índices como indicadores pronósticos de la evolución de la diabetes mellitus
|
Variables
|
Área
|
Error estándar
|
Significación
|
Intervalo de confianza
|
|
|
Límite inferior
|
Límite superior
|
||||
| Irhomain |
0,512
|
0,064
|
0,847
|
0,386
|
0,639
|
| Betahoin |
0,487
|
0,064
|
0,84
|
0,362
|
0,613
|
| Ind030in |
0,642
|
0,061
|
0,025
|
0,523
|
0,761
|
FIG.2. Gráfico de la Curva ROC. Evaluación
de 3 índices como indicadores pronóstico de la evolución
de la diabetes mellitus.
Se concluyó que las curvas ROC proporcionan un buen índice de
la capacidad de una prueba diagnóstica para discriminar entre estados
alternativos de salud cuando los resultados son medidos en escala ordinal, por
intervalo o continua; son útiles para comparar procederes diagnósticos
y seleccionar umbrales de decisión.
El conocimiento sobre esta metodología resulta de gran utilidad para
todo profesional de la salud relacionado con el desarrollo y/o aplicación
de pruebas diagnósticas.
AS the diagnostic procedures are an essential and critical part at the time of making clinical decisions, it is very important to evaluate their diagnostic accuracy. The analysis of the Receiver-Operating Characteristic curves offers in a simple way an excellent indicator of precision of a diagnostic test. In this paper, mainly practical aspects connected with ROC methodology, such as usefulness, way of interpreting the results and advantages in relation to other methods, are considered. It is concluded that the knowledge on this methodology is very useful for every health professional in charge of developing, validating, indicating and interpreting the results of the diagnostic tests.
Subject headings: ROC CURVE; DIAGNOSTIC TECHNIQUES AND PROCEDURES; STATISTICAL METHODS AND PROCEDURES; SENSITIVITY AND SPECIFICITY.
Recibido: 15 de marzo de 2002. Aprobado: 28 de junio de 2002.
Dra. Emma Domínguez Alonso. Instituto Nacional de Endocrinología.
Zapata y D, El Vedado, Ciudad de La Habana, Cuba.
1 Especialista de I Grado en Bioestadística. Investigadora
Agregada.
2 Doctor en Ciencias Médicas. Especialista de II Grado en Bioquímica.
Investigador Titular.