¿Cómo se valora el empleo de un score? ¿Qué es el índice de reclasificación neta?

En la entrega anterior nos referimos a dos de los pasos esenciales en la confección de un score, la derivación (construcción y desarrollo inicial) y la validación (exploración de cómo funciona en una cohorte diferente de la que deriva).

Pero más allá de derivación y validación debe tenerse en cuenta el impacto clínico de la utilización de la regla de predicción. Pueden emplearse al respecto estudios aleatorizados (algunos médicos o conglomerados emplean la regla y otros no, y se valora la diferencia en la utilización de recursos, o la incidencia de eventos, o el efecto sobre una variable determinada), u observacionales (comparando los resultados en un diseño antes-después, o comparando instancias en que se utiliza el score o no, y ajustando por la presencia de características basales). Si la validación externa de un score ya es algo que pocas veces se lleva a cabo, el análisis del impacto clínico es lamentablemente algo de lo que generalmente se prescinde.

A veces un scorees renovado por el agregado de una nueva variable predictora. Por ejemplo, se agrega el valor de troponina a un scorebasado en criterios clínicos para señalar el pronóstico de pacientes coronarios crónicos. O el valor de BNP a un scorediseñado para pronosticar muerte o internación en pacientes con insuficiencia cardíaca. ¿Es mejor el nuevo modelo, agrega significativamente al usado hasta ahora? Ambos scores pueden ser comparados en base a su capacidad de discriminación, definida como ya vimos por el área ROC. Hay tests estadísticos que permiten comparar un área ROC con otra. Si el nuevo modelo tiene un área ROC significativamente superior, puede que sea mejor usar el scoremás reciente.

Pero ese no es el único criterio a tener en cuenta. Cada scoredefine categorías de riesgo. Así, por ejemplo, un scorepuede definir un riesgo o probabilidad de eventos a 5 años en una población. Ello permite definir categorías de riesgo, por ejemplo bajo intermedio o alto. En cada una de estas categorías hay quienes, más allá de la predicción, efectivamente presentan el evento, y quienes no. Aparece luego un nuevo score, que permite definir las mismas categorías de riesgo, con iguales valores de corte. Aplicado a los mismos participantes, ¿lo hubiera predicho mejor? Esto es, ¿hubiera habido menos eventos en el riesgo bajo, y más eventos en el alto riesgo?

El índice de mejoría neta de reclasificación (NRI por su sigla en inglés) permite ver si un scorecon un componente adicional respecto de uno anterior mejora la capacidad de clasificación correcta de los eventos; es la proporción neta de eventos y de no eventos reclasificados correctamente. Se puede trabajar con las categorías citadas o considerar un índice libre de categoría.

Veamos un ejemplo. En la tabla se presenta un estudio de cohorte con 1.000 pacientes que tienen insuficiencia cardíaca. Al inicio del seguimiento se ha aplicado a todos ellos un score(modelo sin BNP) para predecir mortalidad a 5 años, definiendo bajo riesgo como una probabilidad < 10%, intermedio cuando al riesgo está entre 10 y 20% y alto cuando es > 20%. En seguimiento a 5 años 180 de ellos mueren, y 820 siguen vivos.

Entre los 180 muertos, en 58 (34+24+0), el 32,2%, se había determinado un riesgo de muerte a 5 años < 10%; en 68 (15+13+40), el 37,7%, se había definido un riesgo entre 10 y < 20%; en los 54 pacientes restantes (4+20+30), el 30,1%, se señaló un riesgo ≥ 20%.

Cuando se considera en los 180 muertos qué hubiera pasado de aplicarse el nuevo score(modelo con BNP), vemos que entre los 58 a los que se les adjudicó riesgo < 10%, 24 (13,3%) pasaron a riesgo 10-< 20%; y entre aquellos a los que se les adjudicó riesgo 10-<20%, 40 (22,2%) pasaron a tener riesgo ≥ 20%. Es decir que un 35,5% de los muertos hubiera tenido con el nuevo scoremás riesgo que con el viejo, esto es que la predicción de mortalidad hubiera sido más acertada.

De igual modo, entre los 180 muertos, de los 68 en los que se definió con el viejo scoreriesgo 10-< 20%, 15 (8,3%) hubieran tenido con el nuevo un riesgo < 10%. Y de los 54 con riesgo ≥ 20%, 4 (2,2%) hubieran tenido un riesgo < 10%, y 20 (11,1%) un riesgo 10-< 20%. Es decir que 21,6% hubieran tenido menos riesgo con el nuevo score, esto es que la predicción de mortalidad hubiera sido menos acertada.

De la diferencia entre 35,5% y 21,6% surge un 13,9% de pacientes que hubieran sido mejor clasificados con la nueva herramienta que con la vieja.

Si repetimos las mismas operaciones con los vivos pero en sentido inverso, porque acá la predicción más correcta hubiera sido la de menor riesgo de mortalidad y la errónea la de mayor riesgo, (dejamos la verificación al lector para no abrumarlo con tanto número impreso) surge que con el nuevo score se hubiera predicho menor mortalidad en 135 pacientes (16,4%) y mayor mortalidad en 110 (13,5%). La diferencia neta es entonces de 2,9% de pacientes que hubieran sido mejor clasificados entre los vivos.

En conclusión, un 16,8% (13,9% + 2,9%) neto de pacientes es reclasificado correctamente. Este índice de reclasificación tiene un IC 95%. Cuanto mayor el índice, más utilidad del nuevo score.

¿Cómo se valora el empleo de un score? ¿Qué es el índice de reclasificación neta?

Todo este análisis que hemos mencionado puede también llevarse a cabo aunque los componentes del scoresean diferentes, siempre y cuando apunten a delimitar categorías de riesgo semejantes.

Valoración del impacto clínico, uso del índice de reclasificación, son algunas de las maneras de ver si la regla de predicción tiene verdadera utilidad en la práctica clínica.

Dr. Jorge Thierer

 

SAC Móvil

¡Descarga nuestra aplicación para navegar nuestro contenido de una manera más fácil y dinámica!