Cardiopatías: en las cosas del corazón no basta con una segunda opinión

enero 27, 2018 de micromedix Deja un comentario

¿Podría usted confiar en la opinión de un solo médico cuando éste le ha diagnosticado una cardiopatía que podría terminar en un infarto?
¿Y en verdad cree que una segunda opinión sería suficiente para confirmar o descartar ese primer diagnóstico? … ¿Que le parecería contar con cientos de opiniones por el precio de una sola consulta?
A finales del siglo pasado, nadie hubiera creído que las máquinas pudieran aprender, a partir de centenas de diagnósticos.

Sin embargo, hoy en día ya no es ningún misterio, cómo un ingeniero en informática biomédica descubre el conocimiento implícito en esa inmensa mina de datos. Pero permítame contarle cómo fue que eso que otrora nos pareció un sueño, pasó a ser parte de nuestra realidad.

Antecedentes y herramienta de diagnóstico

De acuerdo con D. Senthil Kumar y sus colaboradores, el diagnóstico convencional es subjetivo, porque depende del juicio de un solo médico, el que lo emite. En este contexto, estos investigadores sostienen que: «el aprendizaje de máquina puede emplearse para extraer reglas de diagnóstico a partir de las descripciones de los pacientes que fueron tratados con éxito en el pasado, y para ayudar a los especialistas a hacer que el proceso de diagnóstico sea más objetivo y confiable« [1].
En el artículo que intitulé «La informática biomédica en el diagnóstico y la prevención de la esquizofrenia y otros trastornos de la personalidad«, expliqué cómo las máquinas van adquiriendo experiencia conforme van acumulando registros de casos, que son analizados por un algoritmo dotado de inteligencia artificial. En esa ocasión presenté los casos de esquizofrenia y de otros trastornos de la personalidad que la Fundación Micromédix ha atendido, y analicé cómo los diagnósticos de esos pacientes los utilizaba la herramienta de minería de datos (WEKA), para identificar el fenotipo de los nuevos pacientes.

Propósito del análisis de los datos y su aprovisionamiento

En esta entrega voy a describir cómo este mismo programa puede ser empleado para diagnosticar una cardiopatía (una afección en el corazón), con el propósito de prevenir un infarto. Aparte de la enfermedad a diagnosticar, otra diferencia más que vamos a encontrar en esta entrega, es que los casos a analizar provienen del repositorio de datos de la Universidad de California, con sede en Irvine.

En el mismo repositorio (izquierda) hay registros de pacientes que fueron atendidos en hospitales de Cleveland, EUA (303 casos), Suiza (123 casos) y Hungría (294 casos), así como la base de datos Statlog (270 casos), con valores de la variable a predecir ligeramente diferentes; pero con los mismos atributos (variables predictoras).
Ya otros investigadores como Sundaraman, Kakade, Chaurasia y otros [2] [3], han usado los datos del hospital de Cleveland para demostrar cómo algunas herramientas son capaces de diagnosticar una cardiopatía, con una precisión hasta del 83.5% en condiciones de validación cruzada, haciendo uso de los algoritmos Naive Bayes y CART.

A continuación voy a demostrar cómo se puede aumentar la precisión de este modelo de diagnóstico, fusionando los datos de Cleveland y Statlog, y permitiendo que otro algoritmo aprenda a clasificar los casos, usando esta nueva base de datos.

Descripción de los datos y su preprocesamiento

Como se aprecia en la captura de pantalla de la izquierda (pulse sobre la misma para ver los detalles), hay un total de 573 casos registrados (303 de Cleveland más las 270 instancias en Statlog). Existen asimismo 13 variables predictoras y la que el sistema intenta predecir: cardiopatía. Cuando el paciente está sano, esta variable debe ser necesariamente cero. Un valor de uno está representando a los pacientes que tienen alguna cardiopatía. Note también que en la base de datos resultante, 259 pacientes fueron diagnosticados con alguna afección (barra de color rojo), sin especificar exactamente cuál.
En la hoja de Excel que aparece a su derecha estoy mostrando los primeros 23 registros (pulse sobre la misma para agrandarla). Para unir los datos de Cleveland y Statlog, se modificaron los valores que la variable cardiopatía tenía en el repositorio de Cleveland. En éste, a esta variable se le permitía asumir los valores 0, 1, 2, 3 y 4, que correspondían a un estado de salud (cero) y cuatro posibles tipos de afecciones. En contraste con ello, en Statlog esta misma variable era dicotómica (la que puede tomar únicamente los valores 0 y 1). Para lograr que ambos conjuntos fueran compatibles, los valores 2, 3 y 4 se modificaron a 1 en el repositorio de Cleveland.

Análisis de atributos y su relevancia en el diagnóstico de las cardiopatías

A continuación presento cada uno de los atributos que determinan cuándo un paciente está teniendo problemas de corazón. Las variables se analizan en el orden de importancia que cada una de ellas tiene, a la hora de diagnosticar una cardiopatía. Así, el síntoma que aparece al principio de la siguiente lista, es el que repercute más en el diagnóstico. En la imagen adjunta (pulse para agrandarla) muestro una adaptación al español de la gráfica que aparece en la página 216 de la obra de Chaurasia y otros (op. citada), en donde el colesterol se destaca por ser la variable que menos importancia tiene en este tipo de dolencias, un hecho que Bowden y Sinatra dieron a conocer desde el 2013, en uno de sus más notables trabajos [4].

I. Dolor o angina de pecho (dolor_dp)

Hay pacientes que manifiestan los síntomas típicos de una cardiopatía, como son la angina de pecho y la fatiga. Ambos malestares suelen presentarse cuando el corazón no está recibiendo suficiente oxígeno. No obstante, tanto Kumar y otros (op. citada, pág. 148), como el análisis que se desprende de la captura de pantalla que aparece a su izquierda (pulse sobre la misma), coinciden en que casi el 50% de los pacientes no manifiestan síntomas, hasta que son sorprendidos por un ataque al corazón (véase a continuación el significado de los valores que esta variable puede asumir). Después de todo, es a través de un electrocardiograma que el médico se da cuenta que existe un problema.

El significado de cada uno de los valores que esta variable puede asumir es como sigue:
1: Angina típica (bien definida):
(a) una molestia en la región torácica subesternal de cualidades y duración características, que es
(b) provocada por el esfuerzo o el estrés emocional y
(c) que se alivia con el descanso o con nitroglicerina.
2: Angina atípica (probable). Cumple con dos de las características anteriores.
3: Dolor de pecho de origen no cardíaco. Cumple con una o ninguna de las características de la angina típica.
4: Paciente sin síntomas.

Para una mejor interpretación de la imagen anterior, puede usted pulsar sobre ésta para ver cómo están distribuidos los pacientes, en función de los valores que esta variable puede asumir en esta base de datos:
Son 43 los pacientes con síntomas de angina típica.
El número de pacientes detectados con angina atípica asciende a 92.
Los que manifestaron un dolor en el pecho que no tiene relación con un problema de corazón (debido tal vez a un reflujo o a una úlcera por ejemplo) son 165. El 47.6 % (273/573 x 100%) de los pacientes no manifestaron síntomas. A pesar de ello, la mayoría de ellos dieron positivo a una cardiopatía: alrededor de 200 pacientes representados por la sección roja de la barra mostrada en la extrema derecha de la gráfica.

II. La pendiente del segmento ST en condiciones de máximo ejercicio (pend_seg_st)

Una vez que su cardiólogo le explique con lujo de detalle el significado de este atributo, usted no tendrá problemas para proporcionarnos los valores que a esta variable le corresponden en el electrocardiograma que ese señor de bata blanca le practicó. Si el informe de su electrocardiograma no especifica cuál ha sido la inclinación del segmento ST de la gráfica que le han entregado, entonces tal vez le interese pulsar sobre la imagen que aparece a su izquierda para darse una idea del significado que tienen los valores de este atributo:
1: Implica que la pendiente en este segmento de la gráfica es ascendente.
2: Representa un segmento ST completamente horizontal.
3: Significa que la pendiente en este segmento de la gráfica es descendente (pulse también en la imagen que aparece a su derecha para agrandarla).
Recuerde que si usted pagó por un análisis de este tipo, está en todo su derecho de solicitar los valores tanto de esta variable, como de los demás atributos que caracterizan a todo electrocardiograma.

Conviene apuntar que el riesgo de sufrir una cardiopatía es mayor cuando el segmento ST en el electrocardiograma no tiene ninguna pendiente (depresión horizontal), que cuando esa misma pendiente es positiva (depresión ascendente). Asimismo, para los pacientes cuyo electrocardiograma ha registrado una pendiente negativa (depresión descendente), el riesgo de sufrir una cardiopatía es ligeramente mayor al 50% (pulse sobre la imagen adjunta para agrandarla).
Observe también en este mismo diagrama de barras, cómo para cada uno de los valores 1, 2 y 3 de esta variable, el número de pacientes es de 272, 262 y 39, respectivamente.

III. Angina de pecho provocada por el ejercicio (angina_iej)

Si después de un tiempo de estar haciendo ejercicio, usted siente dolor en el pecho, es probable que necesite un diagnóstico como el que más adelante estaré proponiendo. Si esto le ha ocurrido más de una vez, contáctenos para estar más seguros de lo que está ocurriendo, ya sea para descartar una posible afección cardíaca (cadiopatía=0), o bien para confirmarla (cardiopatía=1). Lo mejor que uno puede hacer en caso de existir un problema es no alarmarse, pues de sobra sabemos que el estrés es uno de los principales enemigos del corazón, sin restar desde luego la debida importancia a la hipertensión y la glucosa (azúcar en sangre).

Es importante mantener la calma, pues me complace comunicarle que un infarto se puede prevenir con un tratamiento basado en una dieta apropiada y una receta de suplementos específica para las cardiopatías (puede descargarla más adelante). Es lo más sensato que puede hacer para evitar que las cosas se compliquen.
Cualquiera que vaya a ser su diagnóstico, el valor para este variable será nulo si usted nunca ha experimentado dolor en el pecho con el ejercicio (angina_iej=0). Como cabría esperar, el valor de angina_iej será igual a uno si usted ha estado sintiendo dolor. Como se infiere de la imagen adjunta, las personas que experimentan angina de pecho con el ejercicio, muy frecuentemente dan positivo a una cardiopatía.

IV. Resultados del electrocardiograma en condición de reposo (res_electro)

Los posibles resultados de un electrocardiograma estando en reposo pueden ser tres:
Si la prueba salió normal, entonces res_electro=0. Si se detectó una anomalía en la sección de la onda T- segmento ST, entonces res_electro=1.
Cuando con el criterio de Romhilt-Estes el electrocardiograma revelara una franca o una probable hipertrofia en el ventrículo izquierdo, entonces res_electro=2.
De acuerdo con la gráfica adjunta, las anomalías de un electro pocas veces se encuentran en la onda ST-T. Por lo regular, o sale normal, o bien con algún tipo de hipertrofia ventricular.

V. Presión sanguínea en reposo (presión)

Si usted se toma la presión y anota el valor que su dispositivo registró como el mayor, estará obteniendo los milímetros de mercurio de su presión sistólica, que sería el valor que nosotros le asignaríamos a esta variable para realizar su diagnóstico. A fin de cuentas, este dato lo emplea nuestro sistema para valorar si es usted hipertenso, una condición que contribuye a aumentar el riesgo de infarto.

VI. Sexo
Los hombres suelen ser más propensos a las cardiopatías que las mujeres.
Si el género de un paciente es masculino, sexo=1; si es femenino, entonces sexo=0.

VII. Edad
Este atributo es un valor numérico que varía entre los 29 y los 77 años.
Note que el rango de edades en el que los pacientes son más propensos a desarrollar una cardiopatía está entre los 55 y los 62 años, según se infiere del diagrama de barras adjunto (pulse sobre la imagen para ver los detalles).

VIII. Frecuencia cardíaca máxima ( frec_card_máx)

Es el número máximo de pulsaciones (latidos) por minuto que puede alcanzar el corazón de una persona, al realizar un ejercicio físico que no compromete su salud. Existen varias fórmulas para calcular su valor teórico. La más simple consiste en restar la edad a 220 (226 en caso de ser mujer). La fórmula de Tanaka es un poco más precisa: frec_card_máx= 208.75 – 0.73*edad. Para alguien de 60 años por ejemplo, la frecuencia cardíaca máxima teórica debería ser de 164.95 lpm. Miller por su parte la calcula como frec_card_máx = 217 – 0.85*edad. De acuerdo con la gráfica adjunta, en la práctica, los pacientes que no llegan a registrar en un pulsímetro los 145.8 latidos/minuto, están más en riesgo de desarrollar una cardiopatia, que aquellos que logran superar esa cifra.

IX. Glucosa (medida en ayunas)
De acuerdo con las gráficas que aparecen en la imagen adjunta, el azúcar en la sangre no es una variable que repercuta significativamente en el diagnóstico de una cardiopatía.
Tanto los pacientes cuya glucosa en ayunas fue mayor o igual a los 120 mg/dl (glucosa=1 ), como los que registraron una glucosa con un valor inferior a esa misma cifra (glucosa=0), corren el mismo riesgo de desarrollar una cardiopatía (50%).
Esto no significa que consumir azúcar sea una buena idea, sino que hacerlo es tanto como jugar a los volados con el corazón.

X. Colesterol

Como dije anteriormente, el colesterol tiene una importancia aún menor en el resultado del diagnóstico, que la que podría llegar a tener la glucosa. De hecho, la precisión del modelo seleccionado no se vio afectada cuando decidí eliminar de la lista, la variable colesterol. El modelo dio los mismos resultados con y sin colesterol, cosa que no ocurrió con la glucosa. A continuación describo el criterio que adopté para seleccionar el método que a la postre me entregaría diagnósticos más precisos.

Selección del método idóneo para diagnosticar una cardiopatía

La minería de datos clínicos es una rama de la informática biomédica que nos permite predecir con bastante exactitud, el resultado de un análisis sintomático. Originalmente fueron 13 atributos los que utilicé para comenzar a evaluar tres algoritmos de clasificación (diagnóstico): el perceptrón multicapa y los árboles de clasificación LMT y Random Forest (véase ta tabla comparativa en la imagen adjunta).
Para evaluar la bondad de un algoritmo de predicción, además de la precisión, hay otros indicadores que nos ayudan a confirmar cuándo un método de diagnóstico es mejor que otro. El estadístico de Kappa y la raíz del error cuadrático medio son dos parámetros que cumplen con ese cometido.

Como el objetivo de la presenta entrega no es impartir un curso de minería de datos clínicos o de estadística, por el momento bastará con saber para qué nos sirven esas dos cifras estadísticas y por qué en esta ocasión he incluido otro indicador que en la figura anterior aparece como falsos negativos. En general, se dice que un algoritmo es mejor que otro si su estadístico de Kappa es mayor que el de cualquier otro. Análogamente, un algoritmo producirá mejores diagnósticos si la raíz del error cuadrático medio que ha generado, es menor que la de cualquier otro.

Ahora bien, en las cosas del corazón uno debería reducir al máximo el número de diagnósticos que la herramienta de minería de datos clasifica como falsos negativos, que sería el caso de diagnosticar a un paciente sano (cardiopatía=0) cuando en realidad está enfermo (cardiopatía=1). Esta situación equivale a decir que alguien no está enfermo cuando en realidad sí lo está. Todo es cuestión de terminología e interpretación. ¿Y cómo saber cuándo estamos ante una situación como ésta? Pues poniendo a prueba nuestro algoritmo mediante una validación cruzada, tal y como lo explico en el apartado que sigue (pulse también sobre la captura de pantalla adjunta).

Aprendizaje de máquina: sabiduría colectiva a su máxima expresión

En una prueba de validación cruzada, la herramienta de software (WEKA) divide a los datos en diez partes iguales y comienza a aplicar el algoritmo al 90% de ellos, a fin de calcular el valor de la variable que va a diagnosticar (en nuestro caso, cardiopatía). El 10% restante lo utiliza como datos de prueba para estimar qué tanto se está equivocando. Una vez que se entrena con ese 90%, calcula el valor de cardiopatía para cada caso registrado en los datos de prueba, y lo compara con la opinión que un cardiólogo emitió en el pasado en relación con ese caso. Tanto si ambos valores coinciden como si no, el software aprende de dicha comparación y memoriza el resultado.

Este procedimiento se repite 10 veces, tomando cada vez como datos de prueba, otro 10% de los datos y un 90% también diferente al que se usó en la prueba anterior como datos de entrenamiento. En cada una de las diez pasadas que realiza el software, el algoritmo cuenta con 515 opiniones (0.90 x 573) de expertos para determinar si un paciente ha desarrollado o no una cardiopatía.

Y es así como el algoritmo que se está evaluando termina construyendo una matriz de confusión (izquierda), en donde uno puede conocer esos falsos negativos de los que hablaba yo en un párrafo anterior. A pesar de todo ese despliegue de inteligencia, las tres pruebas de validación cruzada aplicadas a las 13 variables, y luego a las 9 que quedaron después de eliminar el colesterol, podrían no reflejar la realidad de otro entorno, con pacientes de otras regiones o de epigenéticas distintas. Dado que aquí no estamos manejando un volumen de datos muy grande (Big Data), es evidente que la precisión del modelo disminuirá cuando usemos datos de prueba diferentes a los del conjunto Cleveland-Statlog.

Esta característica es inherente a todo modelo de clasificación (diagnóstico) y se conoce como sobreajuste: una especie de «entrenamiento localizado» que se debe manejar sustituyendo los datos de prueba con datos exógenos, es decir, con datos ajenos a los utilizados en la validación cruzada.

Un modelo 79% confiable

El modelo con 9 variables y el método de Random Forest es el que terminé seleccionando para diagnosticar a mis pacientes, por haber arrojado los mejores indicadores estadísticos. De hecho, su precisión ha resultado ser mayor que la de algunos otros modelos que lo han precedido. Sundaraman y Kakade de la Northwestern University por ejemplo, obtuvieron una precisión del 70.73% empleando el método de Naive Bayes y los datos de prueba (exógenos) de los hospitales de Suiza [2].

Ellos obtuvieron una precisión del 83.5% con ese mismo algoritmo en condiciones de validación cruzada, resultado que contrasta con ese 97.2% que se obtuvo aquí con el método de Random Forest, bajo el mismo criterio de validación (véase más atrás la imagen intitulada «Selección del modelo con validación cruzada»). Pero veamos cómo fue que el modelo de Random Forest con 9 variables (izquierda), pudo superar al de Sundaraman y Kakade con 13 variables, una vez que se le aplicó la «prueba de fuego» con los datos exógenos. Esos datos de prueba los extraje también del repositorio de Irvine y corresponden a casos que fueron atendidos en los hospitales de Suiza y Hungría. De acuerdo con los resultados de dicha prueba (ver imágenes adjuntas), es evidente que el modelo con Random Forest superó al de Naive Bayes en 7.84 puntos porcentuales. Como sea, ambos modelos pueden ser usados como apoyo en la toma de decisiones clínicas, o por cualquier médico que necesite la opinión consensuada de otros colegas.

La ventaja del modelo que aquí se propone, además de una mayor precisión, es que el paciente solo tiene que proporcionar 9 datos, en lugar de los 13 que requiere el modelo de la Northwestern University. Tan solo para ilustrar la manera en que se aplica la matriz de confusión en general (no solo para el caso de las cardiopatías), nótese cómo en este último caso he empleado los falsos positivos en lugar de los negativos (lo que procede es aplicar también el criterio de los falsos negativos, para reducir al máximo la probabilidad de que un paciente crea que no corre ningún riesgo, cuando podría estar en peligro de sufrir una cardiopatía).

¿Dio usted positivo a una cardiopatía?

Si le han diagnosticado una cardiopatía o está en riesgo de sufrir un infarto, puede solicitar la opinión de unos cuantos cientos de especialistas por el precio de una consulta, descargando la receta que aparece a su izquierda.
Ahí encontrará las dosis terapéuticas (ortomoleculares) y el modo de administración de los nutrientes que desde hace mucho tiempo hemos estado recomendando en estos casos.
La descarga incluye una hora de consulta junto con un diagnóstico como el que se ha descrito a lo largo del presente trabajo.
La consulta se lleva cabo por Skype o vía telefónica y en ella podrá usted aclarar cualquier duda que pudiera tener en relación al tratamiento que se indica en dicha guía terapéutica (pulse sobre la imagen para descargarla).

Conclusiones

Más que una inteligencia colectiva, un modelo como el que acabo de presentar posee una inteligencia artificial capaz de desplegar una sabiduría colectiva.
Por mucho que un egresado de Harvard se haya quemado las pestañas estudiando los misteriosos secretos que guarda el corazón, difícilmente podrá competir con la experiencia acumulada y la precisión con la que realiza los diagnósticos una herramienta de minería de datos clínicos.
Hoy en día, esta tecnología nos permite contar no solo con una segunda opinión, sino con la de centenares de expertos.

¿Quieres que confeccionemos una receta inteligente para ti o tu familiar? Puedes concertar una cita para que recopilemos los datos que necesitamos.

RERERENCIAS

[1] D.Senthil Kumar et al. Decision Support System for Medical Diagnosis Using Data Mining. IJCSI International Journal of Computer Science Issues, Vol. 8, Issue 3, No. 1, May 2011
[2] Sundaraman & Kakade. Clinical Decision Support For Heart Disease Using Predictive Models
Northwestern University. Big data Analytics Conference 2015
[3] Vikas Chaurasia et al. Early Prediction of Heart Diseases Using Data Mining Techniques. Carib. j. SciTech, 2013, Vol.1, 208-217.
[4] Jonny Bowden y Stephen Sinatra. La verdad sobre el colesterol. Descubre los falsos mitos acerca del colesterol. Un programa efectivo sin medicamentos para rebajarlo. Urano. 2103

Autor: micromedix

Sergio López González. Ing. en Informática Biomédica