Medicina Natural

Consultorio de Medicina Alternativa con Recetas


Deja un comentario

¿Qué le dijo un triglicérido a una molécula de colesterol?…”no eres tú, soy yo”

El ejército farmacéutico y sus soldados de bata blanca nos han estado vendiendo por años, la idea de que el colesterol es el principal culpable de las cardiopatías, es decir, de los problemas de corazón que se llegan a experimentar por consumir de manera excesiva alimentos cargados de grasas animales y vegetales. Y es que los fármacos fabricados a base de estatinas, como el Lipitor, el Zocor, el Crestor y otras por el estilo, les han dejado a Pfizer, a AstraZenaca y a otros muchos laboratorios farmacéuticos, carretonadas de dinero contante y sonante.

¿Que le dijo un triglicérido a una molécula de colesterol?

Independientemente de si esas estatinas realmente hacen que el colesterol baje, en la presente publicación le voy a mostrar cómo eso de que el colesterol contribuye a desarrollar una cardiopatía es totalmente falso. Como veremos más adelante, las principales causas de una cardiopatía son la resistencia a la insulina, la inflamación y el estrés crónico [1]Si las moléculas hablaran, un triglicérido le diría a una molécula de colesterol:

“No te sientas mal, tú no has sido la culpable de que el individuo que habitamos haya desarrollado esta cardiopatía. He sido yo, junto con nuestra amiga la insulina, la inflamación causada por los radicales libres y las constantes preocupaciones que nuestro anfitrión manifiesta, los que le hemos complicado su existencia“. Tanto en el libro de Bowden y Sinatra (ob. cit.) como en el trabajo de investigación que publiqué a cerca de los factores que más contribuyen en el desarrollo de una cardiopatía, se pueden hallar argumentos suficientes para rebatir esa teoría que sostiene que el colesterol, es el principal causante de las enfermedades del corazón.

Hace una década que Chris Anderson señaló en un controvertido artículo [2], que el método científico podría caer en desuso, debido a los extraordinarios resultados que estaba produciendo el análisis de las correlaciones de datos masivos (Big Data). Por aquel entonces, la técnica del análisis de datos (data analytics) ya se estaba empleando para plantear hipótesis que hasta ese momento habían emanado de las creencias o suposiciones del científico a cargo de la investigación. La hipótesis así generada debía confirmarse o rechazarse a través de una serie de experimentos minuciosamente controlados. Con el surgimiento de la minería de datos y las tecnologías de procesamiento de datos masivos, los científicos ahora son capaces de derivar hipótesis, a partir de lo que revelan las tendencias de los datos y sus correlaciones.

Los datos sí hablan, y además dicen la verdad

Cuando uno selecciona los atributos que más contribuyen al desarollo de una cardiopatia (veáse Cardiopatías: en las cosas del corazón no basta con una segunda opinión), se encuentra con que la variable a predecir (cardiopatía=falso/verdadero) tiene muy poco que ver con las variables predictoras glucosa y colesterol, y mucho que ver con la frecuencia cardíaca (frec_cardíaca), la angina inducida por el ejercicio (angina_iej) y el dolor o angina de pecho (dolor_dp). Y cuando digo poco o mucho que ver, me estoy refiriendo a lo débil o intensa que puede llegar a ser una correlación estadística entre cada una de esas variables y la cardiopatía o variable de salida (pulse sobre la imagen adjunta para agrandarla).

Los datos hablan por sí mismos y no hay que salir corriendo a la farmacia a comprar 10 cajas de Lipitor, después de que un excelentísimo señor de bata blanca nos ha comunicado que nuestro colesterol está por las nubes y que es imprescindible bajar sus niveles. No sé si me estoy explicando. La correlación es una medida de lo mal o bien que una variable afecta a otra, sobre todo cuando los datos de cada una de ellas no han sido inventados, como suele suceder en los ensayos clínicos aleatorizados tipo doble ciego. El repositorio de datos de los centros médicos de la Universidad de California con sede en Irvin, fue recolectado y puesto a disposición de los ingenieros en informática biomédica y los científicos de datos, para que construyéramos un modelo de diagnóstico como el que presenté en la publicación cuyo vínculo proporcioné en un párrafo anterior. Esos datos reflejan la realidad de un total de 573 casos registrados, mismos que después de haber sido alimentados a una herramienta de minería de datos como WEKA, fueron analizados y correlacionados para su diagnóstico y selección, respectivamente.

Se dice que una variable afecta de manera significativa a otra, cuando su coeficiente de correlación es igual o muy cercano a la unidad. Un coeficiente de correlación entre dos variables nulo o cercano a cero, indica que ninguna de las dos afecta a la otra. De acuerdo con el análisis de correlaciones entregado por nuestra herramienta de trabajo, cuyas capturas de pantalla he mostrando en la secuencia de imágenes adjuntas, es claro que el colesterol no influye significativamente ni en la frecuencia cardíaca, ni en la angina de pecho, ni sobre la que es inducida por el ejercicio (pulse sobre cada una de las imágenes para agrandarlas). Nótese cómo se aplicaron tres criterios de correlación para ponderar la relevancia de cada variable predictora respecto a la de salida.

Realidad, causalidad y casualidad

Como hemos visto, los datos no mienten, y pueden llegar a ser más confiables que las hipótesis que podrían regirse por el sentir de un científico en particular, o los intereses de un laboratorio que pretende convencer a los médicos y al público en general, de las bondades de su última patente farmacéutica. En la época en la que los datos eran escasos o eran demasiados pero difíciles de procesar por no contar con herramientas apropiadas, los investigadores se esforzaban por explicar a toda costa, las causas de un fenómeno. La causalidad era más importante que cualquier otra cosa. Si no se conocían las causas de un síntoma o de una enfermedad, no se podía establecer una hipótesis y mucho menos una teoría sobre lo que estaba ocurriendo.

Como dato curioso, existen descubrimientos que fueron realizados por casualidad y que por lo mismo, no surgieron obedeciendo al principio de la causalidad que tanto promueven los partidarios del método científico. Hay muchos ejemplos de ellos: la penicilina, la radioactividad, los rayos X, el velcro, el teflón, la dinamita, el viagra, el marcapasos, la vulcanización del caucho y el plástico, son solo algunos de esos hallazgos que se produjeron por accidente. ¿Y cree usted que en algún momento, el científico en cuestión se propuso investigar las verdaderas causas de su descubrimiento? Pregúntele a un médico si sabe por qué el viagra produce ese singular efecto en los varones y comprenderá mejor lo que quiero decir. Los millones de dólares que le ha redituado este descubrimiento a Pfizerjustifican de sobra el saber exclusivamente qué es lo que produce, sin necesidad de preguntarse cómo lo hace.

Ahora imagine por un momento que cuenta usted con una herramienta que calcula correlaciones significativas que no implican una mera casualidad, sino que más bien indican una realidad reflejada por las variables que mejor representan el comportamiento de la variable a diagnosticar. Eso es precisamente de lo que se encarga una herramienta de minería de datos como la que usé para concluir que el colesterol no constituye un buen predictor de cardiopatías.

El Proxy: una realidad sin causalidad

Schönberger & Cukier [3] han denominado proxy al conjunto de variables que representan el comportamiento de la variable que se diagnostica. En el caso que nos ocupa, el proxy está constituido básicamente por la frecuencia cardíaca, la angina de pecho y la angina inducida por el ejercicio.  Esto significa que una variación en cualquiera de estas variables predictoras, afecta sensiblemente a la variable a predecir, esto es, a la presencia/ausencia de una cardiopatía.

Ambos autores piensan que una correlación puede ser todo lo que uno necesita para descubrir lo que está pasando entre dos o más variables, aun cuando la misma cifra no revele por qué está pasando. Un proxy es entonces un conjunto de variables predictoras que reflejan fielmente el comportamiento de la variable a predecir, por estar mejor correlacionadas con ésta. Aunque en su obra ellos no mencionan absolutamente nada a cerca del colesterol, lo que yo estoy poniendo aquí al descubierto en relación al fraude farmacéutico de las estatinas, tiene mucho que ver con el hecho de que existe una correlación muy pobre entre el colesterol y las cardiopatías (0.1 para ser exactos).

El precio de bajar el colesterol: los efectos secundarios de las estatinas

Hasta donde alcanzo a vislumbrar, esto constituye una medicina basada en evidencias, porque así lo demostró el análisis de datos de los pacientes de Cleveland y Statlog. Y si los datos también hablaran, le dirían a los médicos: el colesterol no es el principal causante de los problemas de corazón, así que por favor ya no sigas prescribiendo estatinas, porque vas a acabar con la memoria y otras capacidades cognitivas de tus pacientes”. Los efectos secundarios que más deberían preocupar a los pacientes de los médicos que acostumbran recetar estatinas, son el deterioro de la memoria y la capacidad cognitiva.

Un estudio realizado por la Universidad del Estado de Iowa en el 2009 (ob. cit., pág. 144), demostró que el cerebro depende del colesterol para funcionar de manera óptima. “Hay una relación directa entre el colesterol y la liberación de neurotransmisores… El colesterol cambia la forma de las proteínas para estimular el pensamiento y la memoria… afecta lo listo que eres y tu capacidad para recordar las cosas“, señaló en su informe Yeon-Kyun Shin, biofísico y profesor del departamento de bioquímica, biofísica y biología molecular de la universidad de Iowa.
De manera que bajar el colesterol con estatinas puede resultar hasta contraproducente, porque además de provocar dichos efectos secundarios, no ofrece un beneficio sustancial en la prevención de infartos.
Lo que realmente importa entonces es encontrar las verdaderas causas de las cardiopatías. Para ello, conviene dejar de preocuparse por el colesterol total y el “colesterol malo” (también llamado de baja densidad o LDL), para enfocarse más en los triglicéridos y el colesterol de lipoproteínas de alta densidad (HDL), mejor conocido como “colesterol bueno”.

Los verdaderos culpables de las cardiopatías

Por supuesto que habremos de explorar también los posibles factores de riesgo que se asocian a una cardiopatía, tomando en cuenta los hallazgos anteriormente mencionados. Pero como no es posible descubrir las causas de una cardiopatía a través de correlaciones, me interesó conocer la opinión de Bowden y Sinatra a este respecto.
Aunque ambos autores reconocen al azúcar como uno de los principales causantes de las cardiopatías, si miramos más detenidamente las capturas de pantalla mostradas en las imágenes precedentes, podríamos inferir que la glucosa tampoco está muy correlacionada con las cardiopatías, al menos no directamente. Apostaría doble contra sencillo a que si en el repositorio de Irvin se hubieran registrado los niveles de los triglicéridos y/o de insulina de cada uno de los casos atendidos, encontraríamos una fuerte correlación entre cada una de ellas y la variable de salida, esto es, la existencia/ausencia de una cardiopatía.

Pero entonces ¿por qué Boden & Sinatra afirman que el azúcar sí es un factor que aumenta el riesgo de desarrollar una cardiopatía?
En mi opinión, lo hace pero de manera indirecta: el consumo excesivo de azúcar y de carbohidratos afecta a la cantidad de insulina que segrega el páncreas, lo que a su vez produce un aumento de los triglicéridos en la sangre. Ellos lo han expresado de manera muy sucinta: “las dietas que son más bajas en azúcar y carbohidratos procesados reducen la inflamación, el azúcar en la sangre (glucosa), la insulina, la resistencia insulínica y los triglicéridos” (op. cit., pág. 86. Los paréntesis son míos).

De acuerdo con lo anterior, es muy probable que las variables que conforman el proxy estén intensamente y directamente correlacionadas con la insulina o la insulinorresistencia, los triglicéridos y los marcadores de inflamación activa, como el fibrinógeno o la proteína C reactiva, o cualesquier otro que refleje la actividad de las citoquinas. Las citoquinas o citocinas, son moléculas que se encargan de reclutar células para las áreas de inflamación, y cualquier examen de laboratorio que refleje una actividad de esta índole, indicará el grado de inflamación sistémica (aquella que no está focalizada, sino que se ha extendido hacia muchas otras partes del cuerpo).

Por su parte, el estrés crónico viene a ser también una variable que debería repercutir directamente sobre las que componen el proxy, y bastaría con conocer los valores de estas últimas para predecir con un 79% de confianza [4], que el paciente va a presentar o no una cardiopatía, porque resultaría muy complicado medir su nivel de estrés. Es extremadamente difícil cuantificar el nivel de adrenalina y cortisol que está uno segregando a diario, o cada vez que se preocupa por algo o alguien; así que el proxy resulta de mucha utilidad cuando se está pretendiendo identificar lo que está afectando a la variable de salida. Sin embargo, no hay que olvidar que la verdadera causa de una cardiopatía no puede ser determinada a través de una correlación.

Lo mejor que puede hacer usted para prevenir una cardiopatía

En resumen, la insulinorresistencia, la inflamación y el estrés van a influir en el proxy, en la misma proporción en la que éste repercute en el surgimiento de una cardiopatía. Y si usted quisiera hacer algo para mejorar las condiciones de “su proxy”, o sea de su frecuencia cardíaca, de una posible angina de pecho y/o de una probable angina inducida por el ejercicio, lo mejor que podría hacer a partir de este momento, es dejar de consumir azúcares para reducir los triglicéridos y aumentar el colesterol bueno con una adecuada suplementación, ya que ambos determinan el nivel de insulinorresistencia.

El cociente que resulta de dividir la cantidad de triglicéridos entre el nivel de colesterol tipo HDL, es un indicador de que tan insulinorresistente es un paciente. Un cociente con un valor mayor o igual a 3 debería preocupar a cualquiera, porque ese resultado estaría confirmando una insulinorresistencia y un deterioro de las variables del proxy. A modo de ejemplo, en la imagen adjunta (pulse sobre la misma para agrandarla), muestro los resultados de la química sanguínea de un hombre de 59 años que a pesar de tener un nivel alto de LDL, no presenta insulinorresistencia, ya que su nivel de triglicéridos es igual a 80 mg/dL y su HDL es de 45 mg/dL (el cociente aquí es de 1.77).

Conclusiones

1) Para prevenir cualquier cardiopatía, incluyendo un infarto, no es tan importante el valor que tengan los triglicéridos y el colesterol por sí mismos, sino la relación (cociente) que existe entre los primeros y el denominado “colesterol bueno”.
2) Para los efectos del inciso anterior, no hace falta reducir las grasas animales y vegetales, sino disminuir el azúcar, el estrés crónico y la inflamación. Los primeros dos factores de riesgo dependen de usted. Lo que no depende de usted es la inflamación, y dado que ya sabemos que ésta sí es una de las principales causas de los problemas cardíacos, le recomendamos que en caso de haber sido dianosticado(a) con una cardiopatía, reduzca la inflamación con antioxidantes en dosis terapéuticas apropiadas (ortomoleculares).

Un comentario final

Si desconoce el tipo de suplementos que debe tomar para reducir aún más los triglicéridos, o no sabe cómo aumentar el colesterol bueno o cómo determinar las dosis diarias de sus antioxidantes y cada cuándo tomarlos, puede contactarnos para que le confeccionemos una receta que concuerde mejor con su individualidad bioquímica.

“La mejor forma de representar una realidad, no es buscando los datos que justifiquen la existencia de una hipótesis, sino elaborando una teoría a partir de lo que tengan que declarar los datos”
© Sergio López González. Fundación MicroMédix. 31 de mayo de 2018.


¿No encontraste aquí lo que buscabas? En el índice temático hay más artículos que te pueden interesar


REFERENCIAS

[1]  Jonny Bowden y Stephen Sinatra. La verdad sobre el colesterol. Descubre los falsos mitos acerca del colesterol. Un programa efectivo sin medicamentos para rebajarlo.  Urano. 2103
[2] Chris Anderson. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired, June 2008.
[3] Viktor Mayer-Schönberger & Kenneth Cukier. Big Data: A Revolution That Will Transform How We Live, Work, and Think. First Mariner Books, 2014
[4] López G. Sergio. Cardiopatías: en las cosas del corazón no basta con una segunda opinión. Fundación Micromédix, 27 de enero de 2018.

Anuncios


Deja un comentario

Minería de datos clínicos como apoyo en el diagnóstico médico: herramientas y cursos

¿Cómo se puede contar con la opinión consensuada de un centenar de especialistas, sin incurrir en un gasto excesivo? Con un software de minería de datos (data mining) gratuito y la capacitación apropiada para comprender bien su operación.
El aprendizaje de máquina está rebasando las expectativas de los médicos y naturópatas que continuamente se actualizan para mejorar sus diagnósticos, e independientemente de si el problema ha de solucionarse con medicina alternativa o alopática, hoy en día ya no basta con la opinión de un solo profesional de la salud para pronosticar si un paciente va a sobrevivir o no a una enfermedad.

Aun cuando un experto haya diagnosticado a un paciente como incurable, no está de más conocer la opinión de un mayor número de colegas. De hecho, hay muchos médicos que estarían encantados de contar con el consenso de otros especialistas del ramo, para corroborar si lo que han dictaminado es realmente irrefutable. Los seres humanos a veces nos equivocamos (falsos positivos/negativos), y eso puede contribuir a que un paciente se rinda a consecuencia del efecto nocebo que un pronóstico médico pesimista suele producir.

El propósito de la minería de datos 

Durante el presente trabajo explicaré cómo es que una rama de la informática biomédica conocida como minería de datos, pone a disposición de un profesional de la salud, la opinión consensuada de cientos de médicos, basándose en los casos atendidos anteriormente por expertos que ni siquiera conoce. ¿Que cómo lo hace? Esa es precisamente la pregunta que a lo largo de este artículo pretendo responder.
Para determinar la condición de un paciente, el especialista tendrá que plantearle unas cuantas preguntas que una herramienta de diagnóstico es capaz de formular automáticamente, basándose en un registro histórico acumulado de cientos de casos.

Por favor no me mal interprete, lo que estoy proponiendo aquí no es remplazar la función del médico con un software de diagnóstico, sino apoyarlo en la toma de decisiones. El software de minería de datos es un recurso más al que se puede recurrir a la hora de emitir un dictamen. Lo más interesante de esta otra herramienta, es que captura y procesa las variables (atributos) recogidas por el resto del instrumental médico, para analizar su influencia en el estado de salud del paciente. La presión arterial, los signos vitales, los síntomas y demás rasgos de un paciente pueden ser registrados y posteriormente analizados simultánea y expeditamente por un programa de minería de datos, a fin de generar un diagnóstico más completo y confiable.

En referencia a la hepatitis por ejemplo, preguntas como ¿está presentando ascitis el paciente?, ¿padece de arañas vasculares? y ¿a cuánto asciende su tiempo de protrombina (rapidez de coagulación sanguínea)?, pueden resultar cruciales al momento de emitir un diagnóstico. Así por ejemplo, cabe la posibilidad de que aun cuando el tiempo de protrombina sea mayor a 43 segundos, el paciente todavía pueda sanar si no presenta ascitis ni arañas vasculares (pulse sobre la imagen adjunta para ver las reglas de decisión que generó la herramienta de software WEKA, una vez que encontré el modelo óptimo de diagnóstico).

Mediante ese mismo modelo, se puede obtener un pronóstico de la esperanza de vida de una mujer que ha llegado a la sala de emergencias experimentando fatiga y arañas vasculares, con un hígado sin endurecimiento; pero con un nivel de albúmina por debajo de los 3.8 g/dl y uno de fosfatasa alcalina inferior a los 147 U/L. ¿Y habría necesidad de internar a otra mujer habiéndole detectado un hígado endurecido, un nivel de albúmina por encima de los 2.8 g/dl y una bilirrubina inferior a los 1.42 mg/dl?
De acuerdo con la tercera regla de decisión del modelo de minería de datos que presenté en la imagen inmediata anterior, la respuesta es no, porque esa última condición ha sido pronosticada por el modelo en cuestión como curable.

Si usted es un(a) hepatólogo(a) con experiencia, es muy probable que algunas de las reglas de decisión anteriormente expuestas le resulten familiares, y tal vez otras le parezcan simplistas o incluso cuestionables. Y lo comprendo, porque quiero suponer que está acostumbrado a efectuar dictámenes más estrictos; pero permítame aclarar que el modelo propuesto, además de ser probabilístico, es perfectible, ya que el número de casos en los que están basadas las reglas anteriores es de 155, que para ser exactos corresponden a 123 casos curables y 32 incurables  (véase la captura de pantalla adjunta). Al pulsar sobre el histograma, notará que la barra roja está representando los casos incurables.

En el campo de la minería de datos, al igual que en la medicina, a medida que aumenta el número de casos atendidos, también lo hace la experiencia acumulada, y con ella, la certidumbre de los diagnósticos. Las máquinas aprenden de manera muy similar a como lo hacen los seres humanos y como alguna vez lo hicieron aquellos programas de computación a los que no hace mucho tiempo se les llamó sistemas expertos, es decir, a través de una base de conocimientos. De manera que usted mismo puede ir optimizando su propio modelo, siempre que vaya integrando más casos a esa base de conocimientos: ese conjunto de casos que ya resolvió en el pasado y que seguirá diagnosticando cada día mejor, conforme pasen los años. El punto aquí es que la máquina y usted aprendan, tanto si aciertan en sus diagnósticos como si no, porque ¿sabe usted cuántas variables predictoras es capaz de manejar simultáneamente un software de minería de datos para diagnosticar un padecimiento? Cientos de ellas.

En el artículo que publiqué bajo el título “La informática biomédica en el diagnóstico y la prevención de la esquizofrenia y otros trastornos de la personalidad“, propuse un modelo con 72 variables predictoras que a la postre optimicé empleando únicamente 35 atributos, mediante una selección apropiada de los mismos. A la izquierda muestro los histogramas de las 15 variables que componen el modelo que les propuse construir a mis participantes, en uno de los cursos que imparto: “Informática Biomédica para el Descubrimiento de Nuevas Terapias y el Diagnóstico de Enfermedades“. Más adelante explico por qué esas 15 variables resultaron ser las más relevantes en el caso de la hepatitis.
Sin una herramienta de minería de datos a la mano, es probable que a un ser humano se le dificulte manejar al mismo tiempo, 15 variables para emitir diagnósticos confiables de hepatitis, o 35 variables en el caso del modelo de diagnóstico para la esquizofrenia. Entiéndase aquí por confiable no tanto la opinión de uno o dos expertos en la materia, sino la precisión que se consigue utilizando un conjunto de datos de prueba, que permiten confrontar los diagnósticos realizados por un algoritmo estadístico-matemático, con lo que opinaron un gran número de expertos en el pasado. Técnicamente hablando, al resultado de esa comparación se le conoce como matriz de confusión (derecha), que no es más que una tabla en donde el analista de datos clínicos puede distinguir los llamados falsos positivos/negativos, de los verdaderos positivos/negativos.

Tendría usted que desarrollar uno de los talleres del curso que mencioné con anterioridad, para aquilatar debidamente el hecho de que un ser humano no es capaz de manejar simultáneamente, ya no digamos 35, sino al menos 15 variables, como para discernir bien entre un falso diagnóstico y otro probablemente correcto. Para una discusión más profunda sobre lo que implicaría por ejemplo, dar de alta a un paciente cuando en realidad sí está presentando una cardiopatía (falso negativo), véase: “Cardiopatías: en las cosas del corazón no basta con una segunda opinión“, también de mi autoría.

Aclarando los conceptos clave de la minería de datos

A reserva de que con el curso de minería de datos usted consiga dominar esa jerga técnica que describe mejor cómo aprende una máquina, considero conveniente explicar sin tanto tecnicismo, algunos conceptos básicos que le ayudarán a comprender el teje y el maneje de esta fascinante área del conocimiento (si desea usted conocer más detalles sobre los temas que se tratan a lo largo del curso, puede pulsar sobre el mapa mental de la derecha para agrandarlo).
Recuerde que si este esfuerzo no bastara para dejar claro los conceptos clave de la minería de datos, para mí siempre será un placer responder cualquier pregunta que quisiera usted plantear a modo de comentario, al final de esta entrega.

Es importante conocer por ejemplo la diferencia que existe entre un modelo y su algoritmo. Un modelo es el efecto que resulta de aplicar un algoritmo a un conjunto de atributos en particular.
El algoritmo por su parte, es una serie de instruciones escritas en algún lenguaje de programación, que al ser aplicadas a ese conjunto de atributos, provocan un cambio en el diagnóstico o variable de salida. A esta variable también se le llama clase, precisamente porque su finalidad es clasificar cada uno de los casos registrados en el pasado.

Los atributos constituyen las variables de entrada al modelo y reciben también el nombre de variables predictoras, porque afectan el comportamiento que tendrá la variable de salida en el futuro, es decir, cuando se trate de diagnosticar casos de pacientes cuyo diagnóstico se desconoce. En la tabla que aparece en la imagen adjunta (pulse sobre la captura de pantalla de la hoja de Excel para agrandarla), cada renglón de la tabla representa un caso de un paciente afectado de hepatitis, cuyo diagnóstico fue determinado en el pasado con dos posibles valores: curable e incurable. Ambos valores están representando a la clase asignada a cada caso en particular.

Así por ejemplo, de los 155 casos de hepatitis que obtuve del repositorio de datos de la Universidad de California con sede en Irvin (solo se muestran los primeros 25), el caso asociado al séptimo renglón de la tabla, que corresponde a una mujer de 51 años que reportó no haber consumido esteroides ni antivirales, y cuyos síntomas estaban caracterizados por la presencia (denotada como en la celda/casilla correspondiente) de fatiga, anorexia, hígado agrandado, bazo palpable y arañas vasculares, fue desahuciada por el médico que la atendió, a pesar de que en ese momento no contaba con los datos de los atributos bilirrubina, fosfatasa alcalina, SGOT (AST o aspartato aminotransferasa), albúmina y tiempo de protrombina (hecho denotado como “?” en la casilla).

El preprocesamiento de los datos y su repercusión en la precisión del modelo

Tan solo con convertir apropiadamente algunas de las variables numéricas a categóricas, sustituir los campos vacíos de estas últimas con el valor de su moda, y remplazar los valores faltantes de las variables numéricas con el promedio de su correspondiente atributo, ya estaríamos aumentando la precisión de un modelo que podríamos usar como referencia, para irlo optimizando sucesivamente (análisis comparativo o benchmarking).
Dentro de las estrategias de aprendizaje supervisado, existen varios algoritmos con los que se puede comenzar a trabajar. En la imagen de la derecha enumero varios de ellos.
Puesto que ya en una publicación anterior utilicé como referencia el algoritmo ZeroR, en esta ocasión recurriré al árbol de decisión J48 como primera aproximación. Este método de aprendizaje selecciona automáticamente los atributos que a “su juicio” son los más relevantes, entendiendo por relevantes aquellos atributos que más afectan al diagnóstico, o que están más correlacionados con éste. La correlación de un atributo con la variable de salida, nos permite ubicarlo dentro de una lista jerárquica, para saber qué tanto puede influir en los diagnósticos. Nótese como las ramas del árbol de decisión mostrado a su izquierda (pulse sobre la imagen para agrandarla), terminan en un nodo al que se le llama “hoja”, en donde se puede conocer el resultado del proceso de clasificación a lo largo del camino (rama) que conduce a ese nodo terminal (curable/incurable, dependiendo ello de los valores de los atributos).

Optimizando el modelo con los atributos de mayor relevancia

En una primera aproximación, mis participantes suelen obtener con el árbol J48 una precisión del 80.64%. No obstante, este cifra no parece muy prometedora si de lo que se trata es pronosticar la posibilidad de sobrevivir a una hepatitis. Conociendo las precisiones que otros investigadores han obtenido en cuanto a diagnósticos de hepatitis se refiere, nuestro trabajo dejaría mucho que desear si no hiciéramos un esfuerzo por mejorar sus respectivas propuestas.

Karthikeyan y Thangaraju [1] por ejemplo, desarrollaron un modelo basado en J48 que exhibió una precisión del 83%, la cual demostraron se puede conseguir también con un árbol de clasificación tipo Random Forest, y una red neuronal multicapa (perceptrón). No quedando conformes con eso, en una etapa posterior encontraron un par de modelos basados en redes bayesianas con un 84% de precisión.
Por su parte, Nilgün y Özgür [2] lograron conseguir una precisión en sus diagnósticos del 84.5%, con las reglas de decisión PART comentadas en un párrafo anterior.

Para no quedarnos atrás, a continuación describiré cómo en el curso de “Solución de Problemas Multidisciplinarios con Minería de Datos“, los participantes construyeron un modelo con una precisión mayor a la que consiguieron los referentes que cité con anterioridad. La diferencia radicó en una mejor selección de los atributos.

Hay varios métodos para determinar cuáles son los atributos más relevantes. En la imagen de la izquierda muestro la lista de las variables consideradas en el modelo inicial, así como las que seleccionamos en el curso, a partir de una jerarquización de las mismas basada en los promedios de sus correlaciones con la variable diagnóstico (listadas en orden descendente). Como se advierte en esa misma captura de pantalla (pulse sobre la misma para agrandarla), los atributos que terminamos descartando fueron los que aparecen resaltados en amarillo: esteroides, anorexia, hígado agrandado y SGOT. Los demás fueron los que escogimos como los más relevantes.
El procedimiento que se sigue para descartar o conservar los diferentes atributos forma parte de lo que se conoce como calibración del modelo, y constituye todo un apartado dentro del temario del curso “Solución de Problemas Multidisciplinarios con Minería de Datos“. Para los efectos de este trabajo, lo importante no es tanto saber cómo se seleccionaron los atributos, sino qué variables resultaron ser las más relevantes, y cómo afecta dicha selección la precisión de los diagnósticos. En la imagen de la derecha presento un cuadro resumen de los modelos evaluados a lo largo del taller, con sus correspondientes coeficientes estadísticos. Si desea saber para qué sirven estos parámetros, le recomiendo consultar: Cardiopatías: en las cosas del corazón no basta con una segunda opinión; ahí expliqué con mayor detenimiento algunas de sus propiedades.

El análisis de los datos: una alternativa para optimizar el modelo

De acuerdo con la tabla anterior, el modelo que resultó de aplicar las reglas de decisión PART a los 15 atributos previamente seleccionados, fue sin lugar a dudas el mejor, por habernos entregado en el menor tiempo posible, una precisión del 88.38%, con un coefficiente de Kappa mayor a todos los demás y una tasa de error mínima.

Aun cuando hay autores que afirman haber encontrado precisiones mayores a las que aquí estamos reportando [3]-[4], para los propósitos del taller que mis participantes estaban cursando, dicha cifra fue más que suficiente, pues superó en 3.8 puntos porcentuales, los resultados conseguidos por esos otros dos referentes anteriormente mencionados (análisis comparativo). Y aunque la jerarquización de correlaciones promediadas es un método más formal que el análisis de los datos, ésta otra técnica se podría aplicar también para seleccionar los atributos que más influyen en el diagnóstico.

El análisis de datos no requiere de operaciones matemáticas laboriosas pero sí de cierta habilidad para interpretar histogramas y detectar correlaciones entre atributos. Dos atributos están correlacionados cuando uno depende del otro, y uno de los dos se puede descartar en caso de confirmarse una correlación entre ellos.

La independencia entre dos atributos se puede comprobar matemáticamente con el teorema de Bayes. No obstante, una correlación de atributos se puede inferir también a partir de su diagrama de dispersión. Habrá situaciones sin embargo en las que no se podrá descartar un atributo, por estar correlacionado tanto con otro atributo como con la variable de salida. Tal es el caso de la albúmina, la ascitis y el diagnóstico de la hepatitis.  Sabiendo que un nivel anormalmente bajo de albúmina constituye un rasgo de daño hepático grave, y que una cantidad insuficiente de albúmina podría estar implicando una ascitis, se intuye que debe haber una correlación entre las variables de entrada ascitis y albúmina. Pero de acuerdo con los promedios jerarquizados de las correlaciones entre cada una de estas variables y el diagnóstico, todo indica que no podríamos descartar ninguna de ellas, porque ya vimos que ambas ejercen un gran impacto en la variable de salida.
De acuerdo con el histograma mostrado a la izquierda, los pacientes con menos posibilidades de sobrevivir (área en color rojo) suelen ser los que presentan el nivel de albúmina mas bajo. Análogamente, observe en la captura de pantalla de la derecha, cómo la ascitis impacta de manera muy marcada en la esperanza de vida: el porcentaje de los casos incurables (en rojo), es mucho mayor en los casos de ascitis que en aquellos en los que no se detectó acumulación de líquido en el abdomen.

En contraste con los dos atributos anteriores, mediante un análisis de los histogramas asociados a las variables esteroides, anorexia, hígado agrandado y SGOT, puede uno fácilmente darse cuenta del poco impacto que ejercen éstas en el diagnóstico.

A modo de ejemplo, obsérvese la variación del atributo esteroides en la captura de pantalla de la imagen adjunta. El histograma revela que el porcentaje de pacientes que sobrevivieron y que no consumían esteroides fue del 73% aproximadamente, mientras que el porcentaje de los que sobrevivieron y que sí consumían esteroides fue del  87%. Como yo lo veo, no hay una gran diferencia entre consumir o no esteroides, si de lo que se trata es pronosticar lo que sucederá después de haber contraído una hepatitis, cualesquiera que sea su tipo (A,B,C,D,E, F o G). Considero que esa diferencia de tan solo el 14%, es suficiente para contemplar la posibilidad de descartar este atributo de nuestra lista de variables relevantes.

Pero entonces… ¿Qué diagnóstico le entregaría usted al paciente que acaba de llegar a su consultorio?

Prueba de validación y confiabilidad del modelo

Una vez habiendo evaluado al menos 3 modelos y seleccionado uno de ellos como el óptimo, lo que resta es ingresar los datos de uno o más pacientes a nuestra herramienta de diagnóstico. En la imagen de la derecha estoy mostrando lo que el software WEKA me entregó al sustituir la opción de prueba conocida en el argot de la minería de datos como validación cruzada (indicada en la imagen de la derecha como Cross-validation), por la opción suministro de datos de validación (Supplied test set). Este conjunto de datos constituye el archivo de pacientes a diagnosticar, o mejor dicho, representa los valores de los atributos de unos pacientes cuyos datos no están en ningún repositorio de California, sino en el archivo clínico del hospital o de la institución en donde el médico o naturópata trabaja.
Supóngase que los casos a diagnosticar corresponden a seis pacientes, con los síntomas y datos de validación que aparecen en la hoja de datos de la izquierda. Note que el campo correspondiente a la variable de salida diagnóstico, contiene un signo de interrogación, el cual se ha ingresado así deliberadamente, porque al momento de ingresar los datos, el diagnóstico aún es una incógnita.
En el momento que le decimos a WEKA “arráncate”, pulsando sobre el botón etiquetado como Start, este software aplica el algoritmo PART a los 15 atributos de los que consta cada uno de los 155 casos almacenados en la memoria de la máquina, con la diferencia de que esta vez ya no emplea una validación cruzada. En lugar de tomar la décima parte de los datos de entrenamiento como datos de prueba (de ahí que Folds=10), sustituye a éstos con los datos de nuestros pacientes para realizar sus diagnósticos. Esos datos son los que aparecen en la imagen de la izquierda.

¿Cuál sería entonces el diagnóstico del paciente con lo datos de la instancia (caso) #1? (véanse de nuevo las últimas dos imágenes). La respuesta se traduciría como una esperanza de vida del 96.7%, puesto que fue diagnosticado como curable. ¿Y que me dice de la esperanza de vida del paciente con los datos de la instancia #6 ? Ahora el panorama es desolador, porque basándonos en las cifras que ha entregado la herramienta de diagnóstico, inferimos que  la esperanza de vida para este paciente es del 14.3%, dado que fue diagnosticado como incurable. ¿Pero qué tan confiables son estos diagnósticos?

Hemos visto que la bondad de un modelo depende del algoritmo y de los atributos seleccionados. Pero tenemos que ser muy cuidadosos a la hora de interpretar los resultados, porque las evaluaciones de los cuatro modelos anteriormente analizados, fueron realizadas empleando una validación cruzada. Si fuéramos más estrictos, tendríamos que hacer una segunda evaluación, usando los mismos datos de entrenamiento del repositorio de Irvin; pero con un conjunto de datos de prueba mucho mayor que el archivo de 6 pacientes que usaron mis participantes en el taller, en donde no debería faltar el valor de la clase. En estas condiciones, el modelo seguiría siendo el mismo pero aprendería más de sus errores, como resultado de la comparación de los valores diagnosticados con los reales.

Como cabría esperar, bajo este nuevo esquema el modelo arrojaría una precisión ciertamente menor; pero más confiable (realista) que la que obtuvimos aquí con la validación cruzada.

Conclusiones

1) La confiabilidad de un modelo crecerá conforme aumente el número de casos, tanto de los que se usan para entrenarlo, como los que sirven para probarlo. Entre más grande sean el volumen y la calidad de los datos, más confiables serán los diagnósticos.
2) La precisión de un modelo depende tanto del algoritmo como de los atributos seleccionados.
3) Además de la precisión y el tiempo de ejecución, la evaluación de un modelo debe considerar también ciertos parámetros estadísticos, como son el coeficiente de Kappa, la raíz del error cuadrático medio y la matriz de confusión, por mencionar los más importantes.

4) Una herramienta de minería de datos fácil de usar y gratuita, así como una buena capacitación, aumentan la competitividad de un profesional de la salud, pues no es lo mismo confiar en la experiencia de un solo experto, que considerar el consenso de un gran número de especialistas.
5) El descubrimiento de tendencias y patrones en un gran volumen de datos de buena calidad, contribuye más a minimizar los diagnósticos falsos positivos/negativos y a maximizar los pronósticos verdaderos positivos/negativos, que cuando se opta exclusivamente por la auscultación, la vigilancia de signos vitales, los exámenes de laboratorio y el seguimiento de la evolución de síntomas y rasgos del paciente.

Tanto en la medicina como en los demás campos del saber, los datos pueden reflejar una realidad que no es posible descubrir a través de la lectura o del estudio de una que otra hipótesis científica, sino por medio de la interpretación apropiada de una tendencia, un patrón, o de esa pista que nos ayudará a comprender mejor los misterios de la naturaleza, y que nos ampliará aún más la visión que tenemos del mundo que nos rodea. Hay algo en los datos que no está en los libros y que es menester descubrir: el conocimiento.

“No hay inversión más rentable que la del conocimiento” … Benjamin Franklin
© Sergio López González. Fundación MicroMédix. 16 de abril de 2018


¿No encontraste aquí lo que buscabas? En el índice temático hay más artículos que te pueden interesar


REFERENCIAS

[1] Karthikeyan & Thangaraju. Analysis of Classification Algorithms Applied to Hepatitis Patients. International Journal of Computer Applications (0975 – 8887), Volume 62– No.15, January 2013.
[2] Nilgün & Özgür. Evaluation of risk of death in hepatitis by rule induction algorithms. Scientific Research and Essays Vol. 5(20), pp. 3059-3062, 18 October, 2010.
[3] Fadl Mutaher Ba-Alwi, Houzifa M. Hintaya. Comparative Study For Analysis The Prognostic In Hepatitis Data: Data Mining Approach. International Journal of Scientific & Engineering Research, Volume 4, Issue 8, August-2013.
[4] Pushpalatha & Pandya. Data model comparison for Hepatitis diagnosis. International Journal of Emerging Research in Management & Technology. ISSN: 2278-9359 (Volume-3, Issue-7).