Una vez habiendo seleccionado las variables que pueden afectar de manera importante la respuesta inmune a la vacuna de la influenza, incluidos los biomarcadores que mencionamos en la segunda parte de este informe, estamos listos para elegir un algoritmo que tome en cuenta la variación simultánea y sinérgica de ese conjunto de variables de entrada que en la entrega anterior denominamos proxy. Un algoritmo es una secuencia ordenada de instrucciones que permiten resolver un problema reiteradamente. Esa serie de comandos se codifican en un lenguaje de programación, que al ser aplicados a un conjunto de variables de entrada, provocan un cambio en la variable de salida.
Requerimientos para el aprendizaje automático
Estando representada nuestra variable de salida por la calidad de la respuesta inmune, recurriremos a una herramienta de minería de datos (WEKA) para predecir si el valor de dicha variable va a ser favorable o deficiente, según el caso. Conforme la máquina vaya ejecutando las instrucciones del algoritmo seleccionado, irá aprendiendo a clasificar cada caso basándose en un conjunto de instancias a las que llamaremos datos de entrenamiento, que para los efectos del presente estudio consta de 1,000 reportes. El software que lleva a cabo dicha clasificación es el que acostumbro usar también para exponer los temas del curso «Informática Biomédica para el Descubrimiento de Terapias Inteligentes y el Diagnóstico de Enfermedades«, así como para diagnosticar cardiopatías, una posible diabetes, un cáncer de mama, la gravedad de una hepatitis, o bien para prevenir una esquizofrenia.
Selección del modelo predictivo óptimo
Antes de comenzar a aplicar algoritmos a nuestro conjunto de datos para encontrar el modelo que mejor pronosticará la calidad de la respuesta inmune de una persona en particular (favorable/deficiente), conviene conocer la diferencia entre un modelo y un algoritmo. Un modelo es un recurso lógico (software) que resulta de aplicar un algoritmo a un conjunto de variables de entrada en particular. Así, dos modelos serán diferentes si están compuestos por variables de entrada o algoritmos diferentes.

Figura 1. Indicadores estadísticos asociados al algoritmo de redes neuronales del tipo MLP (perceptrón multicapa).
En la figura 1 estoy mostrando los resultados que obtuve a la hora de aplicar el algoritmo de redes neuronales MLP (perceptrón multicapa) a los datos de entrenamiento, en donde se puede apreciar cómo cada vez que uno selecciona un determinado algoritmo en WEKA (botón con la leyenda Choose), éste entrega varias figuras de mérito, entre las que destacan la precisión, el coeficiente de Kappa, la raíz del error cuadrático medio y los falsos positivos/negativos.
En general, la precisión es el grado de exactitud que ostenta un modelo al clasificar los casos, siendo la calidad de la respuesta inmune lo que en este caso muy particular se desea conocer (si ésta va a ser favorable o deficiente). El modelo óptimo es aquél que da lugar a una precisión y a un coeficiente de Kappa mayores, así como a una raíz del error cuadrático medio y una cantidad de falsos positivos/negativos menores, que los que pueden entregar los demás modelos implicados en la selección. De acuerdo con este criterio, el mejor modelo que pude obtener con la ayuda de WEKA fue el de regresión logística, habida cuenta de que realicé varios ensayos no solo con los datos de entrenamiento, sino con los que ponen a prueba el modelo en cuestión (opción Supplied test set en la captura de pantalla de la figura 1).

Figura 2. Al fenómeno que se presenta cuando la precisión de un modelo es evaluada utilizando la prueba de validación cruzada, se le conoce como sobreajuste (del inglés: overfitting). La prueba de validación cruzada se usa solo para proponer los modelos que van a competir en el proceso de selección, no para determinar cuál es el óptimo.
Aplicar un modelo únicamente sobre los datos de entrenamiento (que son con los que la máquina aprende), es como estar en un escenario ciertamente utópico, porque los datos que se están usando para verificar la precisión del modelo, forman parte de los datos de entrenamiento. Es una situación análoga a lo que sucede cuando un profesor examina a unos alumnos que de alguna manera averiguaron cuáles eran las respuestas correctas antes del examen: de antemano sabríamos que casi todos van a obtener 10 de calificación (véase la figura 2).

Figura No. 3 Tres posibles modelos predictivos con sus correspondientes figuras de mérito. Los ensayos se efectuaron con 225 datos de prueba (no con la validación cruzada)
Es por eso que para evaluar correctamente un modelo, es imprescindible probarlo con un conjunto de datos exógenos, es decir, con datos ajenos a los informes de casos que utilizó la máquina durante la etapa de aprendizaje. En la figura 3 aparece la relación de tres opciones de candidatos a modelo óptimo que se obtuvieron empleando 225 informes de casos exógenos, con miras a evitar el sobreajuste ejemplificado en la figura 2. Dados los indicadores estadísticos que se muestran en la tabla de la figura 3, sobra decir por qué elegí la regresión logística como «caballito de batalla». Con este modelo, podemos confiar en que de cada 100 casos que diagnostique, solo en 19 ocasiones se estaría equivocando.
La aplicación del modelo seleccionado a los datos de siete usuarios
Pero dejemos a un lado los tecnicismos y enfoquémonos en el objetivo primordial de esta investigación: estimar cuándo a un(a) paciente le conviene o no vacunarse contra la influenza, considerando que cuenta con los datos de sus biomarcadores y con los de las otras dos variables de entrada: número de vacunaciones anteriores y diagnóstico de enfermedades psiquiátricas. Para ello, además de alimentar a nuestra máquina con el millar de casos de entrenamiento, vamos a ingresar los datos de 7 personas que están contemplando la posibilidad de vacunarse, mismos que ocuparán el lugar de los 225 reportes de casos que usamos para encontrar el modelo óptimo, o sea, el que quedó conformado por las 9 variables predictoras y el algoritmo de regresión logística.
Para ilustrar mejor la aplicación de este modelo, en el ejercicio que sigue suponga que los biomarcadores de la instancia No. 4 del archivo mostrado en la figura 4, corresponden a los resultados de un análisis de laboratorio que usted ordenó hace unos días, con la finalidad de conocer su estado de salud. De acuerdo con los demás datos de esa misma instancia, hemos asumido también que usted nunca se ha vacunado contra la influenza y que jamás ha padecido una enfermedad psiquiátrica.

Figura 4. Datos de entrada para la aplicación del modelo de regresión logística con 9 variables predictoras.
En la captura de pantalla de la figura 5 se puede ver el resultado de aplicar el modelo de regresión logística, a los 7 casos (instancias) anteriormente mencionados. Observe cómo la máquina pronosticó una respuesta inmune favorable en su caso y en todos los demás, excepto en el número 2. Note también cómo en la caja de diálogo intitulada «Test options» seleccioné la opción «Supplied test set«, que es la que me permitió ingresar las 7 instancias del archivo de la figura 4.

Figura 5. Calidad esperada de la respuesta inmune correspondiente a los datos de las 7 personas que están pretendiendo vacunarse.
Entonces, ¿a quién le conviene vacunarse y a quién no?
A todos excepto al usuario que reportó haberse vacunado en 4 o más ocasiones anteriores, haber padecido una enfermedad psiquiátrica y presentar los valores de los biomarcadores registrados en los demás campos de la instancia No. 2 (véase nuevamente la figura 4).
¿Y qué pasaría si después de un tiempo, usted padeciera de gastritis crónica por estar sometido a un exceso de estrés, al grado de comenzar a presentar ataques de ansiedad y que después de estar tomando un fármaco como por ejemplo el Nexium (recetado por los gastroenterólogos junto con ciertos antibióticos para erradicar el H. pylori), sufriera un déficit de vitamina B12 a consecuencia del consumo prolongado de dicho medicamento? ¿Cómo se reflejarían esas nuevas condiciones de salud en su respuesta inmune? ¿Cree usted que le convendría vacunarse de nuevo? ¿O cuántas vacunas más supone que valdría la pena aplicarse para considerar que estará suficientemente protegido contra el virus de la influenza?
En la cuarta y última parte de este trabajo daremos respuesta a éstas y otras interrogantes, toda vez que llevemos a cabo el análisis de varios escenarios que podrían afectar el comportamiento de la respuesta inmune del modelo recién descrito.
«Apolo, el dios de la medicina, solía enviar las enfermedades. En el principio, los dos oficios eran uno solo, y sigue siendo así«… Jonathan Swift
© Sergio López González. Fundación MicroMédix. 10 de abril de 2021