Modelo de predicción para identificar la gravedad de una enfermedad de respiración aguda (ERA) para las personas de Bogotá relacionados con el agente contaminante PM 25 y otros factores ambientales

Méndez Espitia, Marco Antonio

Please use this identifier to cite or link to this item: https://repository.unad.edu.co/handle/10596/68393

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	Romero Leiton, Jhoana Patricia
dc.coverage.spatial	cead_-_josé_acevedo_y_gómez
dc.creator	Méndez Espitia, Marco Antonio
dc.date.accessioned	2025-05-16T21:32:28Z
dc.date.available	2025-05-16T21:32:28Z
dc.date.created	2025-05-10
dc.identifier.uri	https://repository.unad.edu.co/handle/10596/68393
dc.description.abstract	La contaminación es un problema mundial que afecta tanto a naciones industrializadas como en desarrollo, y Colombia no es la excepción. En Bogotá, la calidad del aire representa un reto importante, afectando de manera especial a la infancia y la tercera edad. Mediante la aplicación de técnicas de aprendizaje automático, se llevó a cabo la exploración de datos provenientes de cuatro fuentes distintas. Se consideró información de la Secretaría Distrital de Salud, así como datos públicos, incluyendo la Red de Monitoreo de Calidad del Aire (RMCAB), registros abiertos sobre la humedad en Bogotá y reportes de incendios proporcionados por el Cuerpo de Bomberos de la ciudad. Tras la unificación de las bases de datos y siguiendo la metodología CRISP-DM, se llevó a cabo el modelado de datos para desarrollar dos modelos de clasificación binaria capaces de evaluar la gravedad de la enfermedad. Este proceso se fundamenta en la exploración y preprocesamiento de los datos, precedido por un procedimiento de Extracción, Transformación y Carga (ETL, por sus siglas en inglés). Posteriormente, los modelos serán evaluados segmentando la información en conjuntos de entrenamiento, validación y prueba, lo que permitirá ajustar hiperparámetros clave del algoritmo LightGBM, tales como learning rate, num leaves y max depth. La selección de los valores óptimo se llevará a cabo considerando métricas de rendimiento, como la sensibilidad o la precisión, según los requerimientos del modelo. El objetivo final es generar una predicción a ocho días en el futuro, basada en el período promedio de incubación de una Enfermedad Respiratoria Aguda. Con la selección de los hiperparámetros óptimos para los modelos, se logró´ desarrollar un primer modelo que predice la gravedad de la enfermedad, clasificándola entre leve y grave, con un rendimiento del 86 % en la métrica de sensibilidad. Este resultado es notable, ya que se buscó maximizar la detección de casos graves. Por otro lado, el segundo modelo, que distingue entre enfermedades leves y medias, alcanzó una precisión del 80 %, lo que refleja un buen rendimiento al aprovechar el equilibrio de clases. Al ensamblar estos modelos en un único algoritmo, será posible clasificar nuevos registros en alguna de las tres categorías.
dc.format	pdf
dc.title	Modelo de predicción para identificar la gravedad de una enfermedad de respiración aguda (ERA) para las personas de Bogotá relacionados con el agente contaminante PM 25 y otros factores ambientales
dc.type	Proyecto aplicado
dc.subject.keywords	Cobertura de predicción
dc.subject.keywords	Contaminación atmosférica
dc.subject.keywords	Ensamble de modelos
dc.subject.keywords	Modelos predictivos
dc.subject.keywords	Salud pública
dc.description.abstractenglish	Pollution is a global issue that affects both industrialized and developing nations, and Colombia is no exception. In Bogotá, air quality poses a significant challenge, especially impacting children and the elderly. Using machine learning techniques, data from four different sources was explored. Information from the District Health Secretariat was considered, along with public data, including the Air Quality Monitoring Network (RMCAB), open records on humidity in Bogota´, and fire reports provided by the city’s Fire Department. After unifying the databases and following the CRISP-DM methodology, data modeling was carried out to develop two binary classification models capable of assessing the severity of the disease. This process is based on data exploration, preceded by an ETL (Extract, Transform, Load) process. The models were evaluated by segmenting the data into training, testing, and validation sets, allowing for the adjustment of key LightGBM hyperparameters, such as learning rate, num leaves, and max depth. The optimal values were selected based on metrics such as sensitivity or accuracy, depending on the model’s needs. The ultimate goal is to make an 8-day future prediction, based on the average incubation period of an Acute Respiratory Disease. By selecting the optimal hyperparameters for the models, a first model was developed to predict disease severity, classifying it as mild or severe, achieving an 86 % sensitivity score. This result is significant, as the goal was to maximize the detection of severe cases. On the other hand, the second model, which differentiates between mild and moderate diseases, achieved 80 % accuracy, reflecting good performance by leveraging class balance. By assembling these models into a single algorithm, it will be possible to classify new records into one of the three categories.
dc.subject.category	Ciencia de datos
dc.subject.category	Salud
dc.subject.category	Contaminación
Appears in Collections:	Especialización en Ciencia de Datos y Analítica

Files in This Item:

File	Description	Size	Format
mamendeze.pdf		748.96 kB	Adobe PDF	View/Open

Show simple item record