Please use this identifier to cite or link to this item:
https://repository.unad.edu.co/handle/10596/68393Full metadata record
| DC Field | Value | Language |
|---|---|---|
| dc.contributor.advisor | Romero Leiton, Jhoana Patricia | |
| dc.coverage.spatial | cead_-_josé_acevedo_y_gómez | |
| dc.creator | Méndez Espitia, Marco Antonio | |
| dc.date.accessioned | 2025-05-16T21:32:28Z | |
| dc.date.available | 2025-05-16T21:32:28Z | |
| dc.date.created | 2025-05-10 | |
| dc.identifier.uri | https://repository.unad.edu.co/handle/10596/68393 | |
| dc.description.abstract | La contaminación es un problema mundial que afecta tanto a naciones industrializadas como en desarrollo, y Colombia no es la excepción. En Bogotá, la calidad del aire representa un reto importante, afectando de manera especial a la infancia y la tercera edad. Mediante la aplicación de técnicas de aprendizaje automático, se llevó a cabo la exploración de datos provenientes de cuatro fuentes distintas. Se consideró información de la Secretaría Distrital de Salud, así como datos públicos, incluyendo la Red de Monitoreo de Calidad del Aire (RMCAB), registros abiertos sobre la humedad en Bogotá y reportes de incendios proporcionados por el Cuerpo de Bomberos de la ciudad. Tras la unificación de las bases de datos y siguiendo la metodología CRISP-DM, se llevó a cabo el modelado de datos para desarrollar dos modelos de clasificación binaria capaces de evaluar la gravedad de la enfermedad. Este proceso se fundamenta en la exploración y preprocesamiento de los datos, precedido por un procedimiento de Extracción, Transformación y Carga (ETL, por sus siglas en inglés). Posteriormente, los modelos serán evaluados segmentando la información en conjuntos de entrenamiento, validación y prueba, lo que permitirá ajustar hiperparámetros clave del algoritmo LightGBM, tales como learning rate, num leaves y max depth. La selección de los valores óptimo se llevará a cabo considerando métricas de rendimiento, como la sensibilidad o la precisión, según los requerimientos del modelo. El objetivo final es generar una predicción a ocho días en el futuro, basada en el período promedio de incubación de una Enfermedad Respiratoria Aguda. Con la selección de los hiperparámetros óptimos para los modelos, se logró´ desarrollar un primer modelo que predice la gravedad de la enfermedad, clasificándola entre leve y grave, con un rendimiento del 86 % en la métrica de sensibilidad. Este resultado es notable, ya que se buscó maximizar la detección de casos graves. Por otro lado, el segundo modelo, que distingue entre enfermedades leves y medias, alcanzó una precisión del 80 %, lo que refleja un buen rendimiento al aprovechar el equilibrio de clases. Al ensamblar estos modelos en un único algoritmo, será posible clasificar nuevos registros en alguna de las tres categorías. | |
| dc.format | ||
| dc.title | Modelo de predicción para identificar la gravedad de una enfermedad de respiración aguda (ERA) para las personas de Bogotá relacionados con el agente contaminante PM 25 y otros factores ambientales | |
| dc.type | Proyecto aplicado | |
| dc.subject.keywords | Cobertura de predicción | |
| dc.subject.keywords | Contaminación atmosférica | |
| dc.subject.keywords | Ensamble de modelos | |
| dc.subject.keywords | Modelos predictivos | |
| dc.subject.keywords | Salud pública | |
| dc.description.abstractenglish | Pollution is a global issue that affects both industrialized and developing nations, and Colombia is no exception. In Bogotá, air quality poses a significant challenge, especially impacting children and the elderly. Using machine learning techniques, data from four different sources was explored. Information from the District Health Secretariat was considered, along with public data, including the Air Quality Monitoring Network (RMCAB), open records on humidity in Bogota´, and fire reports provided by the city’s Fire Department. After unifying the databases and following the CRISP-DM methodology, data modeling was carried out to develop two binary classification models capable of assessing the severity of the disease. This process is based on data exploration, preceded by an ETL (Extract, Transform, Load) process. The models were evaluated by segmenting the data into training, testing, and validation sets, allowing for the adjustment of key LightGBM hyperparameters, such as learning rate, num leaves, and max depth. The optimal values were selected based on metrics such as sensitivity or accuracy, depending on the model’s needs. The ultimate goal is to make an 8-day future prediction, based on the average incubation period of an Acute Respiratory Disease. By selecting the optimal hyperparameters for the models, a first model was developed to predict disease severity, classifying it as mild or severe, achieving an 86 % sensitivity score. This result is significant, as the goal was to maximize the detection of severe cases. On the other hand, the second model, which differentiates between mild and moderate diseases, achieved 80 % accuracy, reflecting good performance by leveraging class balance. By assembling these models into a single algorithm, it will be possible to classify new records into one of the three categories. | |
| dc.subject.category | Ciencia de datos | |
| dc.subject.category | Salud | |
| dc.subject.category | Contaminación | |
| Appears in Collections: | Especialización en Ciencia de Datos y Analítica | |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| mamendeze.pdf | 748.96 kB | Adobe PDF | ![]() View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.
