Please use this identifier to cite or link to this item: https://repository.unad.edu.co/handle/10596/68393
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorRomero Leiton, Jhoana Patricia
dc.coverage.spatialcead_-_josé_acevedo_y_gómez
dc.creatorMéndez Espitia, Marco Antonio
dc.date.accessioned2025-05-16T21:32:28Z
dc.date.available2025-05-16T21:32:28Z
dc.date.created2025-05-10
dc.identifier.urihttps://repository.unad.edu.co/handle/10596/68393
dc.description.abstractLa contaminación es un problema mundial que afecta tanto a naciones industrializadas como en desarrollo, y Colombia no es la excepción. En Bogotá, la calidad del aire representa un reto importante, afectando de manera especial a la infancia y la tercera edad. Mediante la aplicación de técnicas de aprendizaje automático, se llevó a cabo la exploración de datos provenientes de cuatro fuentes distintas. Se consideró información de la Secretaría Distrital de Salud, así como datos públicos, incluyendo la Red de Monitoreo de Calidad del Aire (RMCAB), registros abiertos sobre la humedad en Bogotá y reportes de incendios proporcionados por el Cuerpo de Bomberos de la ciudad. Tras la unificación de las bases de datos y siguiendo la metodología CRISP-DM, se llevó a cabo el modelado de datos para desarrollar dos modelos de clasificación binaria capaces de evaluar la gravedad de la enfermedad. Este proceso se fundamenta en la exploración y preprocesamiento de los datos, precedido por un procedimiento de Extracción, Transformación y Carga (ETL, por sus siglas en inglés). Posteriormente, los modelos serán evaluados segmentando la información en conjuntos de entrenamiento, validación y prueba, lo que permitirá ajustar hiperparámetros clave del algoritmo LightGBM, tales como learning rate, num leaves y max depth. La selección de los valores óptimo se llevará a cabo considerando métricas de rendimiento, como la sensibilidad o la precisión, según los requerimientos del modelo. El objetivo final es generar una predicción a ocho días en el futuro, basada en el período promedio de incubación de una Enfermedad Respiratoria Aguda. Con la selección de los hiperparámetros óptimos para los modelos, se logró´ desarrollar un primer modelo que predice la gravedad de la enfermedad, clasificándola entre leve y grave, con un rendimiento del 86 % en la métrica de sensibilidad. Este resultado es notable, ya que se buscó maximizar la detección de casos graves. Por otro lado, el segundo modelo, que distingue entre enfermedades leves y medias, alcanzó una precisión del 80 %, lo que refleja un buen rendimiento al aprovechar el equilibrio de clases. Al ensamblar estos modelos en un único algoritmo, será posible clasificar nuevos registros en alguna de las tres categorías.
dc.formatpdf
dc.titleModelo de predicción para identificar la gravedad de una enfermedad de respiración aguda (ERA) para las personas de Bogotá relacionados con el agente contaminante PM 25 y otros factores ambientales
dc.typeProyecto aplicado
dc.subject.keywordsCobertura de predicción
dc.subject.keywordsContaminación atmosférica
dc.subject.keywordsEnsamble de modelos
dc.subject.keywordsModelos predictivos
dc.subject.keywordsSalud pública
dc.description.abstractenglishPollution is a global issue that affects both industrialized and developing nations, and Colombia is no exception. In Bogotá, air quality poses a significant challenge, especially impacting children and the elderly. Using machine learning techniques, data from four different sources was explored. Information from the District Health Secretariat was considered, along with public data, including the Air Quality Monitoring Network (RMCAB), open records on humidity in Bogota´, and fire reports provided by the city’s Fire Department. After unifying the databases and following the CRISP-DM methodology, data modeling was carried out to develop two binary classification models capable of assessing the severity of the disease. This process is based on data exploration, preceded by an ETL (Extract, Transform, Load) process. The models were evaluated by segmenting the data into training, testing, and validation sets, allowing for the adjustment of key LightGBM hyperparameters, such as learning rate, num leaves, and max depth. The optimal values were selected based on metrics such as sensitivity or accuracy, depending on the model’s needs. The ultimate goal is to make an 8-day future prediction, based on the average incubation period of an Acute Respiratory Disease. By selecting the optimal hyperparameters for the models, a first model was developed to predict disease severity, classifying it as mild or severe, achieving an 86 % sensitivity score. This result is significant, as the goal was to maximize the detection of severe cases. On the other hand, the second model, which differentiates between mild and moderate diseases, achieved 80 % accuracy, reflecting good performance by leveraging class balance. By assembling these models into a single algorithm, it will be possible to classify new records into one of the three categories.
dc.subject.categoryCiencia de datos
dc.subject.categorySalud
dc.subject.categoryContaminación
Appears in Collections:Especialización en Ciencia de Datos y Analítica

Files in This Item:
File Description SizeFormat 
mamendeze.pdf748.96 kBAdobe PDFThumbnail
View/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.