Please use this identifier to cite or link to this item:
https://repository.unad.edu.co/handle/10596/80810Full metadata record
| DC Field | Value | Language |
|---|---|---|
| dc.contributor.advisor | Mejía Manzano, Julio Eduardo | |
| dc.coverage.spatial | cead_-_josé_acevedo_y_gómez | |
| dc.creator | Bonza Sánchez, Sandra Milena | |
| dc.date.accessioned | 2026-05-08T19:39:09Z | |
| dc.date.available | 2026-05-08T19:39:09Z | |
| dc.date.created | 2026-05-06 | |
| dc.identifier.uri | https://repository.unad.edu.co/handle/10596/80810 | |
| dc.description | ||
| dc.description.abstract | La consolidación manual de indicadores hospitalarios genera reprocesos, inconsistencias y limitaciones para el análisis oportuno de la información institucional. Este trabajo presenta el diseño e implementación de un sistema automatizado orientado a optimizar el procesamiento y reporte de indicadores de hospitalización en la Clínica de Marly Jorge Cavelier Gaviria, integrando técnicas de analítica de datos y aprendizaje automático bajo la metodología CRISP-DM. El sistema fue desarrollado sobre la información correspondiente al período 2021–2024, procesando 22.723 registros de ingresos hospitalarios y una base de indicadores institucionales consolidada que comprende 48 períodos mensuales. Como fuente principal para el modelado se utilizó la base oficial de indicadores de hospitalización, que incluye variables de ocupación, flujo de pacientes y días de estancia, consolidada por el área de estadística de la institución a partir del sistema SERVINTE. Se implementó un pipeline en Python que automatiza la extracción, limpieza, estandarización y consolidación de la información, generando archivos estructurados compatibles con herramientas de Business Intelligence y eliminando la dependencia de procedimientos manuales propensos a error. En la fase de modelado se aplicaron tres enfoques complementarios sobre la tabla mensual consolidada, que registra un promedio de 417 ingresos y 421 egresos mensuales, una estancia promedio de 4,15 días y una ocupación promedio del 82,1% para el período analizado. El algoritmo K-Means segmentó los períodos mensuales en tres perfiles operativos diferenciados —alto volumen, volumen medio y bajo volumen con alta complejidad—, con un índice Silhouette de 0,4804, identificando como hallazgo relevante que los primeros ocho meses de 2021 presentaron la estancia promedio más alta del período (5,68 días) con el menor volumen de pacientes, configurando un perfil cualitativamente distinto al de los períodos posteriores. El modelo de regresión lineal para la predicción de egresos mensuales demostró una relación casi lineal con los ingresos, explicando el 91,1% de la variabilidad del indicador con un error relativo del 4,3%, lo que lo posiciona como una herramienta de planificación operativa de alta utilidad práctica. En contraste, el modelo de regresión para días de estancia totales presentó un R²=0,143, evidenciando que este indicador depende principalmente de la complejidad clínica individual de cada hospitalización y no del volumen de pacientes, resultado que delimita con precisión qué información adicional se requiere para modelarlo de forma confiable. El árbol de decisión complementó el análisis alcanzando una exactitud del 93,3% y un F1-Score ponderado de 0,9325 en la clasificación de los tres perfiles operativos, generando reglas explícitas basadas en umbrales de egresos directamente interpretables por los equipos de gestión sin mediación técnica. Los resultados demuestran que la automatización del procesamiento es condición necesaria para garantizar la confiabilidad del análisis, y que la combinación de técnicas de segmentación, predicción y clasificación permite comprender el comportamiento hospitalario desde perspectivas complementarias. El sistema desarrollado es escalable, documentado y replicable, y constituye una base concreta para avanzar hacia una gestión hospitalaria sostenida en evidencia cuantitativa. Palabras clave: automatización de datos, indicadores hospitalarios, machine learning, CRISP-DM, gestión hospitalaria, analítica de datos en salud. | |
| dc.format | ||
| dc.title | Optimización en el proceso de consolidación y reporte de indicadores institucionales mediante análisis de datos y Machine Learning | |
| dc.type | Proyecto aplicado | |
| dc.subject.keywords | Automatización de datos | |
| dc.subject.keywords | Indicadores hospitalarios | |
| dc.subject.keywords | Machine learning | |
| dc.subject.keywords | CRISP-DM | |
| dc.subject.keywords | Gestión hospitalaria | |
| dc.subject.keywords | Analítica de datos en salud | |
| dc.description.abstractenglish | The manual consolidation of hospital indicators generates rework, inconsistencies, and limitations for the timely analysis of institutional information. This paper presents the design and implementation of an automated system aimed at optimizing the processing and reporting of hospitalization indicators at Clínica de Marly Jorge Cavelier Gaviria, integrating data analytics techniques and machine learning under the CRISP-DM methodology. The system was developed using data from the 2021–2024 period, processing 22,723 hospital admission records and an official institutional indicators dataset comprising 48 monthly periods. The primary source for modeling was the official hospitalization indicators base, which includes occupancy, patient flow, and length-of-stay variables, consolidated by the institution's statistics department from the SERVINTE system. A Python pipeline was implemented to automate the extraction, cleaning, standardization, and consolidation of information, generating structured files compatible with Business Intelligence tools and eliminating dependence on error-prone manual procedures. In the modeling phase, three complementary approaches were applied to the consolidated monthly table, which records an average of 417 admissions and 421 discharges per month, an average length of stay of 4.15 days, and an average occupancy rate of 82.1% for the analyzed period. The K-Means algorithm segmented monthly periods into three distinct operational profiles —high volume, medium volume, and low volume with high complexity—, with a Silhouette index of 0.4804, identifying as a key finding that the first eight months of 2021 presented the highest average length of stay (5.68 days) with the lowest patient volume, constituting a qualitatively distinct profile from subsequent periods. The linear regression model for predicting monthly discharges demonstrated a near-linear relationship with admissions, explaining 91.1% of the indicator's variability with a relative error of 4.3%, positioning it as a highly practical operational planning tool. In contrast, the regression model for total length of stay yielded R²=0.143, evidencing that this indicator depends primarily on the individual clinical complexity of each hospitalization rather than patient volume, a result that precisely identifies what additional information is needed to model it reliably. The decision tree complemented the analysis by achieving 93.3% accuracy and a weighted F1-Score of 0.9325 in classifying the three operational profiles, generating explicit rules based on discharge thresholds directly interpretable by management teams without technical mediation. The results demonstrate that processing automation is a necessary condition for ensuring analytical reliability, and that combining segmentation, prediction, and classification techniques allows hospital behavior to be understood from complementary perspectives. The system developed is scalable, documented, and replicable, and provides a concrete foundation for advancing toward hospital management sustained by quantitative evidence. Keywords: data automation, hospital indicators, machine learning, CRISP-DM, hospital management, health data analytics. | |
| dc.subject.category | Indicadores | |
| Appears in Collections: | Especialización en Ciencia de Datos y Analítica | |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| smbonzas.pdf | 608.57 kB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.