Optimización en el proceso de consolidación y reporte de indicadores institucionales mediante análisis de datos y Machine Learning

Bonza Sánchez, Sandra Milena

QRCode

View/Open

smbonzas.pdf (608.5Kb)

Date

2026-05-06

Author

Bonza Sánchez, Sandra Milena

Advisor

Mejía Manzano, Julio Eduardo

TY - GEN T1 - Optimización en el proceso de consolidación y reporte de indicadores institucionales mediante análisis de datos y Machine Learning AU - Bonza Sánchez, Sandra Milena Y1 - 2026-05-06 UR - https://repository.unad.edu.co/handle/10596/80810 AB - La consolidación manual de indicadores hospitalarios genera reprocesos, inconsistencias y limitaciones para el análisis oportuno de la información institucional. Este trabajo presenta el diseño e implementación de un sistema automatizado orientado a optimizar el procesamiento y reporte de indicadores de hospitalización en la Clínica de Marly Jorge Cavelier Gaviria, integrando técnicas de analítica de datos y aprendizaje automático bajo la metodología CRISP-DM. El sistema fue desarrollado sobre la información correspondiente al período 2021–2024, procesando 22.723 registros de ingresos hospitalarios y una base de indicadores institucionales consolidada que comprende 48 períodos mensuales. Como fuente principal para el modelado se utilizó la base oficial de indicadores de hospitalización, que incluye variables de ocupación, flujo de pacientes y días de estancia, consolidada por el área de estadística de la institución a partir del sistema SERVINTE. Se implementó un pipeline en Python que automatiza la extracción, limpieza, estandarización y consolidación de la información, generando archivos estructurados compatibles con herramientas de Business Intelligence y eliminando la dependencia de procedimientos manuales propensos a error. En la fase de modelado se aplicaron tres enfoques complementarios sobre la tabla mensual consolidada, que registra un promedio de 417 ingresos y 421 egresos mensuales, una estancia promedio de 4,15 días y una ocupación promedio del 82,1% para el período analizado. El algoritmo K-Means segmentó los períodos mensuales en tres perfiles operativos diferenciados —alto volumen, volumen medio y bajo volumen con alta complejidad—, con un índice Silhouette de 0,4804, identificando como hallazgo relevante que los primeros ocho meses de 2021 presentaron la estancia promedio más alta del período (5,68 días) con el menor volumen de pacientes, configurando un perfil cualitativamente distinto al de los períodos posteriores. El modelo de regresión lineal para la predicción de egresos mensuales demostró una relación casi lineal con los ingresos, explicando el 91,1% de la variabilidad del indicador con un error relativo del 4,3%, lo que lo posiciona como una herramienta de planificación operativa de alta utilidad práctica. En contraste, el modelo de regresión para días de estancia totales presentó un R²=0,143, evidenciando que este indicador depende principalmente de la complejidad clínica individual de cada hospitalización y no del volumen de pacientes, resultado que delimita con precisión qué información adicional se requiere para modelarlo de forma confiable. El árbol de decisión complementó el análisis alcanzando una exactitud del 93,3% y un F1-Score ponderado de 0,9325 en la clasificación de los tres perfiles operativos, generando reglas explícitas basadas en umbrales de egresos directamente interpretables por los equipos de gestión sin mediación técnica. Los resultados demuestran que la automatización del procesamiento es condición necesaria para garantizar la confiabilidad del análisis, y que la combinación de técnicas de segmentación, predicción y clasificación permite comprender el comportamiento hospitalario desde perspectivas complementarias. El sistema desarrollado es escalable, documentado y replicable, y constituye una base concreta para avanzar hacia una gestión hospitalaria sostenida en evidencia cuantitativa. Palabras clave: automatización de datos, indicadores hospitalarios, machine learning, CRISP-DM, gestión hospitalaria, analítica de datos en salud. ER - @misc{10596_80810, author = {Bonza Sánchez Sandra Milena}, title = {Optimización en el proceso de consolidación y reporte de indicadores institucionales mediante análisis de datos y Machine Learning}, year = {2026-05-06}, abstract = {La consolidación manual de indicadores hospitalarios genera reprocesos, inconsistencias y limitaciones para el análisis oportuno de la información institucional. Este trabajo presenta el diseño e implementación de un sistema automatizado orientado a optimizar el procesamiento y reporte de indicadores de hospitalización en la Clínica de Marly Jorge Cavelier Gaviria, integrando técnicas de analítica de datos y aprendizaje automático bajo la metodología CRISP-DM. El sistema fue desarrollado sobre la información correspondiente al período 2021–2024, procesando 22.723 registros de ingresos hospitalarios y una base de indicadores institucionales consolidada que comprende 48 períodos mensuales. Como fuente principal para el modelado se utilizó la base oficial de indicadores de hospitalización, que incluye variables de ocupación, flujo de pacientes y días de estancia, consolidada por el área de estadística de la institución a partir del sistema SERVINTE. Se implementó un pipeline en Python que automatiza la extracción, limpieza, estandarización y consolidación de la información, generando archivos estructurados compatibles con herramientas de Business Intelligence y eliminando la dependencia de procedimientos manuales propensos a error. En la fase de modelado se aplicaron tres enfoques complementarios sobre la tabla mensual consolidada, que registra un promedio de 417 ingresos y 421 egresos mensuales, una estancia promedio de 4,15 días y una ocupación promedio del 82,1% para el período analizado. El algoritmo K-Means segmentó los períodos mensuales en tres perfiles operativos diferenciados —alto volumen, volumen medio y bajo volumen con alta complejidad—, con un índice Silhouette de 0,4804, identificando como hallazgo relevante que los primeros ocho meses de 2021 presentaron la estancia promedio más alta del período (5,68 días) con el menor volumen de pacientes, configurando un perfil cualitativamente distinto al de los períodos posteriores. El modelo de regresión lineal para la predicción de egresos mensuales demostró una relación casi lineal con los ingresos, explicando el 91,1% de la variabilidad del indicador con un error relativo del 4,3%, lo que lo posiciona como una herramienta de planificación operativa de alta utilidad práctica. En contraste, el modelo de regresión para días de estancia totales presentó un R²=0,143, evidenciando que este indicador depende principalmente de la complejidad clínica individual de cada hospitalización y no del volumen de pacientes, resultado que delimita con precisión qué información adicional se requiere para modelarlo de forma confiable. El árbol de decisión complementó el análisis alcanzando una exactitud del 93,3% y un F1-Score ponderado de 0,9325 en la clasificación de los tres perfiles operativos, generando reglas explícitas basadas en umbrales de egresos directamente interpretables por los equipos de gestión sin mediación técnica. Los resultados demuestran que la automatización del procesamiento es condición necesaria para garantizar la confiabilidad del análisis, y que la combinación de técnicas de segmentación, predicción y clasificación permite comprender el comportamiento hospitalario desde perspectivas complementarias. El sistema desarrollado es escalable, documentado y replicable, y constituye una base concreta para avanzar hacia una gestión hospitalaria sostenida en evidencia cuantitativa. Palabras clave: automatización de datos, indicadores hospitalarios, machine learning, CRISP-DM, gestión hospitalaria, analítica de datos en salud.}, url = {https://repository.unad.edu.co/handle/10596/80810} }RT Generic T1 Optimización en el proceso de consolidación y reporte de indicadores institucionales mediante análisis de datos y Machine Learning A1 Bonza Sánchez, Sandra Milena YR 2026-05-06 LK https://repository.unad.edu.co/handle/10596/80810 AB La consolidación manual de indicadores hospitalarios genera reprocesos, inconsistencias y limitaciones para el análisis oportuno de la información institucional. Este trabajo presenta el diseño e implementación de un sistema automatizado orientado a optimizar el procesamiento y reporte de indicadores de hospitalización en la Clínica de Marly Jorge Cavelier Gaviria, integrando técnicas de analítica de datos y aprendizaje automático bajo la metodología CRISP-DM. El sistema fue desarrollado sobre la información correspondiente al período 2021–2024, procesando 22.723 registros de ingresos hospitalarios y una base de indicadores institucionales consolidada que comprende 48 períodos mensuales. Como fuente principal para el modelado se utilizó la base oficial de indicadores de hospitalización, que incluye variables de ocupación, flujo de pacientes y días de estancia, consolidada por el área de estadística de la institución a partir del sistema SERVINTE. Se implementó un pipeline en Python que automatiza la extracción, limpieza, estandarización y consolidación de la información, generando archivos estructurados compatibles con herramientas de Business Intelligence y eliminando la dependencia de procedimientos manuales propensos a error. En la fase de modelado se aplicaron tres enfoques complementarios sobre la tabla mensual consolidada, que registra un promedio de 417 ingresos y 421 egresos mensuales, una estancia promedio de 4,15 días y una ocupación promedio del 82,1% para el período analizado. El algoritmo K-Means segmentó los períodos mensuales en tres perfiles operativos diferenciados —alto volumen, volumen medio y bajo volumen con alta complejidad—, con un índice Silhouette de 0,4804, identificando como hallazgo relevante que los primeros ocho meses de 2021 presentaron la estancia promedio más alta del período (5,68 días) con el menor volumen de pacientes, configurando un perfil cualitativamente distinto al de los períodos posteriores. El modelo de regresión lineal para la predicción de egresos mensuales demostró una relación casi lineal con los ingresos, explicando el 91,1% de la variabilidad del indicador con un error relativo del 4,3%, lo que lo posiciona como una herramienta de planificación operativa de alta utilidad práctica. En contraste, el modelo de regresión para días de estancia totales presentó un R²=0,143, evidenciando que este indicador depende principalmente de la complejidad clínica individual de cada hospitalización y no del volumen de pacientes, resultado que delimita con precisión qué información adicional se requiere para modelarlo de forma confiable. El árbol de decisión complementó el análisis alcanzando una exactitud del 93,3% y un F1-Score ponderado de 0,9325 en la clasificación de los tres perfiles operativos, generando reglas explícitas basadas en umbrales de egresos directamente interpretables por los equipos de gestión sin mediación técnica. Los resultados demuestran que la automatización del procesamiento es condición necesaria para garantizar la confiabilidad del análisis, y que la combinación de técnicas de segmentación, predicción y clasificación permite comprender el comportamiento hospitalario desde perspectivas complementarias. El sistema desarrollado es escalable, documentado y replicable, y constituye una base concreta para avanzar hacia una gestión hospitalaria sostenida en evidencia cuantitativa. Palabras clave: automatización de datos, indicadores hospitalarios, machine learning, CRISP-DM, gestión hospitalaria, analítica de datos en salud. OL Spanish (121)

Bibliographic managers

Refworks

Zotero / EndNote / Mendeley

BibTeX

CiteULike

Keywords

Automatización de datos

Indicadores hospitalarios

Machine learning

CRISP-DM

Gestión hospitalaria

Analítica de datos en salud

Regional / Country coverage

cead_-_josé_acevedo_y_gómez

Metadata

Show full item record

PDF Document

Description of the content

La consolidación manual de indicadores hospitalarios genera reprocesos, inconsistencias y limitaciones para el análisis oportuno de la información institucional. Este trabajo presenta el diseño e implementación de un sistema automatizado orientado a optimizar el procesamiento y reporte de indicadores de hospitalización en la Clínica de Marly Jorge Cavelier Gaviria, integrando técnicas de analítica de datos y aprendizaje automático bajo la metodología CRISP-DM. El sistema fue desarrollado sobre la información correspondiente al período 2021–2024, procesando 22.723 registros de ingresos hospitalarios y una base de indicadores institucionales consolidada que comprende 48 períodos mensuales. Como fuente principal para el modelado se utilizó la base oficial de indicadores de hospitalización, que incluye variables de ocupación, flujo de pacientes y días de estancia, consolidada por el área de estadística de la institución a partir del sistema SERVINTE. Se implementó un pipeline en Python que automatiza la extracción, limpieza, estandarización y consolidación de la información, generando archivos estructurados compatibles con herramientas de Business Intelligence y eliminando la dependencia de procedimientos manuales propensos a error. En la fase de modelado se aplicaron tres enfoques complementarios sobre la tabla mensual consolidada, que registra un promedio de 417 ingresos y 421 egresos mensuales, una estancia promedio de 4,15 días y una ocupación promedio del 82,1% para el período analizado. El algoritmo K-Means segmentó los períodos mensuales en tres perfiles operativos diferenciados —alto volumen, volumen medio y bajo volumen con alta complejidad—, con un índice Silhouette de 0,4804, identificando como hallazgo relevante que los primeros ocho meses de 2021 presentaron ...