DSpace Community:

DSpace Community: https://repository.unad.edu.co/handle/10596/2574 2026-07-01T05:26:13Z 2026-07-01T05:26:13Z Diseño y evaluación de un pipeline ETL low-code en KNIME para mejorar la eficiencia del proceso de preparación y la calidad de datos en escenarios empresariales tipo PYME https://repository.unad.edu.co/handle/10596/82762 2026-06-30T19:31:29Z 2026-05-26T00:00:00Z

Title: Diseño y evaluación de un pipeline ETL low-code en KNIME para mejorar la eficiencia del proceso de preparación y la calidad de datos en escenarios empresariales tipo PYME Abstract: En muchas pequeñas y medianas empresas, la información requerida para generar reportes y apoyar procesos de análisis no se encuentra consolidada en una única fuente ni bajo criterios homogéneos de estructura y calidad. Con frecuencia, los datos de ventas, inventario, productos, clientes y abastecimiento se administran en archivos planos, hojas de cálculo o exportaciones parciales de sistemas transaccionales, lo que obliga a ejecutar tareas manuales repetitivas de integración, limpieza, estandarización y validación. Esta situación incrementa los tiempos de preparación, dificulta la trazabilidad del proceso y eleva el riesgo de errores que afectan la calidad del conjunto de datos utilizado para análisis. En respuesta a esta problemática, el presente proyecto diseñó, implementó y evaluó un pipeline ETL con enfoque low-code utilizando KNIME, orientado a automatizar la preparación de datos comerciales en un escenario empresarial tipo PYME. El trabajo se desarrolló sobre un entorno de datos estructurado con tablas de clientes, productos, proveedores, ventas, compras, inventario y movimientos de inventario. Sobre estas estructuras se indujeron inconsistencias frecuentes en procesos manuales, tales como valores faltantes, duplicados, formatos inválidos, errores de codificación y llaves inconsistentes, con el fin de simular condiciones realistas de trabajo. Metodológicamente, el estudio comprendió la caracterización del escenario de datos, la definición del modelo objetivo, el diseño del diccionario de datos y de las reglas de calidad, la construcción del flujo ETL en KNIME y la evaluación comparativa entre un procedimiento manual de preparación y el flujo automatizado. La comparación se apoyó en métricas de eficiencia, particularmente el tiempo de preparación, y en métricas de calidad de datos, como completitud, unicidad, consistencia y validez. Como resultado, se obtuvo un flujo ETL replicable, documentado y aplicable a contextos similares, capaz de reducir el esfuerzo operativo asociado a la preparación manual de datos y de mejorar la calidad del conjunto de datos resultante para fines analíticos. Entre los productos obtenidos se encuentran el workflow en KNIME, los datasets de entrada y salida, el reporte de métricas y las evidencias técnicas de ejecución del prototipo.

2026-05-26T00:00:00Z Aplicación de la metodología CRISP-DM para la identificación temprana de anomalías en eventos de Infección Respiratoria Aguda Grave (IRAG) Inusitada en Bogotá https://repository.unad.edu.co/handle/10596/82757 2026-06-30T19:22:09Z 2026-05-26T00:00:00Z

Title: Aplicación de la metodología CRISP-DM para la identificación temprana de anomalías en eventos de Infección Respiratoria Aguda Grave (IRAG) Inusitada en Bogotá Abstract: El presente proyecto de grado desarrolla un sistema de vigilancia sindrómica inteligente para la identificación temprana de anomalías epidemiológicas por Infecciones Respiratorias Agudas (IRA) en Bogotá, abarcando el periodo 2009-2024. Ante las limitaciones de los métodos estadísticos tradicionales, que suelen ser reactivos y dependientes de grandes volúmenes de casos, esta investigación propone un cambio de paradigma hacia una vigilancia basada en el riesgo y el perfil demográfico. Bajo la metodología CRISP-DM, el estudio integró técnicas avanzadas de ciencia de datos en tres dimensiones críticas: Normalización Estratégica: Se neutralizó el sesgo histórico de reportes masivos en adultos mediante una ponderación por relevancia etaria, permitiendo que el sistema priorice la vulnerabilidad en la primera infancia e infancia. Modelado y Benchmarking: Se implementó el algoritmo de aprendizaje no supervisado Isolation Forest, validando su robustez mediante una comparación (benchmarking) con el modelo Local Outlier Factor (LOF). Este proceso permitió identificar un "Core de Inestabilidad" de alta confianza y caracterizar 886 eventos anómalos que rompen la estacionalidad y el perfil esperado en la ciudad. Validación Operativa: Al contrastar los resultados con el estándar epidemiológico tradicional (+2σ), el modelo demostró una precisión del 18.06% en la captura de picos de volumen, pero, fundamentalmente, reveló un 82% de alertas adicionales invisibles para la estadística convencional. Los resultados culminan en la identificación de Nodos y periodos centinela, proporcionando a la Secretaría Distrital de Salud una herramienta de auditoría dirigida y optimización de recursos. En conclusión, el sistema no solo identifica brotes conocidos, sino que actúa como un centinela preventivo que detecta rupturas silenciosas en la firma epidemiológica, fortaleciendo la toma de decisiones y la protección de la población pediátrica en el Distrito Capital. Palabras clave: Vigilancia Sindrómica, Aprendizaje No Supervisado, Isolation Forest, CRISP-DM, Salud Pública, IRA, Anomalías Epidemiológicas, Bogotá.

2026-05-26T00:00:00Z Prototipo de agente conversacional inteligente para el soporte técnico en una empresa de servicios tecnológicos https://repository.unad.edu.co/handle/10596/82651 2026-06-27T14:47:43Z 2026-06-26T00:00:00Z

Title: Prototipo de agente conversacional inteligente para el soporte técnico en una empresa de servicios tecnológicos Abstract: Este proyecto surge de la necesidad de una empresa de servicios tecnológicos, dedicada a soluciones de facturación electrónica y gestión administrativa. En los últimos años, el aumento de usuarios generó una sobrecarga en el equipo de soporte técnico, especialmente en horarios nocturnos, lo que se traducía en demoras, errores frecuentes y baja satisfacción de los clientes. Para responder a esta problemática, se diseñó un prototipo de agente conversacional analítico integrado que, a diferencia de un chatbot tradicional, gestiona procesos de consulta sobre la aplicación de forma autónoma. La confiabilidad de las respuestas se garantiza mediante una arquitectura RAG local basada en fuentes y manuales técnicos verificados. La metodología empleada fue CRISP-DM, utilizando un motor de backend estructurado para el procesamiento de lenguaje natural (NLP), la normalización de texto y el análisis de patrones de registros de servicio. La evaluación del sistema en un entorno de producción validó una optimización operativa masiva, logrando reducir el tiempo de primera respuesta de un periodo histórico manual de 2,4 horas a un intervalo de 1,8 a 2,9 segundos por interacción. El prototipo alcanzó una tasa de resolución autónoma global del 78% mediante respuestas FAQ e interacción con herramientas administrativas WDM, derivando únicamente el 22% de casos complejos al canal humano. La prueba de consistencia frente a un Ground Truth de 45 registros demostró una precisión conceptual del 100% en las inferencias, mitigando por completo las alucinaciones comerciales gracias a una adherencia perfecta del 100% a la regla de detección de brechas de conocimiento (knowledge gaps), las cuales se capturan y resuelven a través de un circuito cerrado de aprendizaje supervisado. Esta solución disminuye los errores derivados del uso incorrecto del software de facturación y fortalece la eficiencia de la organización mediante una acceso ágil, seguro y confiable al soporte de la plataforma.

2026-06-26T00:00:00Z Diseño e implementación de un proceso ETL en Python para la consolidación y análisis de datos empresariales, orientado al apoyo a la toma de decisiones mediante Power BI https://repository.unad.edu.co/handle/10596/82643 2026-06-26T21:12:02Z 2026-02-09T00:00:00Z

Title: Diseño e implementación de un proceso ETL en Python para la consolidación y análisis de datos empresariales, orientado al apoyo a la toma de decisiones mediante Power BI Abstract: El proyecto aplicado tiene como objetivo diseñar e implementar un proceso ETL en Python (Pandas) para integrar datos empresariales provenientes de múltiples archivos CSV, con el fin de identificar duplicidades, inconsistencias y errores de digitación, y presentar los resultados mediante un dashboard en Power BI orientado a la gerencia. La iniciativa se desarrolla en la empresa Gestiones y Representaciones Chía S.A.S., que gestiona información de 43 empresas clientes y actualmente enfrenta fragmentación de datos, redundancias y dificultades para el análisis global. El proyecto definirá estándares técnicos de calidad de datos, documentará el flujo ETL a través de técnicas de profiling data y consolidará la información para evaluar su estado. Finalmente, el resultado se enfoca en visualizar y dimensionar el esfuerzo de corrección requerido, establecer pautas de mejora y fortalecer la confiabilidad de la información, contribuyendo a una mayor eficiencia operativa y calidad en la gestión de datos a través de visualizaciones que permitan apoyar la toma de decisiones estratégicas. Description:

2026-02-09T00:00:00Z