Diseño y evaluación de un pipeline ETL low-code en KNIME para mejorar la eficiencia del proceso de preparación y la calidad de datos en escenarios empresariales tipo PYME

Quiroga Castañeda, Ivan Ramiro

Please use this identifier to cite or link to this item: https://repository.unad.edu.co/handle/10596/82762

Title:	Diseño y evaluación de un pipeline ETL low-code en KNIME para mejorar la eficiencia del proceso de preparación y la calidad de datos en escenarios empresariales tipo PYME
metadata.dc.creator:	Quiroga Castañeda, Ivan Ramiro
metadata.dc.date.created:	2026-05-26
metadata.dc.subject.keywords:	ETL KNIME Calidad de datos PYME Automatización
metadata.dc.format.*:	pdf
metadata.dc.type:	Proyecto aplicado
Abstract:	En muchas pequeñas y medianas empresas, la información requerida para generar reportes y apoyar procesos de análisis no se encuentra consolidada en una única fuente ni bajo criterios homogéneos de estructura y calidad. Con frecuencia, los datos de ventas, inventario, productos, clientes y abastecimiento se administran en archivos planos, hojas de cálculo o exportaciones parciales de sistemas transaccionales, lo que obliga a ejecutar tareas manuales repetitivas de integración, limpieza, estandarización y validación. Esta situación incrementa los tiempos de preparación, dificulta la trazabilidad del proceso y eleva el riesgo de errores que afectan la calidad del conjunto de datos utilizado para análisis. En respuesta a esta problemática, el presente proyecto diseñó, implementó y evaluó un pipeline ETL con enfoque low-code utilizando KNIME, orientado a automatizar la preparación de datos comerciales en un escenario empresarial tipo PYME. El trabajo se desarrolló sobre un entorno de datos estructurado con tablas de clientes, productos, proveedores, ventas, compras, inventario y movimientos de inventario. Sobre estas estructuras se indujeron inconsistencias frecuentes en procesos manuales, tales como valores faltantes, duplicados, formatos inválidos, errores de codificación y llaves inconsistentes, con el fin de simular condiciones realistas de trabajo. Metodológicamente, el estudio comprendió la caracterización del escenario de datos, la definición del modelo objetivo, el diseño del diccionario de datos y de las reglas de calidad, la construcción del flujo ETL en KNIME y la evaluación comparativa entre un procedimiento manual de preparación y el flujo automatizado. La comparación se apoyó en métricas de eficiencia, particularmente el tiempo de preparación, y en métricas de calidad de datos, como completitud, unicidad, consistencia y validez. Como resultado, se obtuvo un flujo ETL replicable, documentado y aplicable a contextos similares, capaz de reducir el esfuerzo operativo asociado a la preparación manual de datos y de mejorar la calidad del conjunto de datos resultante para fines analíticos. Entre los productos obtenidos se encuentran el workflow en KNIME, los datasets de entrada y salida, el reporte de métricas y las evidencias técnicas de ejecución del prototipo.
URI:	https://repository.unad.edu.co/handle/10596/82762
metadata.dc.subject.category:	Ciencia de datos y analítica
metadata.dc.coverage.spatial:	cead_-_facatativa
Appears in Collections:	Especialización en Ciencia de Datos y Analítica

Files in This Item:

File	Description	Size	Format
irquirogac.pdf		676.91 kB	Adobe PDF	View/Open

Show full item record