Diseño y evaluación de un pipeline ETL low-code en KNIME para mejorar la eficiencia del proceso de preparación y la calidad de datos en escenarios empresariales tipo PYME

Quiroga Castañeda, Ivan Ramiro

dc.contributor.advisor	Garcia Garcia, Mireya
dc.coverage.spatial	cead_-_facatativa
dc.creator	Quiroga Castañeda, Ivan Ramiro
dc.date.accessioned	2026-06-30T19:30:18Z
dc.date.available	2026-06-30T19:30:18Z
dc.date.created	2026-05-26
dc.identifier.uri	https://repository.unad.edu.co/handle/10596/82762
dc.description.abstract	En muchas pequeñas y medianas empresas, la información requerida para generar reportes y apoyar procesos de análisis no se encuentra consolidada en una única fuente ni bajo criterios homogéneos de estructura y calidad. Con frecuencia, los datos de ventas, inventario, productos, clientes y abastecimiento se administran en archivos planos, hojas de cálculo o exportaciones parciales de sistemas transaccionales, lo que obliga a ejecutar tareas manuales repetitivas de integración, limpieza, estandarización y validación. Esta situación incrementa los tiempos de preparación, dificulta la trazabilidad del proceso y eleva el riesgo de errores que afectan la calidad del conjunto de datos utilizado para análisis. En respuesta a esta problemática, el presente proyecto diseñó, implementó y evaluó un pipeline ETL con enfoque low-code utilizando KNIME, orientado a automatizar la preparación de datos comerciales en un escenario empresarial tipo PYME. El trabajo se desarrolló sobre un entorno de datos estructurado con tablas de clientes, productos, proveedores, ventas, compras, inventario y movimientos de inventario. Sobre estas estructuras se indujeron inconsistencias frecuentes en procesos manuales, tales como valores faltantes, duplicados, formatos inválidos, errores de codificación y llaves inconsistentes, con el fin de simular condiciones realistas de trabajo. Metodológicamente, el estudio comprendió la caracterización del escenario de datos, la definición del modelo objetivo, el diseño del diccionario de datos y de las reglas de calidad, la construcción del flujo ETL en KNIME y la evaluación comparativa entre un procedimiento manual de preparación y el flujo automatizado. La comparación se apoyó en métricas de eficiencia, particularmente el tiempo de preparación, y en métricas de calidad de datos, como completitud, unicidad, consistencia y validez. Como resultado, se obtuvo un flujo ETL replicable, documentado y aplicable a contextos similares, capaz de reducir el esfuerzo operativo asociado a la preparación manual de datos y de mejorar la calidad del conjunto de datos resultante para fines analíticos. Entre los productos obtenidos se encuentran el workflow en KNIME, los datasets de entrada y salida, el reporte de métricas y las evidencias técnicas de ejecución del prototipo.
dc.format	pdf
dc.title	Diseño y evaluación de un pipeline ETL low-code en KNIME para mejorar la eficiencia del proceso de preparación y la calidad de datos en escenarios empresariales tipo PYME
dc.type	Proyecto aplicado
dc.subject.keywords	ETL
dc.subject.keywords	KNIME
dc.subject.keywords	Calidad de datos
dc.subject.keywords	PYME
dc.subject.keywords	Automatización
dc.description.abstractenglish	In many small and medium-sized enterprises, the information required for reporting and analytical processes is not consolidated into a single source nor managed under homogeneous quality and structure standards. Sales, inventory, products, customers, and supply data are often distributed across flat files, spreadsheets, or partial exports from transactional systems, which leads to repetitive manual tasks related to integration, cleansing, standardization, and validation. This situation increases preparation time, reduces traceability, and raises the risk of errors that affect the quality of the dataset used for analysis. In response to this problem, this project designed, implemented, and evaluated a low-code ETL pipeline using KNIME to automate the preparation of commercial data in an SME-type business scenario. The work was developed on a structured data environment composed of customer, product, supplier, sales, purchases, inventory, and inventory movement tables. Controlled inconsistencies frequently found in manual preparation processes, such as missing values, duplicates, invalid formats, coding errors, and inconsistent keys, were induced in these structures in order to simulate realistic working conditions. Methodologically, the study included the characterization of the data scenario, the definition of the target data model, the design of the data dictionary and quality rules, the construction of the ETL workflow in KNIME, and the comparative evaluation between a manual data preparation procedure and the automated workflow. The comparison was based on efficiency metrics, such as preparation time, as well as data quality metrics, particularly completeness, uniqueness, consistency, and validity. As a result, a replicable and documented ETL workflow applicable to similar contexts was obtained, capable of reducing the operational effort associated with manual data preparation and improving the quality of the resulting dataset for analytical purposes. The outputs obtained include the KNIME workflow, the input and output datasets, the metrics report, and technical evidence of the prototype execution.
dc.subject.category	Ciencia de datos y analítica