Evaluación comparativa de modelos de aprendizaje automático para la optimización del factor de secado en el proceso industrial de descafeinado del café

Ruiz Rodriguez, Angelica Maria; Orrego Grisales, Diego Andrés

Please use this identifier to cite or link to this item: https://repository.unad.edu.co/handle/10596/82469

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	Mejía Manzano, Julio Eduardo
dc.coverage.spatial	ccav_-_dosquebradas
dc.creator	Ruiz Rodriguez, Angelica Maria
dc.creator	Orrego Grisales, Diego Andrés
dc.date.accessioned	2026-06-23T19:31:50Z
dc.date.available	2026-06-23T19:31:50Z
dc.date.created	2026-06-11
dc.identifier.uri	https://repository.unad.edu.co/handle/10596/82469
dc.description
dc.description.abstract	Este trabajo de grado contempla una problemática en la empresa descafeinadora en una de las etapas críticas del proceso productivo, que afecta directamente la rentabilidad, calidad y productividad de la empresa. Esta etapa crítica se denomina secado, en ella se busca alcanzar el rango de humedad de café establecido por el cliente, como parte del postratamiento en la línea, este secado se realiza de manera indirecta con un control de presión de vacío y temperatura. Para obtener el valor deseado de humedad los supervisores y jefes de producción asignan un factor de secado que es afectado por diferentes parámetros y condiciones como el tipo de café, tipo de secador, humedad relativa, entre otros, algunos van relacionados con la materia prima y otros con la tecnología usada, sin embargo, solo se asigna un factor para todas las variables, con el fin de facilitar su escogencia. Este factor históricamente ha sido asignado de manera empírica basado en la experiencia de los trabajadores, lo que ha generado una alta variabilidad de los resultados, que en ocasiones afecta la calidad (propiedades organolépticas, vida útil del producto) y rentabilidad de los procesos. Para estandarizar el proceso productivo, en este trabajo se desarrolla un modelo de aprendizaje automático para determinar de manera óptima este factor de secado, para esto estudio se emplea la metodología CRISP-DM (Cross-Industry Standard Process for Data Mining), por lo que se solicita a la empresa los datos históricos de los clientes, parámetros de secado, secadores y resultados obtenidos para cada una de las operaciones realizadas, se caracteriza el comportamiento de los datos y se detecta si existen sesgos que puedan afectar el modelo predictivo. Posteriormente, se realiza la limpieza y organización de los datos para usarlos en los modelos de machine learning. Dentro de los pasos a seguir se encuentran: eliminar datos duplicados o inconsistentes, imputar valores faltantes, estandarizar variables numéricas y codificar las variables categóricas. Se analiza el ajuste de los datos con los modelos: Regresión lineal múltiple (MAE: 16,812 y R2: 0,389), Árboles de decisión (MAE: 14,119 y R2: 0,576), Random Forest con hiperparámetros optimizados (MAE: 12,539 y R2: 0,667), Gradient Boosting con hiperparámetros optimizados (MAE: 12,364 y R2: 0,681), Support Vector Regression (SVR) (MAE: 16,725 y R2: 0,408) y Redes neuronales artificiales (MAE: 17,103 y R2: 0,372), y se seleccionó el modelo Gradient Boosting que tiene el mejor ajuste y el menor error. Posteriormente, se realiza la integración del modelo predictivo con el proceso dentro de la empresa descafeinadora, en donde se visualiza el factor de secado recomendado para cada lote. Luego de tomar 100 registros para la implementación del modelo se evalúa el mejoramiento de los resultados de las humedades del café en el proceso, y se dan las recomendaciones respectivas a la empresa, para lograr el mantenimiento de la mejora en el proceso, las posibles variables extras que se pueden estudiar para aumentar la precisión en la toma de decisión respecto al secado, y realizar los ajustes respectivos a los modelos con el paso del tiempo.
dc.format	pdf
dc.title	Evaluación comparativa de modelos de aprendizaje automático para la optimización del factor de secado en el proceso industrial de descafeinado del café
dc.type	Proyecto aplicado
dc.subject.keywords	Café descafeinado
dc.subject.keywords	Secado de café
dc.subject.keywords	Factor de secado
dc.subject.keywords	Aprendizaje automático
dc.subject.keywords	Modelo predictivo
dc.description.abstractenglish	This degree project addresses a problem in the decaffeination company during one of the critical stages of the production process, which directly affects the company’s profitability, quality, and productivity. This critical stage is called drying, in which the objective is to achieve the coffee moisture range established by the client as part of the post-treatment process in the production line. This drying process is carried out indirectly through vacuum pressure and temperature control. To obtain the desired moisture value, supervisors and production managers assign a drying factor that is affected by different parameters and conditions such as the type of coffee, type of dryer, relative humidity, among others; some are related to the raw material and others to the technology used. However, only one factor is assigned for all variables in order to facilitate its selection. Historically, this factor has been assigned empirically based on the workers’ experience, which has generated high variability in the results, occasionally affecting quality (organoleptic properties, product shelf life) and process profitability. To standardize the production process, this study develops a machine learning model to optimally determine this drying factor. For this study, the CRISP-DM (Cross-Industry Standard Process for Data Mining) methodology is employed. Therefore, the company’s historical data regarding clients, drying parameters, dryers, and results obtained for each operation performed are requested. The behavior of the data is characterized, and it is determined whether biases exist that may affect the predictive model. Subsequently, data cleaning and organization are carried out in order to use the data in machine learning models. The steps to be followed include: removing duplicate or inconsistent data, imputing missing values, standardizing numerical variables, and encoding categorical variables. The fit of the data is analyzed using the following models: Multiple linear regression (MAE: 16.812 and R2: 0.389), Decision trees (MAE: 14.119 and R2: 0.576), Random Forest with optimized hyperparameters (MAE: 12.539 and R2: 0.667), Gradient Boosting with optimized hyperparameters (MAE: 12.364 and R2: 0.681), Support Vector Regression (SVR) (MAE: 16.725 and R2: 0.408), and Artificial neural networks (MAE: 17.103 and R2: 0.372). The Gradient Boosting model was selected because it achieved the best fit and the lowest error. Subsequently, the predictive model is integrated into the process within the decaffeination company, where the recommended drying factor for each batch is displayed. After taking 100 records for the implementation of the model, the improvement in coffee moisture results within the process is evaluated, and the respective recommendations are provided to the company in order to maintain process improvement, identify possible additional variables that can be studied to increase precision in decision-making regarding drying, and make the respective adjustments to the models over time.
dc.subject.category	Investigacion
Appears in Collections:	Especialización en Ciencia de Datos y Analítica

Files in This Item:

File	Description	Size	Format
amruizrodri.pdf		4.85 MB	Adobe PDF	View/Open

Show simple item record