ProspectAI - Modelos de Machine Learning y Preprocesamiento de Lenguaje Natural para la Clasificación Efectiva de Clientes

García Vidal, José Fernando

dc.contributor.advisor	Vargas Valencia, Miguel Ángel
dc.coverage.spatial	udr_-_Cali
dc.creator	García Vidal, José Fernando
dc.date.accessioned	2024-07-09T21:32:03Z
dc.date.available	2024-07-09T21:32:03Z
dc.date.created	2024-07-04
dc.identifier.uri	https://repository.unad.edu.co/handle/10596/62821
dc.description.abstract	Este proyecto investiga cómo optimizar la clasificación de clientes potenciales para MAVV mediante técnicas avanzadas de procesamiento de datos y aprendizaje automático. La investigación comienza con un análisis exploratorio de los datos, seguido de la implementación de técnicas de procesamiento de lenguaje natural (NLP) para extraer características relevantes de los mensajes de los clientes. Se evaluaron varios modelos de aprendizaje supervisado, incluyendo Regresión Logística, Árboles de Decisión, Bosques Aleatorios, k-Nearest Neighbors y Máquinas de Soporte Vectorial, utilizando métricas como precisión, recall y el puntaje F1. En particular, la Regresión Logística, después de un ajuste meticuloso, alcanzó una precisión de prueba de 0.962, destacando por su eficacia junto con el modelo K-Nearest Neighbors, que logró una precisión impresionante de 0.991. El ajuste de hiperparámetros fue fundamental para afinar la precisión y el rendimiento de los modelos. Este proceso, apoyado por la validación cruzada, mejoró significativamente su capacidad para generalizar sobre nuevos datos. La Regresión Logística mostró no solo alta precisión sino también una excelente regularización, evidenciada por una destacada curva ROC con un área bajo la curva (AUC) de 0.91. El estudio destaca la importancia de combinar análisis de datos, NLP y aprendizaje automático para mejorar la clasificación de leads en marketing digital, proporcionando un marco sólido para futuras investigaciones y aplicaciones prácticas en entornos empresariales.
dc.format	pdf
dc.title	ProspectAI - Modelos de Machine Learning y Preprocesamiento de Lenguaje Natural para la Clasificación Efectiva de Clientes
dc.type	Proyecto aplicado
dc.subject.keywords	Machine learning
dc.subject.keywords	Técnicas de NLP (Procesamiento de Lenguaje Natural)
dc.subject.keywords	Aprendizaje automático
dc.subject.keywords	Modelos supervisados
dc.subject.keywords	Calibración de hiperparámetros
dc.description.abstractenglish	This project investigates how to optimize lead classification for MAVV using advanced data processing and machine learning techniques. The research starts with an exploratory analysis of the data, followed by the implementation of natural language processing (NLP) techniques to extract relevant features from customer messages. Several supervised learning models, including Logistic Regression, Decision Trees, Random Forests, k-Nearest Neighbors and Support Vector Machines, were evaluated using metrics such as accuracy, recall and F1 score. In particular, Logistic Regression, after meticulous tuning, achieved a test accuracy of 0.962, standing out for its effectiveness along with the K-Nearest Neighbors model, which achieved an impressive accuracy of 0.991. Hyperparameter tuning was instrumental in refining the accuracy and performance of the models. This process, supported by cross-validation, significantly improved their ability to generalize to new data. Logistic Regression showed not only high accuracy but also excellent regularization, evidenced by an outstanding ROC curve with an area under the curve (AUC) of 0.91. The study highlights the importance of combining data analytics, NLP and machine learning to improve lead classification in digital marketing, providing a solid framework for future research and practical applications in enterprise environments.
dc.subject.category	Ciencias de Datos
dc.subject.category	Machine Learning
dc.subject.category	Procesamiento de Lenguaje Natural