| dc.contributor.advisor | Vargas Valencia, Miguel Ángel | |
| dc.coverage.spatial | udr_-_Cali | |
| dc.creator | García Vidal, José Fernando | |
| dc.date.accessioned | 2024-07-09T21:32:03Z | |
| dc.date.available | 2024-07-09T21:32:03Z | |
| dc.date.created | 2024-07-04 | |
| dc.identifier.uri | https://repository.unad.edu.co/handle/10596/62821 | |
| dc.description.abstract | Este proyecto investiga cómo optimizar la clasificación de clientes potenciales para MAVV mediante técnicas avanzadas de procesamiento de datos y aprendizaje automático. La investigación comienza con un análisis exploratorio de los datos, seguido de la implementación de técnicas de procesamiento de lenguaje natural (NLP) para extraer características relevantes de los mensajes de los clientes.
Se evaluaron varios modelos de aprendizaje supervisado, incluyendo Regresión Logística, Árboles de Decisión, Bosques Aleatorios, k-Nearest Neighbors y Máquinas de Soporte Vectorial, utilizando métricas como precisión, recall y el puntaje F1. En particular, la Regresión Logística, después de un ajuste meticuloso, alcanzó una precisión de prueba de 0.962, destacando por su eficacia junto con el modelo K-Nearest Neighbors, que logró una precisión impresionante de 0.991.
El ajuste de hiperparámetros fue fundamental para afinar la precisión y el rendimiento de los modelos. Este proceso, apoyado por la validación cruzada, mejoró significativamente su capacidad para generalizar sobre nuevos datos. La Regresión Logística mostró no solo alta precisión sino también una excelente regularización, evidenciada por una destacada curva ROC con un área bajo la curva (AUC) de 0.91.
El estudio destaca la importancia de combinar análisis de datos, NLP y aprendizaje automático para mejorar la clasificación de leads en marketing digital, proporcionando un marco sólido para futuras investigaciones y aplicaciones prácticas en entornos empresariales. | |
| dc.format | pdf | |
| dc.title | ProspectAI - Modelos de Machine Learning y Preprocesamiento de Lenguaje Natural para la Clasificación Efectiva de Clientes | |
| dc.type | Proyecto aplicado | |
| dc.subject.keywords | Machine learning | |
| dc.subject.keywords | Técnicas de NLP (Procesamiento de Lenguaje Natural) | |
| dc.subject.keywords | Aprendizaje automático | |
| dc.subject.keywords | Modelos supervisados | |
| dc.subject.keywords | Calibración de hiperparámetros | |
| dc.description.abstractenglish | This project investigates how to optimize lead classification for MAVV using advanced data processing and machine learning techniques. The research starts with an exploratory analysis of the data, followed by the implementation of natural language processing (NLP) techniques to extract relevant features from customer messages.
Several supervised learning models, including Logistic Regression, Decision Trees, Random Forests, k-Nearest Neighbors and Support Vector Machines, were evaluated using metrics such as accuracy, recall and F1 score. In particular, Logistic Regression, after meticulous tuning, achieved a test accuracy of 0.962, standing out for its effectiveness along with the K-Nearest Neighbors model, which achieved an impressive accuracy of 0.991.
Hyperparameter tuning was instrumental in refining the accuracy and performance of the models. This process, supported by cross-validation, significantly improved their ability to generalize to new data. Logistic Regression showed not only high accuracy but also excellent regularization, evidenced by an outstanding ROC curve with an area under the curve (AUC) of 0.91. The study highlights the importance of combining data analytics, NLP and machine learning to improve lead classification in digital marketing, providing a solid framework for future research and practical applications in enterprise environments. | |
| dc.subject.category | Ciencias de Datos | |
| dc.subject.category | Machine Learning | |
| dc.subject.category | Procesamiento de Lenguaje Natural | |