Please use this identifier to cite or link to this item: https://repository.unad.edu.co/handle/10596/82612
Title: Modelo predictivo del puntaje global Saber 11 a nivel de establecimientos educativos en Colombia
metadata.dc.creator: Garavito Villamil, Erick Santiago
Achipíz Velasco, Francisco Javier
metadata.dc.date.created: 2026-06-10
metadata.dc.subject.keywords: Aprendizaje supervisado
Regresión
Equidad educativa
Saber 11
metadata.dc.format.*: pdf
metadata.dc.type: Proyecto aplicado
Abstract: Esta propuesta titulada “Modelo predictivo del puntaje global Saber 11 a nivel de establecimientos educativos en Colombia” busca desarrollar un modelo de aprendizaje supervisado para predecir el puntaje global promedio de la prueba Saber 11 a nivel de establecimiento educativo en Colombia. El problema central es la profunda brecha de equidad educativa, evidenciada en la diferencia de rendimiento entre zonas urbanas y rurales. Actualmente, las instituciones carecen de herramientas analíticas para anticipar estos resultados, lo que limita la toma de decisiones a una gestión reactiva post-evaluación. El proyecto pretende transformar los microdatos abiertos del ICFES en inteligencia accionable para permitir intervenciones pedagógicas tempranas y focalizadas. El objetivo general es crear una herramienta de apoyo a la toma de decisiones con enfoque en equidad, capaz de estimar el desempeño institucional a partir de variables contextuales y socioeconómicas. Los objetivos específicos incluyen la estructuración de un conjunto de datos integrado y anonimizado, la implementación de dos modelos de regresión (uno lineal y otro de ensamble) y la comparación de su precisión mediante métricas como el error cuadrático medio (RMSE) y el error absoluto medio (MAE). Este enfoque técnico busca identificar los factores institucionales que permiten predecir el puntaje con un margen de error aceptable. El sustento teórico integra la economía de la educación, mediante la Función de Producción Educativa, y la Minería de Datos Educativa (EDM). Se plantea que el rendimiento no es aleatorio, sino el producto de insumos familiares, escolares y contextuales. Para el modelado, se fundamentan técnicas de regularización como Ridge y Lasso para mitigar la multicolinealidad de variables como el estrato y el nivel educativo de los padres. Asimismo, se proponen algoritmos de ensamble como Random Forest y Gradient Boosting para capturar interacciones no lineales y reducir el sesgo en las predicciones. La metodología adoptada es el estándar industrial CRISP-DM, la cual garantiza un proceso cíclico y robusto. Esta se divide en seis fases: comprensión del problema, comprensión de los datos (ICFES), preparación de los datos (ingeniería de características y agregación a nivel de colegio), modelado, evaluación y despliegue. La fase de preparación es crítica, pues requiere transformar microdatos individuales en promedios y distribuciones por establecimiento educativo. Los recursos necesarios comprenden el uso de Python y sus librerías especializadas en ciencia de datos, operando sobre repositorios de datos abiertos gubernamentales. Se espera que el proyecto entregue un dataset depurado y un prototipo funcional del modelo en formato de código. Los resultados deben permitir la jerarquización de variables predictoras, visibilizando cómo factores como la ubicación rural o la naturaleza jurídica impactan el desempeño.
Description: 
URI: https://repository.unad.edu.co/handle/10596/82612
metadata.dc.subject.category: Ciencia de Datos
metadata.dc.coverage.spatial: cead_-_josé_acevedo_y_gómez
Appears in Collections:Especialización en Ciencia de Datos y Analítica

Files in This Item:
File Description SizeFormat 
esgaravitov.pdf6.18 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.