Modelo predictivo del puntaje global Saber 11 a nivel de establecimientos educativos en Colombia

Garavito Villamil, Erick Santiago; Achipíz Velasco, Francisco Javier

dc.contributor.advisor	Ospino Portillo, Jorge Eliecer
dc.coverage.spatial	cead_-_josé_acevedo_y_gómez
dc.creator	Garavito Villamil, Erick Santiago
dc.creator	Achipíz Velasco, Francisco Javier
dc.date.accessioned	2026-06-26T16:15:25Z
dc.date.available	2026-06-26T16:15:25Z
dc.date.created	2026-06-10
dc.identifier.uri	https://repository.unad.edu.co/handle/10596/82612
dc.description
dc.description.abstract	Esta propuesta titulada “Modelo predictivo del puntaje global Saber 11 a nivel de establecimientos educativos en Colombia” busca desarrollar un modelo de aprendizaje supervisado para predecir el puntaje global promedio de la prueba Saber 11 a nivel de establecimiento educativo en Colombia. El problema central es la profunda brecha de equidad educativa, evidenciada en la diferencia de rendimiento entre zonas urbanas y rurales. Actualmente, las instituciones carecen de herramientas analíticas para anticipar estos resultados, lo que limita la toma de decisiones a una gestión reactiva post-evaluación. El proyecto pretende transformar los microdatos abiertos del ICFES en inteligencia accionable para permitir intervenciones pedagógicas tempranas y focalizadas. El objetivo general es crear una herramienta de apoyo a la toma de decisiones con enfoque en equidad, capaz de estimar el desempeño institucional a partir de variables contextuales y socioeconómicas. Los objetivos específicos incluyen la estructuración de un conjunto de datos integrado y anonimizado, la implementación de dos modelos de regresión (uno lineal y otro de ensamble) y la comparación de su precisión mediante métricas como el error cuadrático medio (RMSE) y el error absoluto medio (MAE). Este enfoque técnico busca identificar los factores institucionales que permiten predecir el puntaje con un margen de error aceptable. El sustento teórico integra la economía de la educación, mediante la Función de Producción Educativa, y la Minería de Datos Educativa (EDM). Se plantea que el rendimiento no es aleatorio, sino el producto de insumos familiares, escolares y contextuales. Para el modelado, se fundamentan técnicas de regularización como Ridge y Lasso para mitigar la multicolinealidad de variables como el estrato y el nivel educativo de los padres. Asimismo, se proponen algoritmos de ensamble como Random Forest y Gradient Boosting para capturar interacciones no lineales y reducir el sesgo en las predicciones. La metodología adoptada es el estándar industrial CRISP-DM, la cual garantiza un proceso cíclico y robusto. Esta se divide en seis fases: comprensión del problema, comprensión de los datos (ICFES), preparación de los datos (ingeniería de características y agregación a nivel de colegio), modelado, evaluación y despliegue. La fase de preparación es crítica, pues requiere transformar microdatos individuales en promedios y distribuciones por establecimiento educativo. Los recursos necesarios comprenden el uso de Python y sus librerías especializadas en ciencia de datos, operando sobre repositorios de datos abiertos gubernamentales. Se espera que el proyecto entregue un dataset depurado y un prototipo funcional del modelo en formato de código. Los resultados deben permitir la jerarquización de variables predictoras, visibilizando cómo factores como la ubicación rural o la naturaleza jurídica impactan el desempeño.
dc.format	pdf
dc.title	Modelo predictivo del puntaje global Saber 11 a nivel de establecimientos educativos en Colombia
dc.type	Proyecto aplicado
dc.subject.keywords	Aprendizaje supervisado
dc.subject.keywords	Regresión
dc.subject.keywords	Equidad educativa
dc.subject.keywords	Saber 11
dc.description.abstractenglish	This proposal, titled “Predictive Modeling of Saber 11 Global Scores at the School Level in Colombia,” aims to develop a supervised learning model to estimate the average institutional performance in the Saber 11 standardized examination. The study addresses a critical issue of educational inequality, reflected in persistent performance gaps between urban and rural contexts. Currently, educational institutions lack analytical tools to anticipate these outcomes, resulting in predominantly reactive, post-assessment decision-making processes. This project seeks to transform publicly available microdata into actionable insights that support timely and targeted educational interventions. The main objective is to design a decision-support tool with an equity-oriented perspective, capable of predicting institutional performance based on contextual and socioeconomic variables. Specific objectives include constructing an integrated and anonymized dataset, implementing and comparing two regression approaches (a linear model and an ensemble-based model), and evaluating their performance using metrics such as Root Mean Squared Error (RMSE) and Mean Absolute Error (MAE). This technical approach is intended to identify key institutional factors that enable accurate prediction within an acceptable margin of error. The theoretical framework combines perspectives from the economics of education—particularly the Educational Production Function—and Educational Data Mining (EDM). Academic performance is conceptualized not as a random outcome, but as the result of interacting family, school, and contextual inputs. Methodologically, regularization techniques such as Ridge and Lasso are considered to address multicollinearity among predictors, while ensemble methods such as Random Forest and Gradient Boosting are proposed to capture nonlinear relationships and improve predictive accuracy. The study follows the CRISP-DM methodology, ensuring a structured and iterative analytical process. This framework includes six phases: business understanding, data understanding, data preparation, modeling, evaluation, and deployment. Data preparation is a critical stage, involving the transformation of individual-level microdata into aggregated institutional indicators. The project relies on Python and specialized data science libraries, leveraging open government data sources. Expected outcomes include a refined dataset and a functional prototype of the predictive model. The results are intended to enable the prioritization of predictive variables, providing insight into how factors such as rural location or institutional characteristics influence academic performance.
dc.subject.category	Ciencia de Datos