Modelo predictivo del puntaje global Saber 11 a nivel de establecimientos educativos en Colombia

Garavito Villamil, Erick Santiago; Achipíz Velasco, Francisco Javier

QRCode

View/Open

esgaravitov.pdf (6.037Mb)

Date

2026-06-10

Author

Garavito Villamil, Erick Santiago

Achipíz Velasco, Francisco Javier

Advisor

Ospino Portillo, Jorge Eliecer

TY - GEN T1 - Modelo predictivo del puntaje global Saber 11 a nivel de establecimientos educativos en Colombia AU - Garavito Villamil, Erick Santiago AU - Achipíz Velasco, Francisco Javier Y1 - 2026-06-10 UR - https://repository.unad.edu.co/handle/10596/82612 AB - Esta propuesta titulada “Modelo predictivo del puntaje global Saber 11 a nivel de establecimientos educativos en Colombia” busca desarrollar un modelo de aprendizaje supervisado para predecir el puntaje global promedio de la prueba Saber 11 a nivel de establecimiento educativo en Colombia. El problema central es la profunda brecha de equidad educativa, evidenciada en la diferencia de rendimiento entre zonas urbanas y rurales. Actualmente, las instituciones carecen de herramientas analíticas para anticipar estos resultados, lo que limita la toma de decisiones a una gestión reactiva post-evaluación. El proyecto pretende transformar los microdatos abiertos del ICFES en inteligencia accionable para permitir intervenciones pedagógicas tempranas y focalizadas. El objetivo general es crear una herramienta de apoyo a la toma de decisiones con enfoque en equidad, capaz de estimar el desempeño institucional a partir de variables contextuales y socioeconómicas. Los objetivos específicos incluyen la estructuración de un conjunto de datos integrado y anonimizado, la implementación de dos modelos de regresión (uno lineal y otro de ensamble) y la comparación de su precisión mediante métricas como el error cuadrático medio (RMSE) y el error absoluto medio (MAE). Este enfoque técnico busca identificar los factores institucionales que permiten predecir el puntaje con un margen de error aceptable. El sustento teórico integra la economía de la educación, mediante la Función de Producción Educativa, y la Minería de Datos Educativa (EDM). Se plantea que el rendimiento no es aleatorio, sino el producto de insumos familiares, escolares y contextuales. Para el modelado, se fundamentan técnicas de regularización como Ridge y Lasso para mitigar la multicolinealidad de variables como el estrato y el nivel educativo de los padres. Asimismo, se proponen algoritmos de ensamble como Random Forest y Gradient Boosting para capturar interacciones no lineales y reducir el sesgo en las predicciones. La metodología adoptada es el estándar industrial CRISP-DM, la cual garantiza un proceso cíclico y robusto. Esta se divide en seis fases: comprensión del problema, comprensión de los datos (ICFES), preparación de los datos (ingeniería de características y agregación a nivel de colegio), modelado, evaluación y despliegue. La fase de preparación es crítica, pues requiere transformar microdatos individuales en promedios y distribuciones por establecimiento educativo. Los recursos necesarios comprenden el uso de Python y sus librerías especializadas en ciencia de datos, operando sobre repositorios de datos abiertos gubernamentales. Se espera que el proyecto entregue un dataset depurado y un prototipo funcional del modelo en formato de código. Los resultados deben permitir la jerarquización de variables predictoras, visibilizando cómo factores como la ubicación rural o la naturaleza jurídica impactan el desempeño. ER - @misc{10596_82612, author = {Garavito Villamil Erick Santiago and Achipíz Velasco Francisco Javier}, title = {Modelo predictivo del puntaje global Saber 11 a nivel de establecimientos educativos en Colombia}, year = {2026-06-10}, abstract = {Esta propuesta titulada “Modelo predictivo del puntaje global Saber 11 a nivel de establecimientos educativos en Colombia” busca desarrollar un modelo de aprendizaje supervisado para predecir el puntaje global promedio de la prueba Saber 11 a nivel de establecimiento educativo en Colombia. El problema central es la profunda brecha de equidad educativa, evidenciada en la diferencia de rendimiento entre zonas urbanas y rurales. Actualmente, las instituciones carecen de herramientas analíticas para anticipar estos resultados, lo que limita la toma de decisiones a una gestión reactiva post-evaluación. El proyecto pretende transformar los microdatos abiertos del ICFES en inteligencia accionable para permitir intervenciones pedagógicas tempranas y focalizadas. El objetivo general es crear una herramienta de apoyo a la toma de decisiones con enfoque en equidad, capaz de estimar el desempeño institucional a partir de variables contextuales y socioeconómicas. Los objetivos específicos incluyen la estructuración de un conjunto de datos integrado y anonimizado, la implementación de dos modelos de regresión (uno lineal y otro de ensamble) y la comparación de su precisión mediante métricas como el error cuadrático medio (RMSE) y el error absoluto medio (MAE). Este enfoque técnico busca identificar los factores institucionales que permiten predecir el puntaje con un margen de error aceptable. El sustento teórico integra la economía de la educación, mediante la Función de Producción Educativa, y la Minería de Datos Educativa (EDM). Se plantea que el rendimiento no es aleatorio, sino el producto de insumos familiares, escolares y contextuales. Para el modelado, se fundamentan técnicas de regularización como Ridge y Lasso para mitigar la multicolinealidad de variables como el estrato y el nivel educativo de los padres. Asimismo, se proponen algoritmos de ensamble como Random Forest y Gradient Boosting para capturar interacciones no lineales y reducir el sesgo en las predicciones. La metodología adoptada es el estándar industrial CRISP-DM, la cual garantiza un proceso cíclico y robusto. Esta se divide en seis fases: comprensión del problema, comprensión de los datos (ICFES), preparación de los datos (ingeniería de características y agregación a nivel de colegio), modelado, evaluación y despliegue. La fase de preparación es crítica, pues requiere transformar microdatos individuales en promedios y distribuciones por establecimiento educativo. Los recursos necesarios comprenden el uso de Python y sus librerías especializadas en ciencia de datos, operando sobre repositorios de datos abiertos gubernamentales. Se espera que el proyecto entregue un dataset depurado y un prototipo funcional del modelo en formato de código. Los resultados deben permitir la jerarquización de variables predictoras, visibilizando cómo factores como la ubicación rural o la naturaleza jurídica impactan el desempeño.}, url = {https://repository.unad.edu.co/handle/10596/82612} }RT Generic T1 Modelo predictivo del puntaje global Saber 11 a nivel de establecimientos educativos en Colombia A1 Garavito Villamil, Erick Santiago A1 Achipíz Velasco, Francisco Javier YR 2026-06-10 LK https://repository.unad.edu.co/handle/10596/82612 AB Esta propuesta titulada “Modelo predictivo del puntaje global Saber 11 a nivel de establecimientos educativos en Colombia” busca desarrollar un modelo de aprendizaje supervisado para predecir el puntaje global promedio de la prueba Saber 11 a nivel de establecimiento educativo en Colombia. El problema central es la profunda brecha de equidad educativa, evidenciada en la diferencia de rendimiento entre zonas urbanas y rurales. Actualmente, las instituciones carecen de herramientas analíticas para anticipar estos resultados, lo que limita la toma de decisiones a una gestión reactiva post-evaluación. El proyecto pretende transformar los microdatos abiertos del ICFES en inteligencia accionable para permitir intervenciones pedagógicas tempranas y focalizadas. El objetivo general es crear una herramienta de apoyo a la toma de decisiones con enfoque en equidad, capaz de estimar el desempeño institucional a partir de variables contextuales y socioeconómicas. Los objetivos específicos incluyen la estructuración de un conjunto de datos integrado y anonimizado, la implementación de dos modelos de regresión (uno lineal y otro de ensamble) y la comparación de su precisión mediante métricas como el error cuadrático medio (RMSE) y el error absoluto medio (MAE). Este enfoque técnico busca identificar los factores institucionales que permiten predecir el puntaje con un margen de error aceptable. El sustento teórico integra la economía de la educación, mediante la Función de Producción Educativa, y la Minería de Datos Educativa (EDM). Se plantea que el rendimiento no es aleatorio, sino el producto de insumos familiares, escolares y contextuales. Para el modelado, se fundamentan técnicas de regularización como Ridge y Lasso para mitigar la multicolinealidad de variables como el estrato y el nivel educativo de los padres. Asimismo, se proponen algoritmos de ensamble como Random Forest y Gradient Boosting para capturar interacciones no lineales y reducir el sesgo en las predicciones. La metodología adoptada es el estándar industrial CRISP-DM, la cual garantiza un proceso cíclico y robusto. Esta se divide en seis fases: comprensión del problema, comprensión de los datos (ICFES), preparación de los datos (ingeniería de características y agregación a nivel de colegio), modelado, evaluación y despliegue. La fase de preparación es crítica, pues requiere transformar microdatos individuales en promedios y distribuciones por establecimiento educativo. Los recursos necesarios comprenden el uso de Python y sus librerías especializadas en ciencia de datos, operando sobre repositorios de datos abiertos gubernamentales. Se espera que el proyecto entregue un dataset depurado y un prototipo funcional del modelo en formato de código. Los resultados deben permitir la jerarquización de variables predictoras, visibilizando cómo factores como la ubicación rural o la naturaleza jurídica impactan el desempeño. OL Spanish (121)

Bibliographic managers

Refworks

Zotero / EndNote / Mendeley

BibTeX

CiteULike

Keywords

Aprendizaje supervisado

Regresión

Equidad educativa

Saber 11

Regional / Country coverage

cead_-_josé_acevedo_y_gómez

Metadata

Show full item record

PDF Document

Description of the content

Esta propuesta titulada “Modelo predictivo del puntaje global Saber 11 a nivel de establecimientos educativos en Colombia” busca desarrollar un modelo de aprendizaje supervisado para predecir el puntaje global promedio de la prueba Saber 11 a nivel de establecimiento educativo en Colombia. El problema central es la profunda brecha de equidad educativa, evidenciada en la diferencia de rendimiento entre zonas urbanas y rurales. Actualmente, las instituciones carecen de herramientas analíticas para anticipar estos resultados, lo que limita la toma de decisiones a una gestión reactiva post-evaluación. El proyecto pretende transformar los microdatos abiertos del ICFES en inteligencia accionable para permitir intervenciones pedagógicas tempranas y focalizadas. El objetivo general es crear una herramienta de apoyo a la toma de decisiones con enfoque en equidad, capaz de estimar el desempeño institucional a partir de variables contextuales y socioeconómicas. Los objetivos específicos incluyen la estructuración de un conjunto de datos integrado y anonimizado, la implementación de dos modelos de regresión (uno lineal y otro de ensamble) y la comparación de su precisión mediante métricas como el error cuadrático medio (RMSE) y el error absoluto medio (MAE). Este enfoque técnico busca identificar los factores institucionales que permiten predecir el puntaje con un margen de error aceptable. El sustento teórico integra la economía de la educación, mediante la Función de Producción Educativa, y la Minería de Datos Educativa (EDM). Se plantea que el rendimiento no es aleatorio, sino el producto de insumos familiares, escolares y contextuales. Para el modelado, se fundamentan técnicas de regularización como Ridge y Lasso para mitigar la multicolinealidad de variables como el estrato y ...