Análisis de resultados globales de las pruebas Saber 11 de 2015 a 2019

Arteaga Ceballos, Claudia Milena

dc.contributor.advisor	Mejía Manzano, Julio Eduardo
dc.coverage.spatial	cead_-_josé_celestino_mutis
dc.creator	Arteaga Ceballos, Claudia Milena
dc.date.accessioned	2025-06-24T23:36:43Z
dc.date.available	2025-06-24T23:36:43Z
dc.date.created	2025-06-11
dc.identifier.uri	https://repository.unad.edu.co/handle/10596/70320
dc.description.abstract	Las bases de datos públicas compartidas en la plataforma “Datos Abiertos” dan la posibilidad de realizar ejercicios académicos con información real. En el ámbito académico, el acceso a este tipo de información fomenta el desarrollo de proyectos que buscan generar conocimiento a partir del análisis de datos reales, contribuyendo a la toma de decisiones basadas en evidencia. Al explorar las bases de datos académicas disponibles en la biblioteca de la universidad, encuentro que la revisión de los resultados de las pruebas Saber 11 se ha abordado desde muchas perspectivas, analizando aspectos como el desempeño académico, las condiciones socioeconómicas, la infraestructura educativa y otros elementos clave. El presente estudio se centra en el análisis de estos resultados con un enfoque basado en técnicas de ciencia de datos. El conjunto de datos utilizado en este proyecto contiene múltiples variables demográficas, académicas y socioeconómicas. Estas variables permiten formular diversas preguntas de investigación, explorando la relación entre factores como el nivel educativo de los padres, el estrato socioeconómico, el tipo de colegio (público o privado), la ubicación geográfica y los puntajes obtenidos en las pruebas. Para ello, se trabajará con el set de datos de resultados únicos para las pruebas Saber 11 de los años 2010 al 2022. Sin embargo, el análisis se acotará a los años 2015 a 2019, 5 años en total (se excluyen los años 2020 en adelante para evitar variaciones por los efectos que pudo tener la pandemia en el desempeño de los estudiantes). La base de datos tiene 51 variables y, para el período de estudio (resultados 2015 a 2019) hay alrededor de 2.2 millones de registros. El proyecto abarcó diversas técnicas de ciencia de datos, incluyendo exploración y análisis de datos, limpieza y estandarización, análisis de correlaciones, y generación y evaluación de modelos predictivos. Entre los modelos a utilizar, se consideran regresión lineal simple y algoritmos de clasificación, lo que permitirá identificar patrones y relaciones significativas entre las variables. Finalmente, se presentarán conclusiones y hallazgos relevantes sobre los factores que influyen en los puntajes de las pruebas Saber 11, contribuyendo al entendimiento del desempeño académico en Colombia.
dc.format	pdf
dc.title	Análisis de resultados globales de las pruebas Saber 11 de 2015 a 2019
dc.type	Proyecto aplicado
dc.subject.keywords	Educación secundaria
dc.subject.keywords	Pruebas Saber 11
dc.subject.keywords	ICFES
dc.subject.keywords	Ciencia de Datos
dc.subject.keywords	Aprendizaje Automático
dc.description.abstractenglish	Public databases shared on the “Datos Abiertos” platform enable academic exercises with real-world information. Access to such data fosters research projects that generate knowledge through data analysis, supporting evidence-based decision-making. A review of academic databases available at the university library reveals that Saber 11 test results have been analyzed from various perspectives, including academic performance, socioeconomic conditions, and educational infrastructure. This study focuses on analyzing these results using data science techniques. The dataset used contains multiple demographic, academic, and socioeconomic variables, allowing for the exploration of relationships between parental education, socioeconomic status, school type (public or private), geographic location, and test scores. The study uses unique test result data from 2010 to 2022, but focuses on the 2015–2019 period to avoid distortions caused by the COVID-19 pandemic. The database includes 51 variables and approximately 2.9 million records for the selected period. The project applies various data science techniques, including data exploration, cleaning, standardization, correlation analysis, and predictive modeling. Methods such as simple linear regression and classification algorithms will be employed to identify patterns and significant relationships among variables. The study aims to provide insights into the factors influencing Saber 11 test scores, contributing to the understanding of academic performance in Colombia.
dc.subject.category	Ciencia de Datos
dc.subject.category	Aprendizaje Automático
dc.subject.category	Educación secundaria
dc.subject.category	Pruebas Saber 11
dc.subject.category	ICFES