Desarrollo de un agente inteligente para recomendaciones médicas en embarazos mediante minería de texto y guías clínicas

Mogollón Benavides, Andrés Leonardo

dc.contributor.advisor	Noguera Torres, Adriana del Pilar
dc.coverage.spatial	cead_-_josé_celestino_mutis
dc.creator	Mogollón Benavides, Andrés Leonardo
dc.date.accessioned	2026-02-17T19:52:27Z
dc.date.available	2026-02-17T19:52:27Z
dc.date.created	2026-02-17
dc.identifier.uri	https://repository.unad.edu.co/handle/10596/78854
dc.description.abstract	La limitada disponibilidad de corpus de Preguntas y Respuestas (QA) validado en español para salud materna son un obstáculo para el desarrollo de sistemas de apoyo a decisiones clínicas. Este trabajo, dentro del Macroproyecto Minciencias 82244, construyó un corpus QA derivado de literatura biomédica de PubMed para entrenar modelos de Procesamiento de Lenguaje Natural (PLN) en entornos de telemedicina. Se implementó un pipeline que combinó extracción de artículos XML-JATS, segmentación semántica y vectorización con MiniLM-L12-v2. Los fragmentos obtenidos se indexaron en una base de datos vectorial (Chroma DB), garantizando la trazabilidad entre cada respuesta y su evidencia primaria. A partir de este proceso, se generaron 100 pares QA iniciales, los cuales se evaluaron mediante similitud coseno, obteniendo una media de 0.794 (IC 95%: [0.778, 0.811]) y 84% de pares clasificados como "Excelente" o "Bueno", constituyendo un recurso reproducible para sistemas RAG aplicados a seguimiento materno con recomendaciones basadas en evidencia.
dc.format	pdf
dc.title	Desarrollo de un agente inteligente para recomendaciones médicas en embarazos mediante minería de texto y guías clínicas
dc.type	Proyecto aplicado
dc.subject.keywords	Minería de Texto
dc.subject.keywords	Modelos Lingüísticos
dc.subject.keywords	Salud Materna
dc.subject.keywords	Información Biomédica
dc.subject.keywords	Telemedicina
dc.description.abstractenglish	The limited availability of validated Spanish-language Question-Answer (QA) corpora for maternal health represents an obstacle to the development of clinical decision-support systems. This work, conducted within the Minciencias Macroproject 82244, constructed a QA corpus derived from biomedical literature in PubMed to train Natural Language Processing (NLP) models in telemedicine environments. A pipeline was implemented that combined XML-JATS article extraction, semantic segmentation, and vectorization using MiniLM-L12-v2. The resulting text fragments were indexed in a vector database (ChromaDB), ensuring traceability between each answer and its primary evidence source. One hundred QA pairs were generated and evaluated using cosine similarity, obtaining a mean of 0.794 (95% CI: [0.778, 0.811]) with 84% of pairs classified as "Excellent" or "Good," constituting a reproducible resource for Retrieval-Augmented Generation (RAG) systems applied to maternal monitoring with evidence-based recommendations.
dc.subject.category	Ingeniería Electrónica
dc.subject.category	Ciencia de Datos
dc.subject.category	Inteligencia Artificial
dc.subject.category	Ingeniería de Datos
dc.subject.category	Arquitectura de Bases de Datos no Relacionales
dc.subject.category	Recuperación de Informaicón
dc.subject.category	Ingeniería de Software
dc.subject.category	Ciencia Abierta