Show simple item record

dc.contributor.advisorNoguera Torres, Adriana del Pilar
dc.coverage.spatialcead_-_josé_celestino_mutis
dc.creatorMogollón Benavides, Andrés Leonardo
dc.date.accessioned2026-02-17T19:52:27Z
dc.date.available2026-02-17T19:52:27Z
dc.date.created2026-02-17
dc.identifier.urihttps://repository.unad.edu.co/handle/10596/78854
dc.description.abstractLa limitada disponibilidad de corpus de Preguntas y Respuestas (QA) validado en español para salud materna son un obstáculo para el desarrollo de sistemas de apoyo a decisiones clínicas. Este trabajo, dentro del Macroproyecto Minciencias 82244, construyó un corpus QA derivado de literatura biomédica de PubMed para entrenar modelos de Procesamiento de Lenguaje Natural (PLN) en entornos de telemedicina. Se implementó un pipeline que combinó extracción de artículos XML-JATS, segmentación semántica y vectorización con MiniLM-L12-v2. Los fragmentos obtenidos se indexaron en una base de datos vectorial (Chroma DB), garantizando la trazabilidad entre cada respuesta y su evidencia primaria. A partir de este proceso, se generaron 100 pares QA iniciales, los cuales se evaluaron mediante similitud coseno, obteniendo una media de 0.794 (IC 95%: [0.778, 0.811]) y 84% de pares clasificados como "Excelente" o "Bueno", constituyendo un recurso reproducible para sistemas RAG aplicados a seguimiento materno con recomendaciones basadas en evidencia.
dc.formatpdf
dc.titleDesarrollo de un agente inteligente para recomendaciones médicas en embarazos mediante minería de texto y guías clínicas
dc.typeProyecto aplicado
dc.subject.keywordsMinería de Texto
dc.subject.keywordsModelos Lingüísticos
dc.subject.keywordsSalud Materna
dc.subject.keywordsInformación Biomédica
dc.subject.keywordsTelemedicina
dc.description.abstractenglishThe limited availability of validated Spanish-language Question-Answer (QA) corpora for maternal health represents an obstacle to the development of clinical decision-support systems. This work, conducted within the Minciencias Macroproject 82244, constructed a QA corpus derived from biomedical literature in PubMed to train Natural Language Processing (NLP) models in telemedicine environments. A pipeline was implemented that combined XML-JATS article extraction, semantic segmentation, and vectorization using MiniLM-L12-v2. The resulting text fragments were indexed in a vector database (ChromaDB), ensuring traceability between each answer and its primary evidence source. One hundred QA pairs were generated and evaluated using cosine similarity, obtaining a mean of 0.794 (95% CI: [0.778, 0.811]) with 84% of pairs classified as "Excellent" or "Good," constituting a reproducible resource for Retrieval-Augmented Generation (RAG) systems applied to maternal monitoring with evidence-based recommendations.
dc.subject.categoryIngeniería Electrónica
dc.subject.categoryCiencia de Datos
dc.subject.categoryInteligencia Artificial
dc.subject.categoryIngeniería de Datos
dc.subject.categoryArquitectura de Bases de Datos no Relacionales
dc.subject.categoryRecuperación de Informaicón
dc.subject.categoryIngeniería de Software
dc.subject.categoryCiencia Abierta


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record