| dc.contributor.advisor | Noguera Torres, Adriana del Pilar | |
| dc.coverage.spatial | cead_-_josé_celestino_mutis | |
| dc.creator | Mogollón Benavides, Andrés Leonardo | |
| dc.date.accessioned | 2026-02-17T19:52:27Z | |
| dc.date.available | 2026-02-17T19:52:27Z | |
| dc.date.created | 2026-02-17 | |
| dc.identifier.uri | https://repository.unad.edu.co/handle/10596/78854 | |
| dc.description.abstract | La limitada disponibilidad de corpus de Preguntas y Respuestas (QA) validado en español para salud materna son un obstáculo para el desarrollo de sistemas de apoyo a decisiones clínicas. Este trabajo, dentro del Macroproyecto Minciencias 82244, construyó un corpus QA derivado de literatura biomédica de PubMed para entrenar modelos de Procesamiento de Lenguaje Natural (PLN) en entornos de telemedicina. Se implementó un pipeline que combinó extracción de artículos XML-JATS, segmentación semántica y vectorización con MiniLM-L12-v2. Los fragmentos obtenidos se indexaron en una base de datos vectorial (Chroma DB), garantizando la trazabilidad entre cada respuesta y su evidencia primaria. A partir de este proceso, se generaron 100 pares QA iniciales, los cuales se evaluaron mediante similitud coseno, obteniendo una media de 0.794 (IC 95%: [0.778, 0.811]) y 84% de pares clasificados como "Excelente" o "Bueno", constituyendo un recurso reproducible para sistemas RAG aplicados a seguimiento materno con recomendaciones basadas en evidencia. | |
| dc.format | pdf | |
| dc.title | Desarrollo de un agente inteligente para recomendaciones médicas en embarazos mediante minería de texto y guías clínicas | |
| dc.type | Proyecto aplicado | |
| dc.subject.keywords | Minería de Texto | |
| dc.subject.keywords | Modelos Lingüísticos | |
| dc.subject.keywords | Salud Materna | |
| dc.subject.keywords | Información Biomédica | |
| dc.subject.keywords | Telemedicina | |
| dc.description.abstractenglish | The limited availability of validated Spanish-language Question-Answer (QA) corpora for maternal health represents an obstacle to the development of clinical decision-support systems. This work, conducted within the Minciencias Macroproject 82244, constructed a QA corpus derived from biomedical literature in PubMed to train Natural Language Processing (NLP) models in telemedicine environments. A pipeline was implemented that combined XML-JATS article extraction, semantic segmentation, and vectorization using MiniLM-L12-v2. The resulting text fragments were indexed in a vector database (ChromaDB), ensuring traceability between each answer and its primary evidence source. One hundred QA pairs were generated and evaluated using cosine similarity, obtaining a mean of 0.794 (95% CI: [0.778, 0.811]) with 84% of pairs classified as "Excellent" or "Good," constituting a reproducible resource for Retrieval-Augmented Generation (RAG) systems applied to maternal monitoring with evidence-based recommendations. | |
| dc.subject.category | Ingeniería Electrónica | |
| dc.subject.category | Ciencia de Datos | |
| dc.subject.category | Inteligencia Artificial | |
| dc.subject.category | Ingeniería de Datos | |
| dc.subject.category | Arquitectura de Bases de Datos no Relacionales | |
| dc.subject.category | Recuperación de Informaicón | |
| dc.subject.category | Ingeniería de Software | |
| dc.subject.category | Ciencia Abierta | |