Mostrar el registro sencillo del objeto digital
dc.contributor | Ledeneva, Yulia | |
dc.contributor.author | Vilchis Sepúlveda, Selene Arai | |
dc.date.accessioned | 2022-02-26T02:39:31Z | |
dc.date.available | 2022-02-26T02:39:31Z | |
dc.date.issued | 2022-01-31 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11799/112750 | |
dc.description.abstract | El crecimiento exponencial de internet ha provocado un bombardeo de información que se produce día a día aumentando de manera exponencial. La información masiva se ha vuelto un problema de sobrecarga de información al momento de realizar una búsqueda de información específica, lo cual ha provocado que las ciencias computacionales se vean involucradas en la búsqueda de una solución. La Generación Automática de Resúmenes de Texto (GART) es una tarea del Procesamiento del Lenguaje Natural (PLN) que busca contrarrestar los efectos negativos de la sobrecarga de información. Actualmente existen diferentes métodos del estado del arte para la GART basados en una arquitectura de tres etapas: 1. Identificación de Tópicos. 2. Transformación o interpretación. 3. Síntesis o generación del resumen. Entre los métodos del estado del arte se encontró un método que a diferencia de los otros propone una cuarta etapa. La cuarta etapa busca darle un valor a cada término de las oraciones. El método propuesto por (Ledeneva y García-Hernández, 2017) demostró dar buenos resultados para la tarea Generación Automática de Resúmenes de Texto de Un solo documento (GART-1). Con referencia a los resultados obtenidos del método de (Ledeneva y García-Hernández, 2017) en este trabajo se propone ajustar los parámetros en las diferentes etapas y adaptar el método para la tarea de Generación Automática de Resúmenes de Texto de Múltiples documentos (GART-M). En el método propuesto se optó por la extracción de las Secuencias Frecuentes Maximales (SFM’s) para ser empleadas como modelo de texto y la utilización de un método basado en grafos para realizar el pesado de las oraciones. El corpus empleado fue DUC-02, el cual está conformado por 59 colecciones de documentos de noticias. La evaluación de los resúmenes se hizo con el sistema ROUGE-N, el cual permite comprar los resúmenes generados a partir del método con los resúmenes generados por un humano. Los resultados obtenidos de los experimentos realizados se dividieron en tres etapas. En la primera etapa se buscó la mejor configuración del método. En la segunda etapa se buscó probar la importancia de la longitud de las SFM’s. En la tercera etapa de busco emplear una nueva configuración para la selección de oraciones. Los resultados obtenidos por el método propuesto se compararon con otros métodos del estado del arte y las heurísticas. Los resultados obtenidos con el método propuesto logran superar las heurísticas y métodos del estado del arte. | es |
dc.language.iso | spa | es |
dc.publisher | Universidad Autónoma del Estado de México | es |
dc.rights | openAccess | es |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-sa/4.0 | es |
dc.subject | Generación automática de resúmenes | es |
dc.subject | Procesamiento de lenguaje natural | es |
dc.subject | Tratamiento automático de textos | es |
dc.subject.classification | INGENIERÍA Y TECNOLOGÍA | es |
dc.title | Generación automática de resúmenes de múltiples documentos utilizando secuencias frecuentes maximales y método de grafos | es |
dc.type | Tesis de Maestría | es |
dc.provenance | Científica | es |
dc.road | Verde | es |
dc.organismo | Unidad Académica Profesional Tianguistenco | es |
dc.ambito | Nacional | es |
dc.cve.CenCos | 31201 | es |
dc.cve.progEstudios | 6145 | es |
dc.modalidad | Tesis | es |