Noticias
Servicios

Tesis: "Método para la construcción de grafos de conocimiento a partir de documentos de texto en español"

2019-08-19

El día 16 de Agosto de 2019, la alumna Andrea Gidalti García Pérez presentó su examen profesional de Maestría en Ciencias e Ingeniería de Datos (MCID). Su comité de tesis estuvo conformado por la Dra. Ana Bertha Ríos Alvarado (Directora) y sus asesores, el Dr. Edgar Tello Leal y la M.I. Tania Yukary Guerrero Meléndez. Cabe destacar que dentro de las actividades llevadas a cabo por la alumna Andrea Gidalti en el programa de la MCID realizó una estancia de investigación en la Universidad de Medellín, Colombia. Adicionalmente, es de resaltar que la alumna fue la primer egresada de la MCID.

Resumen:

En la actualidad, el volumen de información en la Web crece de forma constante, tanto las organizaciones públicas o privadas, como las personas, requieren almacenar, compartir, recuperar y reutilizar recursos de información de manera eficiente. En particular, para acceder a la información que se encuentra en la Web son necesarios modelos de representación de esta, sin embargo, muchos de los métodos utilizados para generar dichas representaciones utilizan técnicas o herramientas que en algunos casos provocan pérdida de semántica. Por lo anterior, se ha impulsado el uso de tecnologías de la Web Semántica que permitan generar representaciones del conocimiento en las que se involucren técnicas de desambiguación, la reutilización de recursos a través del enlazado de entidades y la asociación a repositorios de datos enlazados, como es el caso de los grafos de conocimiento. En esta tesis se presenta una metodología para generar grafos de conocimiento, en la cual se integran diversas herramientas para el reconocimiento de entidades y de relaciones semánticas en español, un idioma que representa un gran reto debido a que ha sido poco explorado y también a la diversidad léxica de este lenguaje. Las técnicas y herramientas utilizadas permiten obtener un grafo de conocimiento enriquecido construido por la información obtenida de recursos textuales mediante patrones léxicos y reconocimiento de entidades, así como por información descrita en DBpedia utilizando un módulo de asociación. Los grafos de conocimiento generados son evaluados por la calidad de sus relaciones, respecto a precisión, cobertura y medida F. Además, se han utilizado validadores del esquema y herramientas de software especializado para determinar que han sido correctamente formados según los requerimientos de la Web Semántica y del W3C. Se ha podido observar que la metodología propuesta permite obtener resultados en la identificación de entidades, propiedades y enlazado a recursos en la Web con una precisión aproximada del 50% y una cobertura del 60% lo que coloca a nuestra propuesta como una opción competente respecto a lo que se ha reportado en trabajos relacionados.

Regresar