Repositorio Bibliográfico Biocultural

Somos un mismo pueblo con culturas diversas

Aprendizaje supervisado de colocaciones para la resolución de la ambigüedad sintactica

Repositorios

enero 27, 2023 3 minutos de lectura

Náhuatl

Por favor, use este identificador para citar o enlazar este ítem:
http://repositoriodigital.ipn.mx/handle/123456789/6848

Título :	Aprendizaje supervisado de colocaciones para la resolución de la ambigüedad sintactica
Autor :	Gelbukh, Alexander Torres Ramos, Sulema
Palabras clave :	Natural language processing (Computer science)
Fecha de publicación :	2006
Editorial :	Instituto Politécnico Nacional – Centro de Investigación en Computación
Resumen :	Las colocaciones son pares de palabras de contenido que forman las relaciones sintácticas de dependencia razonables, directamente o a través de palabras funcionales. Tales pares tienden usarse en los textos más frecuentemente de lo esperado por casualidad. El texto en lenguaje natural consiste casi totalmente de tales colocaciones. La información de las palabras que forman colocaciones es útil en diferentes aplicaciones de procesamiento de lenguaje natural. Una de ellas es la resolución de la ambigüedad sintáctica, la cual es uno de los problemas más difíciles que se presentan actualmente en sistemas de procesamiento de lenguaje natural. El proceso de la resolución consiste en selección, de entre varias variantes generadas por la gramática, del árbol que tiene el mayor número de las aristas que correspondan a las colocaciones existentes en el lenguaje en cuestión, es decir, se encuentran en un diccionario de colocaciones para este lenguaje. Más aún, el análisis sintáctico puede ser dirigido casi exclusivamente por tal diccionario de colocaciones. El propósito de esta tesis consiste en la extracción automática (es decir, aprendizaje supervisado) de un diccionario estadístico grande de colocaciones a partir de un corpus de con las estructuras sintácticas marcadas manualmente (treebank). Ya que no existe tal corpus para el español con el etiquetado en el formalismo de dependencias, hemos desarrollado una metodología y algoritmo para la conversión de un corpus existente en el formalismo de constituyentes, Cast3LB, en la representación de dependencias. Las relaciones de dependencias encontradas en tal corpus, junto con sus frecuencias, constituyen nuestro diccionario de colocaciones. El corpus obtenido con árboles de dependencias, así como la metodología para la conversión de los corpus de constituyentes en los de dependencias, son una aportación adicional de esta tesis.
Descripción :	Maestría en Ciencias de la Computación
URI :	http://www.repositoriodigital.ipn.mx/handle/123456789/6848
Aparece en las colecciones:	Maestría

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
Tesis 10186.pdf		2.21 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem

Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.

Excepto si se señala otra cosa, la licencia del item se describe como Attribution-NonCommercial-NoDerivatives 4.0 International

Tags : El Instituto Politécnico Nacional

Más de este tema...

1 minuto de lectura Náhuatl

Los paisajes del agua de Tlatelolco / The wat

Los paisajes del agua de Tlatelolco / The water landsca...

1 minuto de lectura Náhuatl

To see with serpent and eagle eyes : traduç�

To see with serpent and eagle eyes : tradução e liter...

1 minuto de lectura Náhuatl

Una extraña variedad de barroco: la doble he

Una extraña variedad de barroco: la doble herencia ide...