Etiquetado gramatical

Share on facebook
Share on twitter
Share on linkedin

El etiquetado gramatical (part-of-speech tagging, POS tagging o POST) es el proceso que recibe como entrada texto en algún lenguaje y como salida regresa un conjunto de pares de la forma palabra-etiqueta gramatical, basado en su definición y su contexto, categorías gramaticales como sustantivo, verbo, adjetivo, etc. Las categorías gramaticales resultan de gran utilidad por la gran cantidad de información que dan acerca de una palabra y sus vecinos. Saber si una palabra es un sustantivo o un verbo nos dice mucho sobre las palabras junto a ellas y las formas de interpretarlas y sirve para encontrar entidades nombradas, es decir, nombres de ciudades, negocios, objetos, personas o cualquier otra cosa que pueda llevar un nombre, en textos y en otras tareas de extracción de información.

El etiquetado gramatical resulta difícil porque una misma palabra puede representar dos o más categorías diferentes. Si se tienen los siguientes dos ejemplos de oraciones: “Yo he hecho mis deberes” y “El más reciente hecho provocó los cambios”, se puede ver que la palabra “hecho” se refiere a dos categorías distintas en cada oración. Realizar correctamente el etiquetado implica marcar la palabra como un verbo en la primera oración y como sustantivo en la segunda. Adicionalmente, en la práctica se suelen usar muchas más categorías, esto para hacer referencia a propiedades de la palabra; en el primer ejemplo “hecho” sería “verbo en participio” y en el segundo “sustantivo masculino”. Una vez que se tienen las categorías gramaticales, se pueden tomar diferentes acciones para una misma palabra dependiendo de la categoría asignada.

En la siguiente imagen se muestra el proceso de etiquetado de la frase “Enfermo grave de rabia”.

El estado inicial indica que es ahí donde comenzará el proceso de etiquetado. Cada palabra en la frase puede clasificarse en 2 categorías diferentes. Al llegar al estado final, un etiquetado correcto habrá determinado que “enfermo” y “grave” son adjetivos y no formas conjugadas de los verbos “enfermar” y “gravar”, que “de” es una preposición y no el nombre de la letra D, y que “rabia” es un nombre y no viene del verbo “rabiar”. Después se puede continuar con algún otro proceso de procesamiento de lenguaje natural o simplemente regresar el resultado obtenido.

La investigación relacionada con el etiquetado gramatical está muy relacionada a la lingüística de corpus. Un corpus lingüístico es un conjunto estructurado de ejemplos de uso del idioma en cuestión que consiste en una recopilación de textos de materiales escritos y/o hablados que han sido agrupados de acuerdo a un conjunto de criterios mínimos para poder realizar ciertos análisis lingüísticos; generalmente es un conjunto relativamente grande que se toma de diferentes fuentes, ya sea escritas como fragmentos de libros, guiones de cine o teatro, o incluso sitios web, u orales, en forma de transcripciones. El primer corpus de palabras en inglés fue el Brown corpus desarrollado por W. Nelson Francis y Henry Kucera en la Universidad Brown en los años 60 y consiste en cerca de 1 millón de palabras de texto en prosa en inglés compuesto por 500 muestras de publicaciones elegidas al azar. Este corpus ha sido usado para innumerables estudios de frecuencia de palabras y etiquetado gramatical, y ha inspirado el desarrollo de corpus similares en otros lenguajes. Otro corpus interesante es el WSJ corpus, que contiene un millón de palabras publicadas en The Wall Street Journal en 1989. En español se tiene el Wikicorpus, tomado de porciones de Wikipedia, con más de 120 millones de palabras.

En los años ochenta, investigadores en Europa empezaron a usar modelos ocultos de Markovpara realizar desambiguación entre las categorías gramaticales para etiquetar el corpus Lancaster-Oslo-Bergen. Esto implica hacer una tabla de probabilidades de secuencias de palabras, por lo que una vez tomada una palabra categorizada como “artículo”, hay cierta probabilidad de que la siguiente sea “sustantivo”, otra de que sea “número”, otra de que sea “adverbio”, y así con cada categoría. De esta manera, se podría determinar que “hecho” en el primer ejemplo es efectivamente un verbo. Los modelos ocultos de markov más avanzados toman probabilidades de secuencias de palabras más largas, de manera que al recibir un adverbio “más” seguido de un adjetivo “reciente” se puede determinar que es más probable que “hecho” sea un sustantivo y no un verbo.

Otros métodos usados para el etiquetado gramatical son la programación dinámica, el algoritmo de ViterbiBrill tagger, entre otros. Más recientemente se han usado otros métodos de aprendizaje automático supervisado y no supervisado.

Los etiquetadores gramaticales se usan como preprocesador para alguna otra tarea de procesamiento de lenguaje natural (traductores automáticos, predicción de palabras en reconocimiento automático de voz, entre otras), o en proyectos de anotación de corpus que permiten crear recursos lingüísticos combinando el etiquetado automático y correcciones por parte de humanos.

Independientemente de su aplicación, al ser el POS tagging una de las tareas fundamentales del procesamiento del lenguaje natural, se requiere que el etiquetador gramatical usado tenga un alto grado de exactitud. La discusión sobre cómo solucionar el problema del etiquetado gramatical sigue abierta, por lo que la investigación continúa, usando métodos como los mencionados anteriormente y técnicas híbridas con aprendizaje profundo.

Referencias

Share on facebook
Share on twitter
Share on linkedin

No hay comentarios

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

¡Conozcámonos mejor!

Te haremos llegar las novedades de SoldAI, ofertas exclusivas, notificaciones, y mucho más.

¡Deja tu correo, tenemos mucho que contarte!