Reconocimiento de entidades nombradas: Una breve introducción

Share on facebook
Share on twitter
Share on linkedin
Robot-NER

Introducción

El reconocimiento de entidades nombradas (NER por sus siglas en inglés) o también conocido como extracción de entidades, consiste en localizar y clasificar partes del texto estudiado en categorías preestablecidas como lugares, personas, organizaciones, expresiones de tiempo y cantidades. Es reconocida como una de las principales tareas del procesamiento de lenguaje natural (NLP) y ha sido un área activa de investigación los pasados veinte años. Aunque con el paso de los años se ha obtenido un gran progreso en la detección de entidades nombradas, aún sigue siendo un problema de gran interés. 

Permite el reconocimiento de menciones de designadores rígidos del texto perteneciente a un tipo de semántica predefinida como personas, ubicaciones, organizaciones, etc. Un designador rígido se refiere a una expresión que (valga la redundancia) designa o refiere a una misma entidad en todos los mundos posibles en los que esa entidad existe. Por ejemplo, la compañía automotriz que fue creada por Henry Ford en el año 1903, está relacionado con los designadores Ford o Ford Motor Company. Un designador rígido, incluye nombres propios y términos de tipo natural como especies biológicas y sustancias. 

Por lo general, las investigaciones en NER se han realizado sobre texto sin anotaciones, por ejemplo: “Pedro compró 100 acciones de Radiomovil Dipsa en el 2002”.

Figura 1. Ejemplo del reconocimiento de entidades (personas, organizaciones, etc.).

El NER no solo actúa como una herramienta independiente para la extracción de información (IE), sino que también juega un papel esencial en una variedad de aplicaciones de procesamiento de lenguaje natural (NLP) como la recuperación de información, resumen automático de texto, respuesta a preguntas, traducción automática y construcción de bases de conocimiento.

Antecedentes

El término “entidad nombrada” fue usado por primera vez en la Message Understanding Conference (MUC-6), organizada por Grishman y Sundheim (1996), y se refirió a la tarea de identificar nombres de organizaciones, personas y ubicaciones geográficas en textos, así como expresiones monetarias de tiempo y porcentajes. Desde la conferencia MUC-6, el interés en NER fue incrementándose hasta hacerse presente en varios eventos científicos. 

Con respecto a la definición de entidades nombradas, G. Petasis la expresa como: “Una entidad nombrada es un nombre propio, sirviendo como un nombre para algo o alguien”, dicha definición se justifica debido al porcentaje tan significativo de nombres propios que encontramos en un corpus. Nadeau y Sekine afirman que la palabra “nombrada” restringe la tarea a sólo aquellas entidades para las cuales uno o muchos designadores rígidos, representan el referente. A pesar de las múltiples definiciones de las entidades nombradas, investigadores han logrado un acuerdo común de los tipos de entidades nombradas a reconocer. 

Enfoques NER

Generalmente las entidades nombradas se dividen en dos categorías: genéricas (personas, ubicaciones, etc.) y de dominio específico (proteínas, enzimas, genes, etc). Existen varias formas de abordar el problema para llevar a cabo una solución; siendo los cuatro principales enfoques aplicados en NER:

  • Basado en reglas. Estos sistemas NER se basan en reglas hechas a mano, es decir, las reglas pueden diseñarse utilizando diccionarios geográficos específicos de dominio y patrones sintáctico-léxicos. Un ejemplo es el enfoque de inferencia de reglas Brill para la entrada de voz. Este sistema genera reglas automáticamente basadas en el etiquetador de parte del discurso de Brill. En cuanto el dominio biomédico, se encuentra ProMiner, que aprovecha un diccionario de sinónimos preprocesado para identificar menciones de proteínas y genes potenciales en texto biomédico.

    Los sistemas basados en reglas funcionan muy bien cuando el lexicón es exhaustivo. Debido a reglas específicas de dominio y diccionarios incompletos, a menudo se observan alta precisión y baja recuperación de dichos sistemas, la transferencia de estos sistemas a otros dominios, no es posible.
  • Aprendizaje no supervisado. Un enfoque típico del aprendizaje no supervisado es el clustering. Dichos sistemas extraen entidades con nombre de los grupos en función de la similitud de contexto. La idea clave es que los recursos léxicos, los patrones léxicos y las estadísticas calculadas en un corpus grande, pueden usarse para inferir menciones de entidades nombradas.

    Como ejemplo de lo anterior, podemos encontrar sistemas no supervisados para la construcción de diccionarios geográficos y con esto la resolución a la ambigüedad de la entidad nombrada. El sistema anterior combina extracción de entidad y desambiguación basadas en heurísticas simples pero altamente efectivas.
  • Aprendizaje supervisado basado en características. Aplicando el aprendizaje supervisado, NER se convierte en una tarea de clasificación de múltiples clases o etiquetado de secuencias. Dadas muestras de datos anotados, las características están cuidadosamente diseñadas para representar cada ejemplo de entrenamiento. Los algoritmos de aprendizaje supervisado son usados para aprender un modelo de reconocimiento de patrones similares a partir de datos no vistos.

    La representación del vector de características es una abstracción sobre el texto donde una palabra está representada por uno o varios valores booleanos, numéricos o nominales. Basado en estas características, se han aplicado muchos algoritmos de aprendizaje supervisado en NER, incluidos modelos ocultos de Markov (HMM), árboles de decisión, modelos de máxima entropía, máquinas de vectores de soporte (SVM), y campos aleatorios condicionales (CRF).
  • Aprendizaje profundo. El aprendizaje profundo es un campo de aprendizaje automático que se compone de múltiples capas de procesamiento, para aprender representaciones de datos con múltiples niveles de abstracción. Las principales ventajas de aplicar técnicas de aprendizaje profundo a NER son:
  1. Se beneficia de la transformación no lineal, que genera asignaciones no lineales de entrada a salida. En comparación con los modelos lineales (Log-linear HMM y CRF de cadena lineal), los modelos de aprendizaje profundo pueden aprender características complejas e intrincadas de los datos a través de funciones de activación no lineal.
  2. El aprendizaje profundo ahorra un esfuerzo significativo en el diseño de funciones NER. Los enfoques tradicionales basados en características, requieren una considerable cantidad de habilidades de ingeniería y experiencia en el dominio. Los modelos de aprendizaje profundo, por otro lado, son efectivos para aprender automáticamente representaciones útiles y factores subyacentes a partir de datos sin procesar.
  3. En tercer lugar, los modelos NER neuronales profundos, se pueden entrenar en un paradigma de extremo a extremo, por descenso de gradiente. Esta propiedad nos permite diseñar sistemas NER más complejos.

Casos de uso, aplicación y problemas al hacer NER

Una lista breve de algunos escenarios y casos de uso para aplicar la tecnología de reconocimiento de entidades nombradas se presentarán a continuación:

  • Clasificación de contenido para los proveedores de noticias. Debido a las grandes cantidades de contenido en línea el uso de NER se vuelve importante para analizar el texto de los artículos y obtener las etiquetas más relevantes en cada uno de ellos, permitiendo la clasificación en jerarquías.
  • Algoritmos de búsqueda eficientes. Usar el reconocimiento de NER en artículos, facilitaría la extracción de entidades de mayor relevancia y clasificar cada artículo según la relevancia de dichas entidades para de esta forma incrementar el proceso de búsqueda de forma considerable.
  • Artículos científicos. Con la finalidad de organizar la gran cantidad de artículos científicos, es posible emplear NER para a partir del texto obtener entidades de interés como gen, proteína, medicamentos y nombres de enfermedades (referente a artículos médicos), para luego poder clasificarlos de acuerdo a su área de investigación.

Al momento de hacer el NER, nos podemos encontrar con diferentes tipos de problemas como:

  • Abreviaturas. Se omite alguna entidad al no ser reconocida por ejemplo Nueva York con N.Y.
  • Palabras compuestas. Al ser la composición de dos sustantivos suele causar conflicto al momento de llevar a cabo el reconocimiento.
  • Múltiples designadores para una entidad. Que una misma entidad pueda ser catalogada como persona, lugar u organización generando una ambigüedad.
  • Errores ortográficos. La mala redacción del texto son casos para la omisión de entidades. 

Conclusión

En este artículo se presentó una breve introducción y antecedentes de lo que es el Reconocimiento de Entidades Nombradas (NER), desde su concepción hasta la gran importancia que ha llegado a tener en las conferencias científicas y en la actualidad. Así como los principales enfoques usados para abordar esa problemática. Las siguientes publicaciones contendrán una serie de artículos donde se abordarán y explicarán cada uno de los enfoques presentados con mayor profundidad.

Share on facebook
Share on twitter
Share on linkedin

No hay comentarios

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

¡Conozcámonos mejor!

Te haremos llegar las novedades de SoldAI, ofertas exclusivas, notificaciones, y mucho más.

¡Deja tu correo, tenemos mucho que contarte!