Inspiración Biológica de las Redes Neuronales Convolucionales

Share on facebook
Share on twitter
Share on linkedin

De la vista nace el aprendizaje

El cerebro es el órgano más increíble de nuestro cuerpo, pues nos indica la manera en la que percibimos cada sonido, sensación, imagen, olor o sabor. Además cuenta con la capacidad de aprender a resolver problemas conforme vamos creciendo. Desde pequeños, experimentamos el mundo a través de nuestros sentidos, sin embargo, la vista juega un papel muy importante en el proceso del aprendizaje, dado que las imágenes son el mecanismo más eficiente y completo para transmitir información sobre un estímulo determinado. 

La visión humana es increíblemente avanzada, en tan solo fracciones de segundo podemos identificar diferentes objetos, distinguir contornos y separar objetos de estos, determinar dimensiones, texturas, colores, líneas, así como reconocer animales, plantas, personas y los diferentes objetos que observamos a nuestro alrededor. De alguna manera, nuestros ojos toman la información de los colores que percibimos y se manda a nuestra corteza visual, donde la información percibida se transforma en características primitivas como líneas, curvas o formas que nos permiten identificar los diferentes objetos que vemos en el entorno. Pero, ¿cómo funciona la vista y qué relación tiene con las redes neuronales artificiales? 

La Corteza Visual y las Redes Neuronales Artificiales 

La manera en que funciona nuestro cerebro ha impulsado, por décadas, que los científicos intenten construir máquinas inteligentes con cerebros como el nuestro; de hecho, actualmente hay una fuerte colaboración entre las neurociencias y las ciencias computacionales que nos han brindado interesantes algoritmos de aprendizaje automático, como las Redes Neuronales Artificiales (ANN, por sus siglas en inglés). 

Así como las ANN tienen una fuerte inspiración en biología del cerebro, existe un tipo de redes neuronales que se inspiran en la corteza visual y que se han utilizado y especializado para extraer características de imágenes digitales, las cuales son denominadas como Redes Neuronales Convolucionales (CNN, por sus siglas en inglés). 

A mediados del siglo XX, Hubel y Wiesel, descubrieron dos de las mayores células en la corteza visual primaria de gatos, el primer tipo consiste en células simples que son capaces de detectar líneas oscuras o claras en posiciones específicas, cada una de estas células tiene una orientación de barras preferidas a la cual responden mejor, sin embargo, esta respuesta disminuye cuando la barra en esa posición es diferente a la orientación preferida de la célula. Por otro lado, las células complejas no tienen patrones de preferencia, sino que reciben la información de las células simples, pero dando preferencia a las células que fueron fuertemente activadas. 

Figura. Representación gráfica de la relación entre los estímulos lineales, las células simples y las células complejas. 

Posteriormente, Hubel y Wiesel continuaron sus experimentos en macacos, y encontraron estructuras similares de células simples y complejas que se repiten en cascada, las cuales llamaron células hipercomplejas (de orden bajo para las células simples y de orden alto para las más complejas); estas células responden mejor a formas geométricas simples como círculos, triángulos y cuadrados. Adicionalmente, los autores suponen que después de las células hipercomplejas existen otro conjunto de células que responden a estímulos visuales más complejos, a estas células se les denominaron grandmother cells (células abuela).  

Figura. Diagrama de la relación entre las células simples, complejas, hipercomplejas y abuela. (Fukushima, 1980) 

Estos descubrimientos ayudaron a entender los estados de la visión, los cuales fueron descritos por el neurocientífico David Marr en la década de los 70s.  Marr describe la visión como el proceso de convertir una imagen visual en 2 dimensiones a una representación espacial del entorno en 3 dimensiones. Los estados de la visión consisten en: 

  • Entrada. Este paso ocurre en la retina, aquí las células fotorreceptoras (conos y bastones) capturan la luz visible reflectada en los objetos. Por la distribución de las células en la retina, lo que se percibe equivale a ser representada como una imagen de dos dimensiones.  
  • Primal Skech. En este punto, las células extraen información primaria de la imagen de entrada como bordes, líneas y curvas.   
  • 2 ½ Skech. A continuación, se empiezan a definir las texturas del entorno, las luces y sombras nos ayudan a distinguir los objetos del entorno y su orientación.  
  • 3D Model. Finalmente, el proceso de la visión termina con una representación tridimensional de la escena gracias a la representación volumétrica primaria de los objetos.  

La comprensión del proceso de la visión jugó un papel muy importante para sentar las bases de lo que en el futuro se convertiría en las Redes Neuronales Convolucionales, pues 1980 Kunihiko Fukushima afirma en su trabajo Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position:  

Si podemos construir un modelo de red neuronal que tenga la misma habilidad de reconocimiento de patrones que la visión humana, podríamos tener una poderosa pista del mecanismo neuronal en nuestro cerebro.  

Además, en el mismo trabajo, Fukushima propone un modelo de red neuronal basado directamente del trabajo de Hubel y Wiesel, el cuál nombró como neocognitron. Este modelo de red neuronal artificial surge como propuesta para la clasificación de números escritos a mano, con la novedad de que pueda identificar los números sin importar su ubicación en la imagen de entrada.  

Figura. Representación de la función de las células simples (Usi)  y las células complejas (Uci)  

El neocognitron al igual que el modelo de Hubel y Wiesel consiste de 7 capas: 

  1. US0: La capa de entrada recibe la imagen binaria del número a clasificar. Esta capa se inspira directamente en los conos y bastones que hay en la retina del ojo. 
  2. US1: Primera capa simple, consiste detectar líneas con diferentes orientaciones. 
  3. UC1: Primera capa compleja, las líneas detectadas en la capa anterior pasan a esta capa, formando patrones más complejos. 
  4. US2: En la segunda capa simples van detectando patrones más complejos. 
  5. UC2: La segunda compleja, los patrones encontrados en la capa anterior se agrupan, la figura empieza a tener una representación. 
  6. US3: En esta capa los patrones se detectan los patrones complejos formados en la capa anterior. 
  7. UC3: Finalmente, en la última capa las estructuras complejas detectadas en la capa anterior se unen y forman una representación de la entrada US0. 
Figura. Modelo de Red Neuronal Artificial propuesta por Fukushima. Se puede apreciar como se componen las características complejas en células más complejas con la información de las células simples hasta llegar a células especializadas en el reconocimiento de objetos. 

Es hasta 1998 cuando se publica gradient based learning applied to document recognition por LeCun y su equipo, donde se propone un modelo de red neuronal basado en el operador matemático de la convolución. Esto debido al uso de las convoluciones en el procesamiento digital de imágenes para resaltar o eliminar información contenida en la imagen por medio de la aplicación de filtros, estos filtros pueden usarse para detección de bordes, suavizado o eliminación de ruido en las imágenes digitales, por mencionar algunas características. La idea principal de las CNN es que la red aprenda a determinar los filtros correctos para la resolución del problema al que se enfrentan. 

Al igual que el neocognitron, las CNN están inspiradas en el trabajo de Hubel y Wiesel, pues las capas convolucionales que utiliza este modelo, simulan las células simples que determinan los patrones, y la capa de submuestreo, se compara a las células complejas, pues agrupan los patrones encontrados antes de pasarlos a la siguiente capa de convolución. 

Figura. Relación entre las Redes Neuronales Convolucionales con el modelo biológico de Hubel y Wiesel. 

De hecho, es posible que en las primeras capas convolucionales obtengamos filtros para obtener características simples de las imágenes, y estos patrones se vayan volviendo más complejos en capas posteriores. 

Figura. Representación de diferentes características obtenidas con los filtros entrenados. Fuente:introtodeeplearning.com

Hoy en día es posible encontrar trabajos que utilizan Redes Convolucionales para la resolución de problemas como la estimación del flujo óptico, segmentación, clasificación de objetos o aumentar la resolución en imágenes, cuyas aplicaciones pueden encontrarse en la navegación de algunos coches autónomos, en sistemas de detección temprana de enfermedades o como herramientas de soporte para la gestión agrícola, por decir algunos ejemplos. Sin embargo, es importante mencionar que las CNN no se limitan al uso en imágenes, pues también es posible aplicarlas a señales de audio para el reconocimiento de voz o la anulación del ruido en audios sin perder calidad del hablante. 

Conclusiones 

En este artículo se ha mostrado como las Redes Neuronales Convolucionales han sido fuertemente inspiradas por la corteza visual y el proceso de la visión. Está claro que las CNN no surgieron en una sola noche, sino que ha sido un trabajo duro en busca de comprender como funciona la visión y tener una representación abstracta de la misma, pues como se han visto en los ejemplos, sus aplicaciones van desde facilitar la vida de las personas hasta salvar vidas. En el siguiente artículo, se dará una descripción general de las CNN y sus elementos: que es la convolución, que es la capa de submuestreo y sus diferentes variantes, así como sus principales características.   

Gracias por leer este post y si te pareció interesante no dudes en compartirlo, pues es importante conocer el origen de estos algoritmos para comprender mejor su funcionamiento y sus aplicaciones, así como utilizarlos de manera adecuada. 

Share on facebook
Share on twitter
Share on linkedin

No hay comentarios

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

¡Conozcámonos mejor!

Te haremos llegar las novedades de SoldAI, ofertas exclusivas, notificaciones, y mucho más.

¡Deja tu correo, tenemos mucho que contarte!