Temas: UNIVERSIDADE DA CORUñA ROBóTICA INTELIXENCIA ARTIFICIAL COMPUTACIóN

Científicos da Coruña desenvolven a memoria a longo prazo dun robot

O Grupo Integrado de Ingeniería (GII) da UDC presenta no congreso IWINAC, sobre intelixencia artificial e computación, os seus "prometedores" avances no desenvolvemento dun sistema que mellora a aprendizaxe e o recordo dun robot Baxter.

Por Alberto Quian | A Coruña | 22/06/2017 | Actualizada ás 09:06

As arquitecturas cognitivas constitúen o substrato de todas as funcionalidades cognitivas como a percepción, a atención, a selección de accións, a aprendizaxe, o razoamento, etc. Desenvolver unha arquitectura cognitiva para un robot autónomo é unha tarefa moi complexa na que están traballando expertos en robótica e intelixencia artificial de todo o mundo. Na Universidade da Coruña, o Grupo Integrado de Ingeniería (GII) leva desde o ano 2000 centrado nesta liña a través dun mecanismo cognitivo darwinista que deu lugar a numerosas publicacións en revistas científicas e actas de congresos internacionais ao longo destes anos. Este xoves, o GII presenta os seus "prometedores" avances no desenvolvemento dunha memoria a longo prazo en robots, no marco da sétima edición do IWINAC, un congreso sobre intelixencia artificial e computación organizado pola Uned e a Universidad Politécnica de Cartagena, e que conta coa colaboración da Universidade da Coruña.

Neste encontro, que se celebra no hotel Meliá María Pita da Coruña entre o 19 e o 23 de xuño, o GII do Campus de Ferrol, que coordina o profesor Richard J. Duro, presenta os seus avances no desenvolvemento dunha memoria a longo prazo nun robot Baxter, recollidos no seu traballo 'Multilevel Darwinist Brain: Context Nodes in a Network Memory Inspired Long Term Memory', artigo asinado por Duro, José A. Becerra, Juan Monroy e Luis Calvo.

CEREBRO DARWINISTA MULTINIVEL

O traballo parte do chamado MDB ou Multilevel Darwinist Brain (Cerebro Darwinista Multinivel), un mecanismo que se estrutura en dúas escalas de funcionamento, unha en tempo real encargada de seleccionar a acción que o robot debe aplicar en función das súas motivacións, e outro en tempo de aprendizaxe na que se obteñen modelos que permiten realizar a selección de accións de forma interna ao mecanismo. Cada unha destas escalas leva asociados diversos procesos complexos, que deron lugar a numerosas subliñas. Por unha banda, a aprendizaxe dos modelos depende das mostras reais que o robot adquire na súa interacción co mundo, polo que se tivo que desenvolver unha técnica de aprendizaxe que permita a aprendizaxe en tempo real. Esta é unha das características orixinais do MDB, xa que se utilizan algoritmos evolutivos para a aprendizaxe dos modelos. En concreto, desenvolveuse un novo algoritmo evolutivo, o PBGA (Promoter Based Genetic Algorithm), que obtén a estrutura e os parámetros dunha rede de neuronas de forma automática a partir das mostras almacenadas nunha memoria a curto prazo. Outro dos elementos básicos que se desenvolveron é o sistema de memorias, baseado nunha memoria a curto prazo e outra a longo prazo, que almacena os modelos que resultaron satisfactorios na súa aplicación real para ser utilizados no futuro.

En canto á escala de tempo real, desenvolveuse un proceso de obtención de comportamentos en tempo de aprendizaxe que son transferidos a esta escala. Este concepto xeneraliza a simple selección de accións e dota de moita máis xeneralidade ao MDB. Os comportamentos son almacenados tamén na memoria a longo prazo para ser reutilizados de forma directa se o robot se atopase de novo cunha situación xa aprendida.

O MDB foi aplicado con éxito en diversas tarefas de aprendizaxe con robots reais, tales como o Hermes II, o Pioneer 2 ou o AIBO. En todas elas a énfase estaba na capacidade do mecanismo para aprender en tempo real de forma autónoma a partir da súa experiencia ou da súa interacción cun profesor. Ademais, realizáronse experimentos de reutilización autónoma da información aprendida e de adaptación en tempo real a cambios na contorna.

MEMORIA A LONGO PRAZO

Agora, o GII presenta na Coruña novidosos resultados aplicados a un robot Baxter. En concreto, o novo traballo presenta os avances actuais na introdución do concepto de memoria de rede dentro da estrutura de memoria a longo prazo no Cerebro Darwinista Multinivel. En particular, trátase da introdución do concepto de nodos contextuais e dos experimentos iniciais realizados para demostrar a súa efectividade.

Os propios autores do experimento explican que non buscaban "producir unha arquitectura bioloxicamente plausible, senón máis ben bioloxicamente inspirada". Partindo desta idea, crearon unha nova estrutura de memoria a longo prazo que "vai máis aló do simple almacenamento de elementos de coñecemento do MDB que tiveron éxito".

"Basicamente, a idea é que cada vez que se obtén unha recompensa, non é unha mala idea lembrar de maneira relativamente permanente o contexto no que isto ocorreu", explican os científicos da UDC. Así, "os nodos contextuais representan recordos de eventos relevantes que están relacionados na memoria a longo prazo". Este sistema de nodos contextuais permite ao robot elixir ou activar directamente unha serie de accións co fin de obter unha recompensa ou reproducir o evento relevante en calquera caso cando sexa posible.

Esta nova implementación desenvolvida polos científicos do GII baséase nas ideas das redes de memoria do neurocientífico Joaquim Fuster, un dos pioneiros en propoñer que a memoria xorde da interconexión da gran rede que é o cerebro.

O EXPERIMENTO

Mesturando os conceptos de Fuster coa idea dos nodos contextuais e os avances realizados sobre o Cerebro Darwinista Multinivel, os investigadores da UDC realizaron un experimento utilizando un robot Baxter. "Os resultados foron moi prometedores", avanzan.

O que fixeron foi colocar o robot nun espazo de traballo onde había dous colectores, un cun buraco redondo e outro cun buraco cadrado, ademais de dous obxectos: un cubo e un cilindro, con luces de cores na parte superior (vermello e azul). O cubo encaixa no buraco cadrado e o cilindro no redondo. O robot Baxter, que ve a través dunha cámara incorporada, pode agarrar calquera dos dous obxectos e pode movelos a calquera lugar ao seu alcance, incluíndo a opción de poñelos nun dos buracos. Con todo, o sistema perceptivo do robot só detecta a luz coloreada enriba de cada obxecto, non detecta a forma. Isto implica que a única maneira en que o robot ten que distinguir unha forma da outra é a través da luz coloreada sobre ela. Usando esta configuración básica, os científicos construíron un experimento que implica dous tipos de mundos e dous tipos de tarefas (segundo o definido polos seus obxectivos). Nun mundo, os cilindros teñen unha luz vermella na parte superior e os cubos, unha luz azul. No outro mundo, a asignación de luces está investida (os cilindros son azuis e os cubos vermellos). En canto aos obxectivos, hai dúas situacións posibles: a recompensa obtense cando un buraco (a pantalla na escena indica cal buraco) está cheo coa forma correcta ou a recompensa obtense cando todos os buracos están baleiros. O estado inicial pode implicar que algún dos buracos teña o obxecto incorrecto introducido, o que implica sacalo antes de poder poñer o outro dentro.

Con este experimento simple pódese coñecer de antemán todas as posibles combinacións de cousas que deberían conducir á creación de nodos contextuais, é dicir, todos os eventos relevantes. En termos de metas e mundos, hai catro combinacións. Para cada un destes casos, hai seis situacións relevantes, o que leva a un total de 24 nodos contextuais que deben obterse a través da interacción cos diferentes mundos con diferentes obxectivos. Os científicos asumen que o robot non estará a interactuar continuamente con ningún mundo (cambiarán aleatoriamente) e que o seu obxectivo cambiará despois dun número aleatorio de interaccións. Isto implica que, de feito, o robot terá que aprender a lograr a máxima recompensa concurrentemente nas catro situacións. Ao principio, o robot está a realizar un proceso de proba e erro. Está a cometer erros que lle permiten atopar os eventos relevantes. Despois de 70 interaccións co mundo, o robot xa aprendeu algúns nodos contextuais, e cando as situacións asociadas xorden, o robot elixe directamente a regra correcta. A exploración está a ocorrer soamente con respecto ás que non aprendeu aínda. Despois de 167 interaccións, o robot aprendeu todos os eventos relevantes posibles no ambiente e, por tanto, cando se enfronta con calquera estado en calquera das catro combinacións, elixe directamente a correcta. O proceso, segundo os autores do experimento, foi "bastante eficiente e non levou moito tempo".

En resumo, o que presentan este xoves na Coruña os científicos do GII é un novo sistema que mellora a aprendizaxe a longo prazo, o recordo de eventos pasados e, en consecuencia, que fai más eficiente a operación dun robot en tempo real.

Temas: UNIVERSIDADE DA CORUñA ROBóTICA INTELIXENCIA ARTIFICIAL COMPUTACIóN