De Baby Talk a Baby AI

Nos pedimos mucho a nosotros mismos cuando somos niños. De algún modo debemos pasar de masas sensoriales a comunicadores móviles, racionales y atentos en tan sólo unos años. Aquí estás, un niño sin vocabulario, en una habitación llena de juguetes y peluches. Coges un registro de Lincoln y tu guardián te dice: «Esto es un ‘registro'». Finalmente comprende que «tronco» no se refiere estrictamente a este cilindro de plástico marrón en particular ni a los cilindros de plástico marrón en general, sino a los cilindros de plástico marrón que encarnan las características de las partes de los árboles talados y despojados, que también son, por supuesto, «bañador».

Ha habido mucha investigación y un acalorado debate sobre cómo los niños logran esto. Algunos científicos han argumentado que la mayor parte de nuestra adquisición del lenguaje puede explicarse mediante el aprendizaje asociativo, ya que relacionamos los sonidos con los sentidos, del mismo modo que los perros asocian el sonido de una campana con la comida. Otros sostienen que hay características inherentes a la mente humana que han dado forma a las formas de todos los idiomas y que son cruciales para nuestro aprendizaje. Otros sostienen que los niños desarrollan la comprensión de palabras nuevas además de comprender otras palabras.

Este discurso avanzó hace poco un domingo por la mañana, cuando Tammy Kwan y Brenden Lake entregaban moras de un cuenco a la boca de su hija Luna, de veintiún meses. Luna estaba vestida con calzas rosas y un tutú rosa, con un babero de silicona alrededor del cuello y un sombrero rosa suave en la cabeza. En la parte frontal se ha acoplado una cámara ligera tipo GoPro.

«Babooga», dijo, señalando las bayas con un dedo redondo. La Dra. Kwan le dio el cambio y la Dra. Lake miró divertido el cuenco vacío. “Cuesta alrededor de $10”, dijo. Una luz en la cámara brilló.

Durante una hora cada semana durante los últimos 11 meses, el Dr. Lake, psicólogo de la Universidad de Nueva York cuya investigación se centra en la inteligencia humana y artificial, conectó una cámara a Luna y grabó cosas desde su punto de vista mientras jugaba. Su objetivo es utilizar vídeos para entrenar un modelo de lenguaje utilizando la misma información sensorial a la que está expuesto un niño: un LunaBot, por así decirlo. Al hacerlo, espera crear mejores herramientas para comprender tanto la inteligencia artificial como a nosotros mismos. «Creemos que esta investigación finalmente establece esa conexión entre estas dos áreas de estudio», dijo el Dr. Lake. “Por fin podemos ponerlos en diálogo entre ellos”.

Existen muchos obstáculos para utilizar modelos de IA para comprender la mente humana. Después de todo, los dos son marcadamente diferentes. Los modelos multimodales y de lenguaje moderno, como GPT-4 de OpenAI y Gemini de Google, se ensamblan en redes neuronales con poca estructura incorporada y han mejorado principalmente debido a una mayor potencia informática y conjuntos de datos de entrenamiento más grandes. El último modelo de lenguaje grande de Google, Llama 3, está entrenado en más de diez billones de palabras; el niño promedio de cinco años está expuesto a más de 300.000.

Estos modelos pueden analizar píxeles en imágenes, pero no pueden saborear el queso o las bayas ni sentir hambre, tipos importantes de experiencias de aprendizaje para los niños. Los investigadores pueden hacer todo lo posible para convertir en código todo el flujo sensorial de un niño, pero inevitablemente se perderán aspectos cruciales de su fenomenología. «Lo que estamos viendo es sólo el residuo de un estudiante activo», dijo Michael Frank, un psicólogo de Stanford que ha estado tratando de capturar la experiencia humana en cámara durante años. Actualmente, su laboratorio trabaja con más de 25 niños en todo el país, incluida Luna, para registrar sus experiencias en el hogar y en entornos sociales.

Además, los humanos no somos simples contenedores de datos, como lo son las redes neuronales, sino animales intencionales. Todo lo que vemos, cada objeto que tocamos, cada palabra que escuchamos se conecta con las creencias y deseos que tenemos en este momento. «Existe una relación profunda entre lo que intentas aprender y los datos que llegan», dijo Linda Smith, psicóloga de la Universidad de Indiana. “Estos modelos simplemente predicen. Toman todo lo que se pone y dan el siguiente mejor paso. Si bien es posible emular la intencionalidad humana estructurando los datos de entrenamiento (algo que el laboratorio del Dr. Smith intentó hacer recientemente), los modelos de IA más competentes, y las empresas que los fabrican, están orientados en el tiempo a procesar más datos de manera eficiente, sin tener más sentido. con menos.

También hay una cuestión más conceptual, que surge del hecho de que las capacidades de los sistemas de IA pueden parecer enteramente humanas, incluso si se manifiestan de formas no humanas. Recientemente, han surgido afirmaciones dudosas sobre la conciencia, la inteligencia general y la sensibilidad en los laboratorios industriales de Google y Microsoft tras el lanzamiento de nuevos modelos. Claude 3, el último modelo de una startup de investigación de inteligencia artificial llamada Anthropic, fue noticia en marzo. discusión cuando, tras analizar una frase aleatoria sobre ingredientes de pizza escondida en una larga lista de documentos no relacionados, expresó sus sospechas de que se estaba realizando una prueba. Estos informes a menudo huelen a estrategias de marketing más que a proyectos científicos objetivos, pero resaltan nuestro deseo de atribuir significado científico a la inteligencia artificial.

Pero las mentes humanas están convergiendo con las virtuales de otras maneras. Tom Griffiths, un científico cognitivo de Princeton, ha sugerido que al describir los límites de la inteligencia humana y construir modelos que tengan limitaciones similares, podríamos llegar a una mejor comprensión de nosotros mismos y a una inteligencia artificial más interpretable y eficiente. La inteligencia humana nos ayuda a comprender y modelar mejor las computadoras, y podemos usar estos modelos para comprender la inteligencia humana”, dijo el Dr. Griffiths. “Todo esto es muy nuevo. Estamos explorando el espacio de posibilidades».

En febrero, el Dr. Lake y sus colaboradores crearon el primer modelo de IA entrenado en las experiencias de un niño, utilizando videos capturados en el laboratorio del Dr. Frank hace más de una década. El modelo fue publicado en la revista Science y, a partir de 60 horas de metraje, logró relacionar diferentes momentos con palabras. Escriba «arena» y la modelo recordará el momento, hace 11 años, cuando el niño cuyas experiencias estudió la modelo visitó la playa con su madre. Escriba «coche» y el modelo mostrará un vídeo en primera persona del niño sentado en su asiento de seguridad.

Los vídeos de entrenamiento son viejos y granulados y los datos son bastante escasos, pero la capacidad del modelo para formar una especie de mapeo conceptual del mundo sugiere que es posible que el lenguaje se adquiera principalmente a través de la asociación. «Tuvimos un revisor del artículo que dijo: ‘Antes de leer esto, habría pensado que era imposible'», dijo Wai Keen Vong, investigador de la Universidad de Nueva York que ayudó a dirigir el trabajo.

Para el Dr. Lake y otros investigadores como él, estas preguntas están entrelazadas: ¿En qué medida podemos hacer que la inteligencia artificial sea similar a la de los humanos? ¿Qué nos hace humanos? – presentar las investigaciones más interesantes en el horizonte. Seguir la primera pregunta pieza por pieza, modelar interacciones sociales, intenciones y prejuicios, recopilar secuencias de vídeo completas de una cámara montada en un niño de un año, está cada vez más cerca de responder la segunda.

«Si el campo pudiera llegar al punto en que los modelos se entrenan sólo con datos vistos por un solo niño y realizan bien una amplia gama de tareas, sería un gran logro científico», dijo el Dr. Lake.

En su departamento, el Dr. Lake y el Dr. Kwan estaban reuniendo a Luna y su hermano mayor, Logan, para una fiesta de cumpleaños. Los niños, apiñados en la puerta, se pusieron los calcetines y los zapatos. El Dr. Lake detuvo la grabación en la cámara de Luna y le entregó un par de guantes blancos peludos con caras de oveja. «¿Qué son esos, Luna?» iglesias.

«Baa baa», dijo Luna.

El Dr. Kwan dijo: «Hubo un tiempo en el que ella no conocía la palabra ‘no’ y simplemente decía ‘sí’ a todo». Se volvió hacia Luna: “Besos, ¿quieres besos?”

«No», dijo Luna.

“Oh”, dijo el Dr. Lake, riendo. «Extraño la fase del ‘sí'».

Audio producido por Sara Diamante.