Photo of a dolphin as Google develops an AI model based on insights from Gemma called DolphinGemma to decipher how dolphins communicate and one day facilitate interspecies communication.

El modelo de Google AI entiende la charla del delfín

Google ha desarrollado un modelo de IA llamado Dolphingemma para descifrar cómo se comunican los delfines y algún día facilitan la comunicación entre especies.

Los intrincados clics, silbatos y pulsos que resonan a través del mundo submarino de los delfines tienen científicos fascinados durante mucho tiempo. El sueño ha sido comprender y descifrar los patrones dentro de sus complejas vocalizaciones.

Google, colaborando con ingenieros en el Instituto de Tecnología de Georgia y aprovechando la investigación de campo de la Proyecto Wild Dolphin (WDP), ha presentado Dolphingemma para ayudar a realizar ese objetivo.

Anunciado en torno al Día Nacional del Dolfín, el modelo de IA fundamental representa una nueva herramienta en el esfuerzo por comprender la comunicación de los cetáceos. Entrenado específicamente para aprender la estructura de los sonidos de los delfines, Dolphingemma puede incluso generar nuevas secuencias de audio similares a los delfines.

Durante décadas, el proyecto Wild Dolphin, operativo desde 1985, ha dirigido el estudio submarino más largo de delfines submarinos del mundo para desarrollar una comprensión profunda de los sonidos específicos del contexto, como:

  • Firma «silbatos»: Sirviendo como identificadores únicos, similares a los nombres, cruciales para interacciones como las madres que se reúnen con terneros.
  • Burst Pulse «Squawks»: Comúnmente asociado con conflictos o encuentros agresivos.
  • Haga clic en «zumbas»: A menudo detectado durante las actividades de cortejo o cuando los delfines persiguen a los tiburones.

El objetivo final de WDP es descubrir la estructura inherente y el significado potencial dentro de estas secuencias de sonido natural, buscando las reglas y patrones gramaticales que podrían significar una forma de lenguaje.

Este análisis minucioso a largo plazo ha proporcionado la base esencial y los datos etiquetados cruciales para entrenar modelos de IA sofisticados como Dolphingemma.

Dolphingemma: la oreja ai para los sonidos de cetáceo

Analizar el volumen y la complejidad de la comunicación del delfín es una tarea formidable ideal para la IA.

Dolphingemma, desarrollado por Google, emplea tecnologías de audio especializadas para abordar esto. Utiliza el tokenizador SoundStream para representar de manera eficiente los sonidos de delfines, alimentando estos datos en una arquitectura modelo experta en procesar secuencias complejas.

Basado en las ideas de la familia de modelos livianos de Gemma de Google (que comparten tecnología con los poderosos modelos Gemini), Dolphingemma funciona como un sistema de audio y audio.

Alimentados con secuencias de sonidos de delfines naturales de la extensa base de datos de WDP, Dolphingemma aprende a identificar patrones y estructuras recurrentes. Crucialmente, puede predecir los sonidos posteriores posteriores en una secuencia, al igual que los modelos de lenguaje humano predicen la siguiente palabra.

Con alrededor de 400 millones de parámetros, Dolphingemma está optimizado para funcionar de manera eficiente, incluso en los teléfonos inteligentes de Google Pixel que WDP utiliza para la recopilación de datos en el campo.

A medida que WDP comienza a desplegar el modelo esta temporada, promete acelerar significativamente la investigación. Al marcar automáticamente los patrones y las secuencias confiables que previamente requieren un inmenso esfuerzo humano para encontrar, puede ayudar a los investigadores a descubrir estructuras ocultas y significados potenciales dentro de la comunicación natural de los Dolphins.

El sistema de chat y la interacción bidireccional

Si bien Dolphingemma se enfoca en comprender la comunicación natural, un proyecto paralelo explora una vía diferente: interacción activa de dos vías.

El sistema de chat (telemetría de aumento de audición de cetáceos), desarrollado por WDP en asociación con Georgia Tech, tiene como objetivo establecer un vocabulario más simple y compartido en lugar de traducir directamente el lenguaje de delfines complejo.

El concepto se basa en asociar silbatos sintéticos específicos y novedosos (creados por el chat, distinto de los sonidos naturales) con objetos con los que los delfines disfrutan interactuando, como bufandas o algas. Los investigadores demuestran el enlace de objeto de silbato, con la esperanza de que la curiosidad natural de los Dolphins los lleva a imitar los sonidos para solicitar los elementos.

A medida que los sonidos de delfines más naturales se entienden a través del trabajo con modelos como Dolphingemma, estos podrían incorporarse al marco de interacción de chat.

Google Pixel permite la investigación del océano

Subinta tanto el análisis de los sonidos naturales como el sistema de chat interactivo es una tecnología móvil crucial. Los teléfonos de Google Pixel sirven como cerebros para procesar los datos de audio de alta fidelidad en tiempo real, directamente en el desafiante entorno oceánico.

El sistema de chat, por ejemplo, se basa en los teléfonos de Google Pixel a:

  • Detectar una imitación potencial en medio de ruido de fondo.
  • Identificar el silbato específico utilizado.
  • Alerta al investigador (a través de auriculares que conducen huesos subacuáticos) sobre la ‘solicitud’ del delfín.

Esto permite al investigador responder rápidamente con el objeto correcto, reforzando la asociación aprendida. Si bien un Pixel 6 inicialmente manejó esto, el sistema de chat de próxima generación (planeado para el verano de 2025) utilizará un píxel 9, integrando funciones de altavoces/micrófonos y ejecutar modelos de aprendizaje profundo y algoritmos de coincidencia de plantillas simultáneamente para un rendimiento mejorado.

El uso de teléfonos inteligentes como el píxel reduce drásticamente la necesidad de hardware personalizado voluminoso y costoso. Mejora la mantenibilidad del sistema, reduce los requisitos de energía y reduce el tamaño físico. Además, el poder predictivo de Dolphingemma integrado en el chat podría ayudar a identificar imitaciones más rápido, haciendo que las interacciones sean más fluidas y efectivas.

Reconociendo que los avances a menudo provienen de la colaboración, Google tiene la intención de lanzar Dolphingemma como un modelo abierto a finales de este verano. Mientras está entrenado en delfines manchados del Atlántico, su arquitectura es prometedora para los investigadores que estudian otros cetáceos, lo que puede exigir el ajuste de los repertorios vocales de las diferentes especies.

El objetivo es equipar a los investigadores a nivel mundial con herramientas poderosas para analizar sus propios conjuntos de datos acústicos, acelerando el esfuerzo colectivo para comprender estos mamíferos marinos inteligentes. Estamos cambiando de una escucha pasiva para descifrar activamente patrones, llevando la posibilidad de cerrar la brecha de comunicación entre nuestra especie, tal vez un poco más cerca.

Ver también: IEA: Las oportunidades y los desafíos de la IA para la energía global

📷 El modelo de Google AI entiende la charla del delfin

¿Quiere obtener más información sobre AI y Big Data de los líderes de la industria? Verificar AI y Big Data Expo que tiene lugar en Amsterdam, California y Londres. El evento integral está ubicado en otros eventos líderes, incluidos Conferencia de automatización inteligente, Bloqueo, Semana de transformación digitaly Cyber ​​Security & Cloud Expo.

Explore otros próximos eventos y seminarios web tecnológicos empresariales con TechForge aquí.

Fuente: El modelo de Google AI entiende la charla del delfín

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

This site uses Akismet to reduce spam. Learn how your comment data is processed.