Meta ha confirmado los planes para utilizar el contenido compartido por sus usuarios adultos en la UE (Unión Europea) para capacitar a sus modelos de IA.
El anuncio sigue al reciente lanzamiento de las características de Meta AI en Europa y tiene como objetivo mejorar las capacidades y la relevancia cultural de sus sistemas de IA para la diversa población de la región.
En un comunicado, Meta escribió: “Hoy, estamos anunciando nuestros planes de capacitar a la IA en Meta usando contenido público, como publicaciones públicas y comentarios, compartidos por adultos en nuestros productos en la UE.
«Las interacciones de las personas con Meta AI, como preguntas y consultas, también se utilizarán para entrenar y mejorar nuestros modelos».
A partir de esta semana, los usuarios de las plataformas de Meta (incluidos Facebook, Instagram, WhatsApp y Messenger) dentro de la UE recibirán notificaciones que explican el uso de datos. Estas notificaciones, entregadas tanto en la aplicación como por correo electrónico, detallarán los tipos de datos públicos involucrados y vinculan a un formulario de objeción.
«Hemos hecho que este formulario de objeción sea fácil de encontrar, leer y usar, y honraremos todos los formularios de objeción que ya hemos recibido, así como los recién presentados», explicó Meta.
Meta explícitamente aclaró que ciertos tipos de datos permanecen fuera de los límites para fines de capacitación de IA.
La compañía dice que no «usará los mensajes privados de las personas con amigos y familiares» para capacitar a sus modelos generativos de IA. Además, los datos públicos asociados con cuentas pertenecientes a usuarios menores de 18 años en la UE no se incluirán en los conjuntos de datos de capacitación.
Meta quiere crear herramientas de IA diseñadas para usuarios de la UE
Meta posiciona esta iniciativa como un paso necesario para crear herramientas de IA diseñadas para usuarios de la UE. Meta lanzó su funcionalidad de chatbot de IA en sus aplicaciones de mensajería en Europa el mes pasado, enmarcando este uso de datos como la siguiente fase para mejorar el servicio.
«Creemos que tenemos la responsabilidad de construir una IA que no solo esté disponible para los europeos, sino que en realidad está construido para ellos», explicó la compañía.
«Eso significa todo, desde dialectos y coloquialismos, hasta conocimiento hiperlocal y las distintas formas en que diferentes países usan el humor y el sarcasmo en nuestros productos».
Esto se vuelve cada vez más pertinente a medida que los modelos de IA evolucionan con capacidades multimodales que abarcan texto, voz, video e imágenes.
Meta también situó sus acciones en la UE dentro del panorama de la industria en general, señalando que la AI de la IA en los datos del usuario es una práctica común.
«Es importante tener en cuenta que el tipo de entrenamiento de IA que estamos haciendo no es exclusivo de Meta, ni será exclusivo de Europa», dice el comunicado.
«Estamos siguiendo el ejemplo establecido por otros, incluidos Google y OpenAi, los cuales ya han utilizado datos de usuarios europeos para capacitar a sus modelos de IA».
Meta además afirmó que su enfoque supera a otros en apertura, afirmando: «Estamos orgullosos de que nuestro enfoque sea más transparente que muchas de nuestras homólogos de la industria».
Con respecto al cumplimiento regulatorio, Meta hizo referencia a un compromiso previo con los reguladores, incluida una demora iniciada el año pasado mientras esperaba una aclaración sobre los requisitos legales. La compañía también citó una opinión favorable del Junta Europea de Protección de Datos (EDPB) en diciembre de 2024.
«Agradecemos la opinión proporcionada por el EDPB en diciembre, que afirmó que nuestro enfoque original cumplió con nuestras obligaciones legales», escribió Meta.
Preocupaciones más amplias sobre los datos de capacitación de IA
Si bien Meta presenta su enfoque en la UE como transparente y conforme, la práctica de utilizar vastas franjas de datos de usuarios públicos de plataformas de redes sociales para capacitar a grandes modelos de idiomas (LLM) y la IA generativa continúa planteando preocupaciones significativas entre los defensores de la privacidad.
En primer lugar, la definición de datos «públicos» puede ser contencioso. El contenido compartido públicamente en plataformas como Facebook o Instagram puede no haberse publicado con la expectativa de que se convertiría en materia prima para capacitar a sistemas comerciales de IA capaces de generar contenido o ideas completamente nuevos. Los usuarios pueden compartir anécdotas personales, opiniones o trabajos creativos públicamente dentro de su comunidad percibida, sin prever su análisis automatizado y a gran escala y reutilización por parte del propietario de la plataforma.
En segundo lugar, la efectividad y la equidad de un sistema de «exclusión» versus un sistema de «opción» siguen siendo discutibles. Colocar la responsabilidad de los usuarios para objetar activamente, a menudo después de recibir notificaciones enterradas entre innumerables otros, plantea preguntas sobre el consentimiento informado. Muchos usuarios pueden no ver, comprender o actuar sobre la notificación, lo que potencialmente lleva a que sus datos se utilicen de manera predeterminada en lugar de un permiso explícito.
En tercer lugar, la cuestión del sesgo inherente se transfiere. Las plataformas de redes sociales reflejan y, a veces, amplifican los prejuicios sociales, como el racismo, el sexismo y la información errónea. Los modelos de IA entrenaron en este riesgo de aprendizaje, replicando e incluso escala estos sesgos. Si bien las empresas emplean técnicas de filtrado y ajuste finos, la erradicación del sesgo absorbido por miles de millones de puntos de datos es un desafío inmenso. Una IA capacitada en datos públicos europeos necesita una curación cuidadosa para evitar perpetuar estereotipos o generalizaciones dañinas sobre las mismas culturas que pretenden comprender.
Además, persisten las preguntas que rodean los derechos de autor y la propiedad intelectual. Las publicaciones públicas a menudo contienen texto, imágenes y videos originales creados por los usuarios. Utilizando este contenido para capacitar a los modelos comerciales de IA, que luego pueden generar contenido competitivo o derivar valor de él, ingresa un territorio legal turbio con respecto a la propiedad y la compensación justa: los aspectos actualmente se disputan en los tribunales mundiales que involucran a varios desarrolladores de IA.
Finalmente, mientras que Meta resalta su transparencia en relación con los competidores, los mecanismos reales de selección de datos, filtrado y su impacto específico en el comportamiento del modelo a menudo siguen siendo opacos. La transparencia verdaderamente significativa implicaría una visión más profunda de cómo los datos específicos influyen en las salidas de IA y las salvaguardas establecidas para evitar el mal uso o las consecuencias no deseadas.
El enfoque adoptado por Meta en la UE subraya el inmenso valor que los gigantes de tecnología imponen en el contenido generado por el usuario como combustible para la economía de IA floreciente. A medida que estas prácticas se generalizan, el debate sobre la privacidad de los datos, el consentimiento informado, el sesgo algorítmico y las responsabilidades éticas de los desarrolladores de IA indudablemente se intensificarán en Europa y más allá.
(Foto por Julio López)
Ver también: Apple AI enfatiza la privacidad con datos sintéticos y anónimos
¿Quiere obtener más información sobre AI y Big Data de los líderes de la industria? Verificar AI y Big Data Expo que tiene lugar en Amsterdam, California y Londres. El evento integral está ubicado en otros eventos líderes, incluidos Conferencia de automatización inteligente, Bloqueo, Semana de transformación digitaly Cyber Security & Cloud Expo.
Explore otros próximos eventos y seminarios web tecnológicos empresariales con TechForge aquí.
Fuente: Meta capacitará a los modelos de IA utilizando datos de usuario de la UE