IA abierta ha introducido una herramienta de rastreo web llamada «GPTBot», destinada a reforzar las capacidades de los futuros modelos GPT.
La compañía dice que los datos acumulados a través de GPTBot podría mejorar potencialmente la precisión del modelo y expandir sus capacidades, marcando un paso significativo en la evolución de los modelos de lenguaje impulsados por IA.
Los rastreadores web, también conocidos como arañas web, desempeñan un papel fundamental en la indexación de contenido en la vasta extensión de Internet. Los motores de búsqueda de renombre, como Google y Bing, confían en estos bots para completar sus resultados de búsqueda con páginas web relevantes.
El GPTBot de OpenAI tendrá un propósito distinto: recopilar datos disponibles públicamente mientras evita cuidadosamente las fuentes que involucran muros de pago, recopilación de datos personales o contenido que contraviene las políticas de OpenAI.
Los propietarios de sitios web tienen la capacidad de evitar que GPTBot rastree sus sitios simplemente implementando un comando de «no permitir» dentro de un archivo de servidor estándar. Esto les otorga control sobre qué partes de su contenido son accesibles para el rastreador web.
El anuncio de OpenAI sigue de cerca a la presentación por parte de la compañía de una solicitud de marca registrada para «GPT-5», que se anticipa que sucederá al modelo GPT-4 actual.
La presentación, realizada ante la Oficina de Patentes y Marcas Registradas de los Estados Unidos el 18 de julio, abarca el uso de «GPT-5» en voz y texto humanos basados en IA, conversión de audio a texto, reconocimiento de voz y síntesis de voz.
Sin embargo, aunque la solicitud de marca registrada GPT-5 ha generado entusiasmo entre los entusiastas de la IA, el director ejecutivo de OpenAI, Sam Altman, advirtió contra las expectativas prematuras. Altman reveló que la empresa aún está lejos de iniciar la capacitación de GPT-5, ya que se deben realizar auditorías de seguridad exhaustivas antes de embarcarse en el proceso.
Los esfuerzos recientes de OpenAI no han estado exentos de controversia. Han surgido preocupaciones sobre las prácticas de recopilación de datos de la empresa, en particular en relación con los derechos de autor y los problemas de consentimiento.
En junio, el regulador de privacidad de Japón emitió una advertencia a OpenAI sobre la recopilación de datos no autorizada. A principios de este año, Italia prohibió temporalmente el uso de ChatGPT debido a supuestas violaciones de las leyes de privacidad de la Unión Europea.
OpenAI y Microsoft también se enfrentan actualmente una demanda colectiva presentado por 16 demandantes que afirman que se accedió a la información privada de las interacciones de los usuarios de ChatGPT sin el debido consentimiento. Las empresas también se han visto afectadas por una demanda por GitHub Copilot, y los demandantes alegan que la herramienta de generación de código infringió los derechos de los desarrolladores al extraer su código sin proporcionar la debida atribución.
Si estas acusaciones resultaran ciertas, tanto OpenAI como Microsoft podrían verse potencialmente en violación de la Ley de Abuso y Fraude Informático, un precedente legal con relevancia para los casos de web-scraping.
A medida que OpenAI continúa ampliando los límites de la tecnología de IA, debe sortear estos desafíos para garantizar un desarrollo responsable y ético en el panorama de la IA.
(Credito de imagen: Gerd Altmann de pixabay)
Ver también: Meta lanza Llama 2 LLM de código abierto
¿Quiere aprender más sobre IA y big data de los líderes de la industria? Verificar Exposición de IA y Big Data teniendo lugar en Ámsterdam, California y Londres. El evento es co-ubicado con Semana de la Transformación Digital.
Explore otros próximos eventos y seminarios web de tecnología empresarial impulsados por TechForge aquí.
Fuente: OpenAI implementa un rastreador web en preparación para GPT-5