M谩s

    驴Se utiliza este conjunto de datos para la b煤squeda de IA de Google?

    - Advertisement -

    Google public贸 un art铆culo de investigaci贸n sobre un nuevo tipo de conjunto de datos para entrenar un modelo de lenguaje para recuperar oraciones que respondan exactamente a una pregunta dentro de un di谩logo abierto.

    No sabemos si Google est谩 utilizando este conjunto de datos. Pero los investigadores afirman que supera a los modelos entrenados en otros conjuntos de datos.

    Muchos trabajos de investigaci贸n, como el publicado por LaMDA, no mencionan contextos espec铆ficos de c贸mo podr铆a usarse.

    Por ejemplo, el art铆culo de investigaci贸n de LaMDA (PDF) concluye vagamente:

    鈥淟aMDA est谩 un paso m谩s cerca de sistemas de di谩logo abiertos pr谩cticos y seguros, que a su vez pueden desbloquear una amplia gama de aplicaciones 煤tiles鈥.

    Este trabajo de investigaci贸n establece que el problema que est谩n resolviendo es c贸mo crear un conjunto de datos para entrenar una m谩quina para un di谩logo abierto seleccionando una oraci贸n de una p谩gina web.

    Por qu茅 este conjunto de datos es importante

    Lo que hace que este trabajo de investigaci贸n sea de inter茅s es que los investigadores concluyen que podr铆a usarse para fundamentar de manera objetiva la salida generativa de IA, como lo que se ve en la nueva experiencia generativa de b煤squeda de Google.

    Dado que el trabajo de investigaci贸n se present贸 en una conferencia de recuperaci贸n de informaci贸n (Proceedings of the 45th International ACM SIGIR Conference on Research and Development), es bastante seguro suponer que este algoritmo est谩 relacionado con la recuperaci贸n de informaci贸n, lo que significa b煤squeda.

    Una 煤ltima cosa a tener en cuenta es que la investigaci贸n sobre este nuevo tipo de conjunto de datos se present贸 el a帽o pasado en 2022, pero aparentemente pas贸 desapercibida鈥 Hasta ahora.

    Lo que Google se propuso lograr con el nuevo conjunto de datos

    Los investigadores explican en qu茅 se centran:

    鈥淓n este documento nos enfocamos en di谩logos abiertos: dos partes conversan por turnos sobre cualquier n煤mero de temas sin restricciones en los cambios de tema y el tipo de discusi贸n sobre cada tema.

    Adem谩s, el di谩logo no se basa en un documento espec铆fico, a diferencia del escenario utilizado en algunos trabajos anteriores鈥

    La tarea que abordamos es recuperar oraciones de alg煤n corpus de documentos que contengan informaci贸n 煤til para generar (ya sea autom谩ticamente o por humanos) el siguiente turno en el di谩logo.

    Hacemos notar que los turnos de di谩logo pueden ser preguntas, consultas, argumentos, declaraciones, etc.鈥

    Un nuevo tipo de conjunto de datos para el entrenamiento del modelo de lenguaje

    El problema que los investigadores est谩n resolviendo es c贸mo recuperar una oraci贸n de una p谩gina web como respuesta a una pregunta abierta, un tipo de pregunta que necesita m谩s que un s铆 o un no como respuesta.

    El trabajo de investigaci贸n explica que lo que falta para que esa capacidad suceda en una m谩quina es un conjunto de datos de conversaci贸n apropiado.

    Explican que los conjuntos de datos existentes se utilizan por dos razones:

  • Para evaluar las respuestas de di谩logo de una IA generativa, pero no para entrenarla para recuperar la informaci贸n relevante para esa respuesta.
  • Conjuntos de datos para uso de un motor de b煤squeda o respuesta a preguntas, enfocados en un solo pasaje de una pregunta y respuesta.
  • Explican las deficiencias de los conjuntos de datos existentes:

    鈥溾n la mayor铆a de estos conjuntos de datos, los resultados de b煤squeda devueltos no se ven como parte del di谩logo.

    鈥anto en la recuperaci贸n de pasajes conversacionales como en los conjuntos de datos de control de calidad conversacional, hay un usuario que hace preguntas o consultas que reflejan intenciones expl铆citas con necesidades de informaci贸n, a diferencia de los di谩logos naturales donde las intenciones solo pueden representarse impl铆citamente, por ejemplo, en declaraciones afirmativas.

    En resumen, los conjuntos de datos conversacionales existentes no combinan conversaciones naturales entre humanos con anotaciones de relevancia para oraciones recuperadas de un gran corpus de documentos.

    Por lo tanto, construimos tal conjunto de datos鈥︹

    C贸mo se cre贸 el nuevo conjunto de datos

    Los investigadores crearon un conjunto de datos que se puede usar para entrenar un algoritmo que puede recuperar una oraci贸n que es la respuesta correcta en un di谩logo abierto.

    El conjunto de datos consta de conversaciones de Reddit que se compararon con respuestas de Wikipedia, adem谩s de anotaciones humanas (clasificaciones de relevancia), de esos pares de preguntas y respuestas.

    Los datos de Reddit se descargaron de Pushshift.io, un archivo de conversaciones de Reddit (Preguntas frecuentes sobre cambio de marchas).

    El trabajo de investigaci贸n explica:

    鈥淧ara abordar un alcance m谩s amplio de esta tarea donde se puede usar cualquier tipo de di谩logo, construimos un conjunto de datos que incluye di谩logos abiertos de Reddit, oraciones candidatas de Wikipedia para cada di谩logo y anotaciones humanas para las oraciones.

    El conjunto de datos incluye 846 di谩logos creados a partir de hilos de Reddit.

    Para cada di谩logo, se recuperaron 50 oraciones de Wikipedia utilizando un m茅todo de recuperaci贸n inicial no supervisado.

    Estas oraciones fueron juzgadas por trabajadores de la multitud seg煤n su relevancia, es decir, si conten铆an informaci贸n 煤til para generar el siguiente giro en el di谩logo鈥.

    El conjunto de datos que crearon est谩 disponible en GitHub.

    Ejemplo de una pregunta de di谩logo:

    芦驴Que fue primero, la gallina o el huevo?禄

    Un ejemplo de una respuesta irrelevante:

    鈥淟os pollos domesticados existen desde hace unos 10.000 a帽os. Los huevos han existido durante cientos de millones de a帽os鈥.

    Un ejemplo de una oraci贸n de p谩gina web correcta que se puede usar como respuesta es:

    鈥淓xpuesto m谩s simplemente por Neil deGrasse Tyson:
    ‘驴Que fue primero, la gallina o el huevo? El huevo puesto por un ave que no era gallina’鈥.

    Metodolog铆a de recuperaci贸n

    Para la parte de recuperaci贸n, citan investigaciones previas en modelos de lenguaje y otros m茅todos y se conforman con un enfoque de supervisi贸n d茅bil.

    Ellos explican:

    鈥淓l ajuste fino de los modelos de recuperaci贸n requiere etiquetas de relevancia para ejemplos de entrenamiento en una tarea de destino.

    Estos a veces son escasos o no est谩n disponibles.

    Un enfoque para eludir esto es generar etiquetas autom谩ticamente y entrenar un modelo poco supervisado en estas anotaciones.

    鈥eguimos el paradigma de supervisi贸n d茅bil en nuestro modelo de entrenamiento, con un novedoso anotador d茅bil de Reddit para la recuperaci贸n en un contexto de di谩logo鈥.

    驴Es exitoso el conjunto de datos?

    Google y otras organizaciones publican muchos trabajos de investigaci贸n que demuestran diferentes niveles de 茅xito.

    Algunas investigaciones concluyen con un 茅xito limitado, moviendo el estado del arte solo un poco, si es que lo hacen.

    Los trabajos de investigaci贸n que son de inter茅s (para m铆) son los que son claramente exitosos y superan el estado actual del arte.

    Ese es el caso con el desarrollo de este conjunto de datos para entrenar un modelo de lenguaje para recuperar oraciones que sirvan con precisi贸n como un giro en un di谩logo abierto.

    Afirman c贸mo un modelo BERT entrenado con este conjunto de datos se vuelve a煤n m谩s poderoso.

    Escriben:

    鈥淒e hecho, mientras que RANKBERTMS supera a todos los modelos sin ajuste fino, el modelo RANKBERTMS鈫扲, que se ajust贸 a煤n m谩s utilizando nuestro conjunto de entrenamiento supervisado d茅bilmente, mejora el rendimiento.

    Este m茅todo alcanza el rendimiento m谩s alto y todas las ganancias de rendimiento sobre otros m茅todos son estad铆sticamente significativas.

    Este hallazgo tambi茅n demuestra la eficacia de nuestro anotador d茅bil y nuestro conjunto de entrenamiento supervisado d茅bilmente, lo que demuestra que el rendimiento se puede mejorar sin la anotaci贸n manual para el entrenamiento鈥.

    En otro lugar, los investigadores informan:

    芦Mostramos que un clasificador neuronal que se ajust贸 utilizando nuestro conjunto de entrenamiento supervisado d茅bilmente supera a todos los dem谩s modelos probados, incluido un clasificador neuronal ajustado en el conjunto de datos de recuperaci贸n de pasajes de MS Marco禄.

    Tambi茅n escriben que, por muy exitoso que sea este enfoque, est谩n interesados 鈥嬧媏n promover el estado del arte incluso m谩s de lo que ya lo han hecho.

    El trabajo de investigaci贸n concluye:

    鈥淓n el trabajo futuro, nos gustar铆a dise帽ar modelos de recuperaci贸n basados 鈥嬧媏n BERT que se entrenen solo con una supervisi贸n d茅bil, utilizando un BERT preentrenado, sin la necesidad de grandes conjuntos de entrenamiento anotados como MS Marco.

    Tambi茅n nos gustar铆a poner a tierra los modelos de lenguaje generativo con nuestros modelos de recuperaci贸n y estudiar las conversaciones que surgen de esa puesta a tierra鈥.

    驴Podr铆a este enfoque estar en uso?

    Google rara vez confirma cu谩ndo se utiliza una investigaci贸n espec铆fica. Hay algunos casos, como con BERT, donde Google confirma que lo est谩 usando.

    Pero en general la respuesta est谩ndar es que el hecho de que Google publique un trabajo de investigaci贸n o una patente no significa que lo est茅 utilizando en su algoritmo de b煤squeda.

    Dicho esto, el trabajo de investigaci贸n, que data de mediados de 2022, indic贸 que una direcci贸n futura era estudiar c贸mo los modelos de lenguaje generativo (que es como Bard y la experiencia generativa de b煤squeda de Google) pueden basarse en 茅l.

    Una experiencia de chat generativo de IA puede hacer que la salida de la IA invente cosas, lo que t茅cnicamente se conoce como alucinaciones.

    Conexi贸n a tierra significa anclar la salida del chat de IA con hechos, generalmente de fuentes en l铆nea, para ayudar a prevenir alucinaciones.

    Bing usa un sistema llamado Bing Orchestrator que verifica las p谩ginas web para fundamentar la salida de GPT en hechos.

    Poner a tierra la salida de la IA ayuda a mantenerla en los hechos, que es algo que este conjunto de datos puede hacer, adem谩s de seleccionar oraciones de p谩ginas web como parte de una respuesta.

    Captura de pantalla de una respuesta de la experiencia generativa de b煤squeda de Google que muestra la respuesta con tres citas a p谩ginas web con hechos que fundamentan la respuesta de la IA.

    Lea el documento de investigaci贸n:

    Resumen de la p谩gina web: Un conjunto de datos para la recuperaci贸n de oraciones para di谩logos abiertos

    Documento de investigaci贸n real: Un conjunto de datos para la recuperaci贸n de oraciones para di谩logos abiertos

    Imagen destacada de Shutterstock/Camilo Concha

    Fuente: 驴Se utiliza este conjunto de datos para la b煤squeda de IA de Google?

    Populares

    M谩s de esta categor铆a

    DEJA UNA RESPUESTA

    Por favor ingrese su comentario!
    Por favor ingrese su nombre aqu铆

    Este sitio usa Akismet para reducir el spam. Aprende c贸mo se procesan los datos de tus comentarios.