Los investigadores de NVIDIA presentan nuevos modelos y técnicas de IA visual generativa en el Visión por computadora y reconocimiento de patrones (CVPR) esta semana en Seattle. Los avances abarcan áreas como generación de imágenes personalizadas, edición de escenas 3D, comprensión del lenguaje visual y percepción de vehículos autónomos.
«La inteligencia artificial, y la IA generativa en particular, representa un avance tecnológico fundamental», dijo Jan Kautz, vicepresidente de investigación de aprendizaje y percepción de NVIDIA.
«En CVPR, NVIDIA Research comparte cómo estamos superando los límites de lo que es posible: desde potentes modelos de generación de imágenes que podrían potenciar a los creadores profesionales hasta software de conducción autónoma que podría ayudar a habilitar vehículos autónomos de próxima generación».
Entre los más de 50 proyectos de investigación de NVIDIA presentados, dos artículos han sido seleccionados como finalistas para los premios CVPR Best Paper Awards: uno explora el dinámica de entrenamiento de modelos de difusión y otro en mapas de alta definición para vehículos autónomos.
Además, NVIDIA ganó la pista de conducción a escala de extremo a extremo del CVPR Automobiles Grand Challenge, superando a más de 450 participantes en todo el mundo. Este hito demuestra el trabajo pionero de NVIDIA en el uso de IA generativa para modelos integrales de vehículos autónomos, y también obtuvo un Premio a la Innovación de CVPR.
Uno de los principales proyectos de investigación es jediuna nueva técnica que permite a los creadores personalizar rápidamente los modelos de difusión (el enfoque líder para la generación de texto a imagen) para representar objetos o personajes específicos utilizando solo unas pocas imágenes de referencia, en lugar del proceso de ajuste fino que requiere mucho tiempo. conjuntos de datos.
Otro avance es FundaciónPose, un nuevo modelo básico que puede comprender y rastrear instantáneamente la pose 3D de los objetos en videos sin entrenamiento por objeto. Estableció un nuevo récord de rendimiento y podría desbloquear nuevas aplicaciones de robótica y AR.
Los investigadores de NVIDIA también presentaron NeRFDeformer, un método para editar la escena 3D capturada por un campo de radiación neuronal (NeRF) utilizando una única instantánea 2D, en lugar de tener que reanimar manualmente los cambios o recrear el NeRF por completo. Esto podría agilizar la edición de escenas 3D para aplicaciones de gráficos, robótica y gemelos digitales.
En el frente del lenguaje visual, NVIDIA colaboró con el MIT para desarrollar VILA, una nueva familia de modelos de lenguaje visual que logran un rendimiento de vanguardia en la comprensión de imágenes, videos y texto. Con capacidades de razonamiento mejoradas, VILA puede incluso comprender memes de Internet combinando comprensión visual y lingüística.
La investigación de IA visual de NVIDIA abarca numerosas industrias, incluidos más de una docena de artículos que exploran enfoques novedosos para la percepción, el mapeo y la planificación de vehículos autónomos. Sanja Fidler, vicepresidenta del equipo de investigación de IA de NVIDIA, presenta el potencial de los modelos de lenguaje visual para vehículos autónomos.
La amplitud de la investigación CVPR de NVIDIA ejemplifica cómo la IA generativa podría empoderar a los creadores, acelerar la automatización en la fabricación y la atención médica, al tiempo que impulsa la autonomía y la robótica.
(Foto por v2osk)
Ver también: NLEP: cerrando la brecha entre los LLM y el razonamiento simbólico
¿Quiere aprender más sobre IA y big data de la mano de los líderes de la industria? Verificar Exposición de IA y Big Data que tendrá lugar en Amsterdam, California y Londres. El evento integral comparte ubicación con otros eventos importantes, incluidos Conferencia de automatización inteligente, bloquex, Semana de la Transformación Digitaly Exposición de seguridad cibernética y nube.
Explore otros próximos eventos y seminarios web de tecnología empresarial impulsados por TechForge aquí.
Fuente: NVIDIA presenta los últimos avances en IA visual