Los autores:
(1) Vishaal Udandarao, Centro de Inteligencia Artificial de Tubingen, Universidad de Tubingen, Universidad de Cambridge, y contribución igual;
(2) Ameya Prabhu, Centro de Inteligencia Artificial de Tubingen, Universidad de Tubingen, Universidad de Oxford, y contribución igual;
(3) Adhiraj Ghosh, Centro de IA de Tubingen, Universidad de Tubingen;
(4) Yash Sharma, Centro de IA de Tubingen, Universidad de Tubingen;
Philip H.S. Torr, Universidad de Oxford.
(6) Adel Bibi, Universidad de Oxford;
(7) Samuel Albanie, Universidad de Cambridge y igual asesoramiento, orden decidido por un flip de moneda;
(8) Matthias Bethge, Tubingen AI Center, Universidad de Tubingen y igual asesoramiento, orden decidido por un flip de moneda.
Authors:
(1) Vishaal Udandarao, Centro de Inteligencia Artificial de Tubingen, Universidad de Tubingen, Universidad de Cambridge, y contribución igual;
(2) Ameya Prabhu, Centro de Inteligencia Artificial de Tubingen, Universidad de Tubingen, Universidad de Oxford, y contribución igual;
(3) Adhiraj Ghosh, Centro de IA de Tubingen, Universidad de Tubingen;
(4) Yash Sharma, Centro de IA de Tubingen, Universidad de Tubingen;
Philip H.S. Torr, Universidad de Oxford.
(6) Adel Bibi, Universidad de Oxford;
(7) Samuel Albanie, Universidad de Cambridge y igual asesoramiento, orden decidido por un flip de moneda;
(8) Matthias Bethge, Tubingen AI Center, Universidad de Tubingen y igual asesoramiento, orden decidido por un flip de moneda.
Mesa de la izquierda
2 Conceptos en la preparación de datos y la cuantificación de la frecuencia
3.2 Resultado: la frecuencia de pre-entrenamiento es predictiva del rendimiento de “zero-shot”
4.2 Generalización de pruebas a conceptos puramente sintéticos y distribuciones de datos
5 Insights adicionales de las frecuencias de concepto de pre-entrenamiento
6 Prueba de la cola: ¡Deja que se vea!
8 Conclusiones y problemas abiertos, reconocimientos y referencias
Part I
Appendix
A. Frecuencia conceptual es predictiva del rendimiento a través de estrategias de prompting
B. Frecuencia conceptual es predictiva del rendimiento a través de las métricas de recuperación
C. La frecuencia del concepto es predictiva del rendimiento para los modelos T2I
¿Por qué y cómo utilizamos RAM++?
G. Detalles sobre los resultados del grado de desequilibrio
I. Resultados de la clasificación: ¡Deja que valga!
Abstracción
Los conjuntos de datos de pre-entrenamiento rastreados por la web se basan en el impresionante rendimiento de evaluación de “zero-shot” de modelos multimodales, como CLIP para la clasificación/recuperación y Stable-Diffusion para la generación de imágenes.generalizaciónes para tales modelos multimodales, ya que no se conoce en qué medida sus conjuntos de datos de pre-entrenamiento abarcan los conceptos a continuación dirigidos a la evaluación “zero-shot”.¿Cómo es el rendimiento de los modelos multimodales en los conceptos descendentes influenciado por la frecuencia de estos conceptos en sus conjuntos de datos de pre-entrenamiento?
Investigamos de forma exhaustiva esta pregunta en 34 modelos y cinco conjuntos de datos pre-entrenamiento estándar (CC-3M, CC-12M, YFCC-15M, LAION-400M, LAION-Aesthetics), generando más de 300 GB de artefactos de datos. Consistentemente encontramos que, lejos de mostrar una generalización “zero-shot”, los modelos multimodales requieren de manera exponencial más datos para lograr mejoras lineales en el rendimiento de “zero-shot” a continuación, siguiendo una tendencia de escala log-linear ineficiente de muestras. Esta tendencia persiste incluso cuando se controla la similitud a nivel de muestreo entre los conjuntos de datos pre-entrenamiento y a continuación [79] y se prueban distribuciones de datos puramente sintéticas [51]. Además,¡Deja que se vea!Tomado en conjunto, nuestro estudio revela una necesidad exponencial de datos de capacitación que implica que la clave para las capacidades de generalización “zero-shot” bajo los paradigmas de capacitación a gran escala aún no se encuentra.
1 Introducción
Los modelos multimodales como CLIP [91] y Stable Diffusion [96] han revolucionado el rendimiento en las tareas subyacentes: CLIP es ahora el estándar de hecho para el reconocimiento de imágenes “zero-shot” [133, 72, 126, 48, 132] y la recuperación de texto de imágenes [46, 64, 24, 117, 129], mientras que Stable Diffusion es ahora el estándar de hecho para la generación de texto a imagen “zero-shot” (T2I) [93, 17, 96, 41]. En este trabajo, investigamos este éxito empírico a través de la lente de la generalización de cero-shot [69], que se refiere a la capacidad del modelo de aplicar sus conocimientos aprendidos a nuevos conceptos invisibles.¿Son los modelos multimodales actuales realmente capaces de generalizar “zero-shot”?
Para abordar esto, realizamos un análisis comparativo que involucra dos factores principales: (1) el desempeño de los modelos en varias tareas subyacentes y (2) la frecuencia de los conceptos de prueba dentro de sus conjuntos de datos de pre-entrenamiento. Compilamos una lista completa de 4,029 conceptos[1] de 27 tareas subyacentes que abarcan la clasificación, la recuperación y la generación de imágenes, evaluando el desempeño frente a estos conceptos. Nuestro análisis abarcó cinco conjuntos de datos de pre-entrenamiento a gran escala con diferentes escalas, métodos de curado de datos y fuentes (CC-3M [107], CC-12M [27], YFCC-15M [113], LAION-Aesthetics [103], LAION-400M [102]), y evaluamos el desempeño de 10 modelos CLIPEl modelo escala el rendimiento linealmente a medida que la frecuencia del concepto en los datos de pre-entrenamiento crece exponencialmente. Es decir,Descubrimos que esta tendencia log-lineal es robusta para el control de factores correlacionados (muestras similares en datos de pre-entrenamiento y prueba [79]) y pruebas en diferentes distribuciones de conceptos junto con muestras generadas totalmente sintéticamente [51].
El modelo escala el rendimiento linealmente a medida que la frecuencia del concepto en los datos de pre-entrenamiento crece exponencialmente.
Nuestros hallazgos indican que el impresionante rendimiento empírico de los modelos multimodales como CLIP y Stable Diffusion se puede atribuir en gran medida a la presencia de conceptos de prueba dentro de sus vastos conjuntos de datos de pre-entrenamiento, por lo que su rendimiento empírico reportado no constituye una generalización “zero-shot”.
En nuestro análisis, también documentamos la distribución de los conceptos encontrados en los datos de pretraining y encontramos que:
• Concept Distribution:A través de todos los conjuntos de datos de pre-entrenamiento, la distribución de conceptos es de cola larga (ver Figura 5 en Sección 5), lo que indica que una gran fracción de conceptos son raros.
• Concept Correlation across Pretraining Datasets:La distribución de los conceptos en diferentes conjuntos de datos de pre-entrenamiento están fuertemente correlacionados (ver Tabla 4 en Sección 5), lo que sugiere que los crawles web producen distribuciones de conceptos sorprendentemente similares en diferentes estrategias de curado de datos de pre-entrenamiento, lo que requiere esfuerzos explícitos de reequilibrio [11, 125].
• Image-Text Misalignment between Concepts in Pretraining Data:Los conceptos a menudo aparecen en una modalidad pero no en la otra, lo que implica un mal alineamiento significativo (ver Tabla 3 en Sección 5).Nuestros artefactos de datos publicados pueden ayudar a los esfuerzos de alineamiento de imagen-texto a escala al indicar con precisión los ejemplos en los que las modalidades mal alinean.
Para proporcionar un punto de referencia simple para el rendimiento de la generalización para los modelos multimodales, que controla la frecuencia del concepto en el conjunto de capacitación, introducimos un nuevo conjunto de datos de prueba de cola larga llamado“¡Deja que se vea!”Los modelos actuales entrenados en ambos conjuntos de datos abiertamente disponibles (por ejemplo, LAION-2B [103], DataComp-1B [46]) y conjuntos de datos de código cerrado (por ejemplo, OpenAI-WIT [91], WebLI [29]) tienen caídas significativas en el rendimiento, proporcionando evidencia de que nuestras observaciones también pueden transferirse a conjuntos de datos de código cerrado.
Varios trabajos previos [91, 46, 82, 42, 83, 74] han investigado el papel de los datos de pretraining en afectar el rendimiento. Mayilvahanan et al. [79] mostraron que el rendimiento de CLIP está correlacionado con la similitud entre los conjuntos de datos de entrenamiento y de prueba. En otros estudios sobre áreas específicas como la respuesta a preguntas [62] y el razonamiento numérico [94] en los modelos de idiomas grandes, la similitud de los conjuntos de pruebas de tren alto no tomó plenamente en cuenta los niveles de rendimiento observados [127]. Nuestro análisis integral de varios conjuntos de datos de imágenes-texto de pretraining agrega significativamente a esta línea de trabajo, al (1) mostrar que la frecuencia del concepto determina el rendimiento de disparo cero y (2) identificar la necesidad expon
Este artículo está disponible en archivo bajo la licencia CC BY 4.0 DEED.
Este documento es
[1] Categorías de clase para tareas de clasificación, objetos en los subtítulos de texto para tareas de búsqueda, y objetos en los prompts de texto para tareas de generación, consulte Sección 2 para obtener más detalles sobre cómo definimos conceptos.