Un artículo de investigación de Apple insinúa títulos de LLM en iPhone y Mac

chip de computadora de Apple — Imagen creada con Bing Image Creator

Este artículo es parte de nuestra cobertura de las últimas investigaciones sobre IA.

Apple ha llegado tarde al juego de los modelos de lenguajes grandes (LLM), pero recientemente ha realizado movimientos interesantes. Los investigadores de la compañía revelaron recientemente una manera de lograr esto de manera significativa. Reduce los requisitos de memoria. Para ejecutar LLM. Este logro se basa en nuevas tecnologías de almacenamiento y administración de memoria que transfieren dinámicamente pesos de modelos entre la memoria flash y DRAM mientras mantienen la latencia impresionantemente baja.

Su enfoque permite que estos modelos grandes funcionen con un rendimiento decente, incluso cuando están parcialmente cargados en la RAM del dispositivo. Esto podría ser importante para Apple, que no tiene un negocio de gran escala y se beneficiaría enormemente de la IA en el dispositivo. Esta tecnología podría permitir que los futuros iPhone y Mac aprovechen el poder de los LLM sin sobrecargar la memoria del sistema.

Requisitos de memoria para LLM

Los LLM son conocidos por sus grandes requisitos de memoria. Por ejemplo, un modelo con 7 mil millones de parámetros con la mitad de precisión requiere más de 14 GB de RAM. Estos requisitos superan la capacidad de la mayoría de los dispositivos de alta gama.

Una forma de abordar esto es la cuantización, comprimiendo modelos convirtiendo parámetros a enteros de 8 o 4 bits. Sin embargo, la cuantificación a menudo requiere modificaciones en el modelo o incluso un reentrenamiento completo. En algunos casos, los LLM cuantitativos todavía son demasiado grandes para inferirlos en el dispositivo.

La investigación de Apple intenta abordar el problema desde un ángulo diferente: ¿Cómo podemos implementar un modelo en dispositivos que carecen de la memoria necesaria?

Cargar LLM desde la memoria flash

La memoria flash es mucho más lenta que la DRAM (Fuente: arxiv)

Memoria flash versus DRAM — La memoria flash es mucho más lenta que la DRAM (Fuente: arxiv)

Una estrategia para resolver el problema del cuello de botella de la memoria es almacenar el LLM en la memoria flash y cargarlo en la RAM de forma incremental para realizar tareas de inferencia. Si bien la memoria flash es más abundante en el hardware que la memoria dinámica de acceso aleatorio (DRAM), es más lenta al menos en un orden de magnitud.

READ El juego y reloj de Nintendo con temática de Zelda es una carta de amor a los orígenes de Link de 8 bits

Un enfoque ingenuo de inferencia que utilice memoria flash requeriría recargar todo el modelo para cada paso hacia adelante. Este proceso es lento (a menudo tarda unos segundos incluso en los modelos compactos) y consume mucha energía.

En su artículo, los investigadores de Apple presentan un conjunto de técnicas de optimización diseñadas para simplificar el proceso de carga del modelo desde la memoria flash a la DRAM. Estos métodos tienen como objetivo mantener la velocidad de inferencia manteniendo bajo el consumo de memoria.

Aprovecha la dispersión del modelo.

Los modelos de lenguaje se basan en bloques transformadores, que constan de dos componentes críticos: el mecanismo de atención y la red de retroalimentación (FFN). Los estudios muestran que los FFN en los LLM tienen una dispersión significativa, y muchos de sus valores se vuelven cero o cercanos a cero después de la activación, lo que los hace irrelevantes para la inferencia. Sorprendentemente, la dispersión en algunas capas de FFN puede superar el 95%.

Los investigadores de Apple proponen aprovechar esta dispersión para mejorar la inferencia del modelo. Al encontrar y cargar sólo elementos no dispersos durante la inferencia, los costos de memoria se pueden reducir significativamente. Su estrategia implica cargar completamente capas de atención relativamente más pequeñas, mientras carga selectivamente solo las partes no dispersas del FFN en la DRAM.

“Nuestro enfoque implica transferir de forma iterativa sólo datos esenciales y no escasos desde la memoria flash a la DRAM para su procesamiento durante la inferencia”, escriben los investigadores.

El componente de predicción de rango bajo determina qué neuronas deben cargarse desde la memoria flash a la RAM (Fuente: arxiv)

Herramienta de predicción del cargador flash Apple LLM — El componente de predicción de rango bajo determina qué neuronas deben cargarse desde la memoria flash a la RAM (Fuente: arxiv)

Para lograr esto, utilizan una red “predictiva de bajo rango” que identifica qué partes del FFN no serán dispersas y minimiza la cantidad de datos que deben cargarse. Las neuronas activas identificadas por el predictor luego se transfieren a la memoria.

Ventanas correderas

Los investigadores de Apple también crearon una “tecnología de ventana deslizante” para gestionar la carga y descarga de neuronas durante la inferencia del modelo. Este método solo mantiene datos neuronales para un subconjunto reciente de símbolos de entrada en la memoria, liberando espacio para símbolos más antiguos a medida que aparecen nuevos símbolos. Su investigación revela que con cada nuevo token, sólo es necesario intercambiar unas pocas neuronas, lo que simplifica el asunto. Transfiera datos de la memoria flash a la RAM.

READ Samsung Best of Galaxy Store Awards se estrenará el 6 de diciembre de 2022 en Youtube

“Esta estrategia permite un uso eficiente de la memoria, porque libera recursos de memoria previamente asignados a datos neuronales de códigos antiguos que ya no existen dentro de la ventana deslizante”, escribieron los investigadores.

La ventana deslizante determina qué neuronas mantener en la memoria y liberarlas en función de los tokens recientes.

Ventana del icono de Apple — La ventana deslizante determina qué neuronas mantener en la memoria y liberarlas en función de los tokens recientes.

El tamaño de la ventana deslizante se puede configurar según las limitaciones de memoria del dispositivo que ejecuta el modelo.

Optimice el almacenamiento y la descarga

La investigación del equipo de Apple muestra que la activación neuronal en diferentes capas sigue patrones que pueden aprovecharse para mejorar el almacenamiento. Proponen reorganizar el modelo de almacenamiento de peso en función de qué neuronas deben cargarse juntas. Esta disposición permite que el sistema obtenga un único bloque de datos contiguo en una única operación de lectura.

Los investigadores también examinaron los beneficios de almacenar juntas las neuronas activadas. Este método permite que el sistema utilice una gran parte de la memoria flash. Aunque los resultados de este experimento en particular no cumplieron con las expectativas, los conocimientos son prometedores para guiar futuros esfuerzos de investigación.

Los parámetros LLM se pueden almacenar de una manera que optimice su carga desde la memoria flash a la RAM.

El almacenamiento inteligente de Apple de parámetros LLM — Los parámetros LLM se pueden almacenar de una manera que optimice su carga desde la memoria flash a la RAM.

Además, el equipo diseñó una nueva estructura de datos y un algoritmo de asignación de memoria dinámica. Esta innovación reduce la frecuencia de las asignaciones de memoria y permite que el modelo acceda aproximadamente al 25% de las neuronas FFN sin una degradación significativa del rendimiento.

Los LLM son más rápidos en dispositivos con poca memoria

El equipo de investigación de Apple probó sus tecnologías en dos modelos diferentes, el OPT 6.7B y una variante del Falcon 7B, en dos configuraciones de hardware. La primera plataforma fue un Apple M1 Max con un SSD de 1 TB que actuaba como memoria flash. La segunda serie de pruebas se realizó en una máquina Linux con una tarjeta gráfica NVIDIA GeForce RTX 4090 de 24 GB. En sus experimentos, cargaron sólo alrededor del 50% de los pesos del modelo en la memoria en un momento dado.

READ Apple revisa la experiencia de pago del iPhone con imágenes más grandes, enfoque en intercambios y más

En M1 Max, la simple carga del modelo desde la memoria flash a la RAM para cada inferencia puede dar como resultado una latencia de 2,1 segundos por token. Sin embargo, al implementar sus nuevas técnicas (predicción escasa, ventanas y almacenamiento inteligente), el equipo pudo reducir esta latencia a aproximadamente 200 milisegundos. Las mejoras en los sistemas equipados con GPU fueron aún más pronunciadas.

“Demostramos la capacidad de ejecutar LLM con hasta el doble de cantidad de DRAM disponible, logrando una aceleración de 4 a 5 veces en la velocidad de inferencia en comparación con los métodos de carga tradicionales en la CPU, y de 20 a 25 veces en la GPU”, escribieron los investigadores.

Los investigadores creen que sus hallazgos podrían tener implicaciones importantes para futuras investigaciones y destacan “la importancia de considerar las características del hardware al desarrollar algoritmos de inferencia óptimos”.

“Creemos que a medida que los estudiantes de LLM sigan creciendo en tamaño y complejidad, enfoques como este serán esenciales para aprovechar todo su potencial en una amplia gama de dispositivos y aplicaciones”, escribieron.

Realmente me gustó este artículo porque combina conocimientos de modelos de aprendizaje automático y un conocimiento profundo del diseño de hardware y memoria. Esto podría ser un precursor del tipo de investigación práctica y aplicada que podemos esperar de Apple en el futuro. Podemos esperar que estas innovaciones se integren en futuros productos Apple y lleven capacidades avanzadas de IA a los dispositivos de consumo.

Vito Gil

“Alborotador. Amante de la cerveza. Total aficionado al alcohol. Sutilmente encantador adicto a los zombis. Ninja de twitter de toda la vida”.