Google revoluciona la IA con TurboQuant: chatbots usan 6 veces menos memoria sin perder potencia

Nuevo algoritmo de compresión reduce drásticamente la memoria necesaria para IA en tiempo real

LAT Editorial Team

Photo credits: Live Science

Google ha presentado TurboQuant, una innovadora técnica que permite a los modelos de inteligencia artificial funcionar con hasta seis veces menos memoria de trabajo sin sacrificar su rendimiento. Esta tecnología comprime los datos en la memoria activa de la IA, conocida como caché clave-valor (KV), optimizando su uso durante las conversaciones y cálculos.

Esta reducción significativa en el consumo de memoria puede transformar la eficiencia de los sistemas de IA, facilitando su implementación en dispositivos con recursos limitados y reduciendo costos operativos, lo que podría marcar un antes y un después en la evolución de la inteligencia artificial.

¿Qué es TurboQuant y cómo funciona?

TurboQuant es un algoritmo de compresión que transforma los datos almacenados en la memoria de trabajo de la IA en una versión comprimida que el modelo puede utilizar igual que los datos originales, pero con un uso mucho menor de memoria. A diferencia de técnicas anteriores, TurboQuant realiza esta compresión en tiempo real, manteniendo la precisión y actualización de la información mientras la IA genera respuestas.

El desafío de la memoria en la inteligencia artificial

Los modelos de IA actuales requieren grandes cantidades de memoria para almacenar información temporal durante el procesamiento, especialmente en la caché KV. Por ejemplo, al responder una consulta sobre el clima, la IA guarda palabras clave y posibles respuestas en esta memoria. A medida que los modelos se vuelven más complejos, la cantidad de tokens almacenados puede alcanzar decenas de gigabytes, lo que implica un alto costo en hardware y energía.

Las técnicas detrás de TurboQuant: PolarQuant y QJL

TurboQuant combina dos métodos: PolarQuant y Quantized Johnson-Lindenstrauss (QJL). PolarQuant convierte los datos de coordenadas cartesianas a polares, alineando los vectores para facilitar su compresión. Luego, QJL ajusta ligeramente estos vectores para corregir errores derivados de la compresión, asegurando que la IA mantenga su precisión durante el procesamiento.

PolarQuant: transforma datos a coordenadas polares para mejor compresión.
QJL: optimiza vectores para corregir errores de cuantización.
Compresión en tiempo real para mantener datos actualizados.
Reducción de hasta 6 veces en el tamaño de la memoria KV.

Impacto y futuro de TurboQuant en la inteligencia artificial

Aunque TurboQuant aún está en fase experimental, sus pruebas en modelos como Meta Llama 3.1-8B y Google Gemma han mostrado resultados prometedores. Esta innovación podría reducir costos y facilitar la expansión de la IA en dispositivos móviles y otros entornos con limitaciones de memoria. Sin embargo, la compresión afecta principalmente la memoria durante la inferencia, no durante el entrenamiento, por lo que su impacto total en el consumo de memoria es moderado.

"TurboQuant mostró un gran potencial para reducir cuellos de botella en la memoria sin sacrificar el rendimiento del modelo de IA."—Representantes de Google

Expertos como Matthew Prince, CEO de Cloudflare, han comparado este avance con el 'DeepSeek' de Google, destacando su importancia para el futuro de la búsqueda y la inteligencia artificial. Google presentará oficialmente TurboQuant y sus métodos asociados en conferencias internacionales durante mayo de 2026.