Lightbits Labs y ScaleFlux han logrado un100x a 280x de mejora del rendimientopara cargas de trabajo de caché KV aprovechando el software de caché LightInferra para leer datos de los SSD de almacenamiento computacional ScaleFlux.
Las dos compañías suministraron datos de caché KV a las GPU desplegadas dentro de un entorno de centro de datos FarmGPU, y mostrarán este avance en la próxima conferencia GTC de Nvidia.Una caché KV almacena vectores de tokens en la memoria de gran ancho de banda de una GPU (HBM)Una vez que se agota la capacidad de HBM, los bloques de datos de la caché KV deben ser recalculados, un proceso que consume tiempo y degrada la formación de la IA y las velocidades de inferencia.Esta desaceleración se hace especialmente pronunciada a medida que las cargas de trabajo de IA aumentan, lo que lleva a un fuerte aumento en el número de fichas utilizadas para generar vectores.
El software de caché KV expande lógicamente la capa de caché hacia afuera: primero a la CPU x86 y su DRAM en el servidor GPU, luego a las unidades NVMe locales en el mismo sistema x86, y más adelante a las SSD NVMe externas.Esta expansión por niveles elimina la necesidad de volver a calcular los vectores de tokensSi bien los SSD NVMe tienen naturalmente una latencia de acceso más alta que HBM o DRAM, recuperar vectores de tokens precomputados es mucho más rápido que recalcular decenas de miles de ellos desde cero.Lightbits y ScaleFlux afirman que su solución acelera drásticamente la recuperación de datos de caché KV de SSD.
Arthur Rasmusson, Director de Arquitectura de IA en Lightbits Labs, declaró: "Estamos transformando la memoria de inferencia de una caché reactiva en una capa de datos inteligente y transmitida".
- ¿Cómo lo hizo?
¢Al preobtener solo los datos que importan y entregarlos a las GPU a través de RDMA de alta velocidad antes de que sea necesario, eliminamos los puestos que tradicionalmente limitan el rendimiento de contexto largo.El resultado es un tiempo menor para el primer token (TTFT), un rendimiento más estable bajo carga real y una utilización efectiva de la GPU significativamente mayor.
Keith McKay, Director Senior de Arquitectura de Soluciones y Alianzas Técnicas en ScaleFlux, comentó:Lo que estamos mostrando en el GTC es una primera mirada a cómo una colocación de datos más inteligente y una gestión persistente del estado de atención podrían ayudar a los sistemas de inferencia a seguir respondiendo a medida que crecen las ventanas de contextoEsta es una colaboración que queremos formar junto con operadores reales.
Tanto Lightbits como ScaleFlux tienen como objetivo alentar a los operadores de nube e infraestructura a adoptar su software y SSD, eliminando el costoso tiempo de inactividad de la GPU.
Primero examinemos la contribución de ScaleFlux, luego pasemos a la capa de software Lightbits más sofisticada.
ScaleFlux proporciona NVMe SSD y unidades de almacenamiento computacional (CSD) equipadas con tecnología de reducción de escritura basada en hardware (WRT).Alimentado por compresión acelerada por hardware y gestión de metadatos impulsada por SoC, estas unidades ofrecen hasta cuatro veces más capacidad lógica que el almacenamiento físico, sin dejar de ser totalmente transparentes para los sistemas de alojamiento.La compañía es miembro del consorcio Open Flash Platform (OFP)., que está trabajando para redefinir la infraestructura de datos de IA con densidad, baja latencia,Sistemas de eficiencia energética que ofrecen 10 veces la densidad del almacenamiento convencional de IA basado en archivos y sólo una décima parte del consumo de energía.
Basándose en estas unidades de almacenamiento, Lightbits agrega pre-recuperación inteligente de datos de KV Cacheantes de esoLas GPU lo requieren, evitando los estancamientos causados por la capacidad KV insuficiente o el costoso recomputo de vectores de tokens.Su software LightInferra utiliza algoritmos de almacenamiento en caché optimizados por KV Cache para extraer los datos requeridos en la memoria de la GPU a velocidades RDMA antes de la demanda real.
Una vez más, cómo?
El software se ejecuta en el host x86 incrustado dentro de los servidores de GPU y rastrea los patrones de acceso de los bloques de datos de KV Cache.funciona con un motor SLSAP para identificar los bloques de KV más probables de ser necesarios a continuación.
Este motor combina el hashing sensible a la localidad (LSH) con el modelado de reutilización estadística analizar la localidad de acceso histórico en los cálculos de atención para puntuar y priorizar los bloques KV,Luego selecciona los que tienen la mayor probabilidad de ser solicitados por las GPU.
Este proceso de selección aprovecha la escasez inherente en el acceso a datos de la GPU: la mayoría de los tokens solo se relacionan significativamente con un pequeño subconjunto de tokens anteriores.la solución reduce drásticamente el volumen de vectores de token que deben ser transmitidos de vuelta a las GPU.
Un segundo algoritmo se centra en los patrones de reutilización: fichas recientes, fichas semánticamente similares,y patrones estructurales comunes en RAG o escenarios de chat de múltiples vueltas se reutilizan con frecuencia y se priorizan en consecuencia.
LightInferra recupera estos bloques de tokens primero de la DRAM de los servidores x86, o de SSDs externos de ScaleFlux si es necesario, luego los precarga en el HBM de la GPU a través de enlaces RDMA.
Lightbits ha comparado este enfoque contra el recomputo de contenido almacenado en caché desde cero utilizando cargas de trabajo de modelos de lenguaje grandes, midiendo mejoras en Time-to-First-Token (TTFT).Las cifras de aceleración de 100 a 280 veces indicadas se derivan directamente de los resultados de estos ensayos..

Por supuesto, nos encantaría ver resultados de referencia comparando la aceleración de Lightbits-ScaleFlux KV Cache
El sistema de aceleración de KV Cache de DDN, Hammerspace, VAST Data, WEKA y otros.
no están disponibles.
Hay gráficos que muestran cómo LightInferra-ScaleFlux progresivamente mejorado en la regeneración de caché TTFT
a medida que aumenta el tamaño del modelo.

Todos los datos de referencia relacionados se presentan en gráficos de escala logarítmica, diseñados principalmente para profesionales de la informática, pero el lenguaje sencillo hace que el impacto del mundo real sea mucho más fácil de comprender:El resultado es un rendimiento sostenido de tiempo a primer token (TTFT) a medida que el contexto va de 100k tokens a 1 millón y más.
Como dice Jonmichael Hands de FarmGPU, cuando se reanuda una conversación de 400k tokens y el sistema tiene que regenerar toda la caché KV desde cero,Eso significa dos minutos completos de tiempo de ejecución de la GPU con cero fichas producidasLightInferra cambia el modelo económico por completo la misma carga de trabajo genera su primer token en menos de medio segundo, convirtiendo un nivel de producto no viable en uno rentable.
Lightbits y ScaleFlux han diseñado esta solución conjunta específicamente para las granjas de GPU neocloud de próxima generación, donde las grandes cápsulas de GPU ejecutan cientos o incluso miles de cargas de trabajo concurrentes de modelos de IA.Casi todas estas cargas de trabajo alcanzarán el límite de la capacidad de caché KV en la memoria de gran ancho de banda (HBM) de la GPU.
Bajo las configuraciones tradicionales, los equipos se enfrentan a dos opciones costosas: lentamente buscar vectores de token de almacenamiento externo genérico,o el proceso mucho más lento de recomputar esos vectores desde cero, ambos de los cuales dejan las GPU inactivas durante horas.La combinación de LightInferra y ScaleFlux elimina por completo este punto doloroso paralizante de la industria.
El CEO de FarmGPU, Jonmichael Hands, añadió: "El almacenamiento en red rápido de Lightbits desbloquea una gran cantidad de nuevos casos de uso para la inferencia de contexto largo.Al emparejar nuestro servicio administrado con el almacenamiento de alto rendimiento de Lightbits que se ejecuta en unidades NVMe de ScaleFlux, podemos reducir el tiempo para el primer token y aumentar la utilización de la GPU, reduciendo drásticamente el costo total de propiedad (TCO) para las cargas de trabajo de inferencia.
China, China, China, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón.
Sandy Yang, directora de estrategia global
WhatsApp / WeChat: +86 13426366826 El número de teléfono es:
Correo electrónico: yangyd@qianxingdata.com
Página web:
La información de las empresas incluidas en el anexo I del Reglamento (UE) n.o 1303/2013 es la siguiente:
Enfoque en el negocio:
Distribución de productos TIC/Integración de sistemas y servicios/Soluciones de infraestructura
Con más de 20 años de experiencia en distribución de TI, nos asociamos con las principales marcas globales para ofrecer productos confiables y servicios profesionales.
Usar la tecnología para construir un mundo inteligente¡Su proveedor de servicios de productos TIC de confianza!