Inicio Noticias

noticias de la compañía sobre Lightbits y demostración de ScaleFlux aceleración de caché de 100x a 280x KV

Todos los productos

Servidor del almacenamiento de estante
(179)

Servidor de la fusión de Huawei
(31)

Dell Poweredge Server
(59)

Servidor de H3C
(31)

Interruptores del Datacom
(96)

Dispositivo de la red inalámbrica (WLAN)
(21)

Router inalámbrico elegante
(17)

Disco duro HDD
(78)

SSD interno del disco duro
(16)

Tarjeta gráfica de Geforce
(27)

Procesador de la CPU de INTEL
(20)

Memoria RAM del servidor
(6)

Servidor restaurado del almacenamiento
(6)

Módulo del transmisor-receptor de SFP
(4)

Interruptor de canal de la fibra
(125)

Certificación

China Beijing Qianxing Jietong Technology Co., Ltd. certificaciones

Comentarios de cliente

El personal de ventas de la tecnología Co., Ltd de Pekín Qianxing Jietong es muy profesional y paciente. Pueden proporcionar citas rápidamente. La calidad y el empaquetado de los productos son también muy buenos. Nuestra cooperación es muy lisa.

—— LLC del》 de Festfing DV del 《

Cuando buscaba la CPU de Intel y el SSD de Toshiba urgente, Sandy de la tecnología Co., Ltd de Pekín Qianxing Jietong me dio mucha ayuda y me consiguió los productos que necesité rápidamente. La aprecio realmente.

—— Kitty Yen

Sandy de la tecnología Co., Ltd de Pekín Qianxing Jietong es un vendedor muy cuidadoso, que puede recordarme errores de la configuración a tiempo cuando compro un servidor. Los ingenieros son también muy profesionales y pueden terminar rápidamente el proceso de prueba.

—— Strelkin Mikhail Vladimirovich

Estamos muy contentos con nuestra experiencia trabajando con Beijing Qianxing Jietong. La calidad del producto es excelente y la entrega siempre es puntual. Su equipo de ventas es profesional, paciente y muy útil con todas nuestras preguntas. Realmente apreciamos su apoyo y esperamos una asociación a largo plazo. ¡Muy recomendado!

—— Ahmad Navid

Calidad: Gran experiencia con mi proveedor. El MikroTik RB3011 ya estaba usado, pero estaba en muy buen estado y todo funcionaba perfectamente.y todas mis preocupaciones fueron abordadas rápidamenteUn proveedor muy confiable, muy recomendable.

—— Geran Colesio

Estoy en línea para chatear ahora

Compañía Noticias

Lightbits y demostración de ScaleFlux aceleración de caché de 100x a 280x KV

Lightbits Labs y ScaleFlux han logrado un100x a 280x de mejora del rendimientopara cargas de trabajo de caché KV aprovechando el software de caché LightInferra para leer datos de los SSD de almacenamiento computacional ScaleFlux.

Las dos compañías suministraron datos de caché KV a las GPU desplegadas dentro de un entorno de centro de datos FarmGPU, y mostrarán este avance en la próxima conferencia GTC de Nvidia.Una caché KV almacena vectores de tokens en la memoria de gran ancho de banda de una GPU (HBM)Una vez que se agota la capacidad de HBM, los bloques de datos de la caché KV deben ser recalculados, un proceso que consume tiempo y degrada la formación de la IA y las velocidades de inferencia.Esta desaceleración se hace especialmente pronunciada a medida que las cargas de trabajo de IA aumentan, lo que lleva a un fuerte aumento en el número de fichas utilizadas para generar vectores.

El software de caché KV expande lógicamente la capa de caché hacia afuera: primero a la CPU x86 y su DRAM en el servidor GPU, luego a las unidades NVMe locales en el mismo sistema x86, y más adelante a las SSD NVMe externas.Esta expansión por niveles elimina la necesidad de volver a calcular los vectores de tokensSi bien los SSD NVMe tienen naturalmente una latencia de acceso más alta que HBM o DRAM, recuperar vectores de tokens precomputados es mucho más rápido que recalcular decenas de miles de ellos desde cero.Lightbits y ScaleFlux afirman que su solución acelera drásticamente la recuperación de datos de caché KV de SSD.

Arthur Rasmusson, Director de Arquitectura de IA en Lightbits Labs, declaró: "Estamos transformando la memoria de inferencia de una caché reactiva en una capa de datos inteligente y transmitida".

- ¿Cómo lo hizo?

¢Al preobtener solo los datos que importan y entregarlos a las GPU a través de RDMA de alta velocidad antes de que sea necesario, eliminamos los puestos que tradicionalmente limitan el rendimiento de contexto largo.El resultado es un tiempo menor para el primer token (TTFT), un rendimiento más estable bajo carga real y una utilización efectiva de la GPU significativamente mayor.

Keith McKay, Director Senior de Arquitectura de Soluciones y Alianzas Técnicas en ScaleFlux, comentó:Lo que estamos mostrando en el GTC es una primera mirada a cómo una colocación de datos más inteligente y una gestión persistente del estado de atención podrían ayudar a los sistemas de inferencia a seguir respondiendo a medida que crecen las ventanas de contextoEsta es una colaboración que queremos formar junto con operadores reales.

Tanto Lightbits como ScaleFlux tienen como objetivo alentar a los operadores de nube e infraestructura a adoptar su software y SSD, eliminando el costoso tiempo de inactividad de la GPU.

Primero examinemos la contribución de ScaleFlux, luego pasemos a la capa de software Lightbits más sofisticada.

ScaleFlux proporciona NVMe SSD y unidades de almacenamiento computacional (CSD) equipadas con tecnología de reducción de escritura basada en hardware (WRT).Alimentado por compresión acelerada por hardware y gestión de metadatos impulsada por SoC, estas unidades ofrecen hasta cuatro veces más capacidad lógica que el almacenamiento físico, sin dejar de ser totalmente transparentes para los sistemas de alojamiento.La compañía es miembro del consorcio Open Flash Platform (OFP)., que está trabajando para redefinir la infraestructura de datos de IA con densidad, baja latencia,Sistemas de eficiencia energética que ofrecen 10 veces la densidad del almacenamiento convencional de IA basado en archivos y sólo una décima parte del consumo de energía.

Basándose en estas unidades de almacenamiento, Lightbits agrega pre-recuperación inteligente de datos de KV Cacheantes de esoLas GPU lo requieren, evitando los estancamientos causados por la capacidad KV insuficiente o el costoso recomputo de vectores de tokens.Su software LightInferra utiliza algoritmos de almacenamiento en caché optimizados por KV Cache para extraer los datos requeridos en la memoria de la GPU a velocidades RDMA antes de la demanda real.

Una vez más, cómo?

El software se ejecuta en el host x86 incrustado dentro de los servidores de GPU y rastrea los patrones de acceso de los bloques de datos de KV Cache.funciona con un motor SLSAP para identificar los bloques de KV más probables de ser necesarios a continuación.

Este motor combina el hashing sensible a la localidad (LSH) con el modelado de reutilización estadística analizar la localidad de acceso histórico en los cálculos de atención para puntuar y priorizar los bloques KV,Luego selecciona los que tienen la mayor probabilidad de ser solicitados por las GPU.

Este proceso de selección aprovecha la escasez inherente en el acceso a datos de la GPU: la mayoría de los tokens solo se relacionan significativamente con un pequeño subconjunto de tokens anteriores.la solución reduce drásticamente el volumen de vectores de token que deben ser transmitidos de vuelta a las GPU.

Un segundo algoritmo se centra en los patrones de reutilización: fichas recientes, fichas semánticamente similares,y patrones estructurales comunes en RAG o escenarios de chat de múltiples vueltas se reutilizan con frecuencia y se priorizan en consecuencia.

LightInferra recupera estos bloques de tokens primero de la DRAM de los servidores x86, o de SSDs externos de ScaleFlux si es necesario, luego los precarga en el HBM de la GPU a través de enlaces RDMA.

Lightbits ha comparado este enfoque contra el recomputo de contenido almacenado en caché desde cero utilizando cargas de trabajo de modelos de lenguaje grandes, midiendo mejoras en Time-to-First-Token (TTFT).Las cifras de aceleración de 100 a 280 veces indicadas se derivan directamente de los resultados de estos ensayos..

Por supuesto, nos encantaría ver resultados de referencia comparando la aceleración de Lightbits-ScaleFlux KV Cache

El sistema de aceleración de KV Cache de DDN, Hammerspace, VAST Data, WEKA y otros.

no están disponibles.

Hay gráficos que muestran cómo LightInferra-ScaleFlux progresivamente mejorado en la regeneración de caché TTFT

a medida que aumenta el tamaño del modelo.

últimas noticias de la compañía sobre Lightbits y demostración de ScaleFlux aceleración de caché de 100x a 280x KV 1

Todos los datos de referencia relacionados se presentan en gráficos de escala logarítmica, diseñados principalmente para profesionales de la informática, pero el lenguaje sencillo hace que el impacto del mundo real sea mucho más fácil de comprender:El resultado es un rendimiento sostenido de tiempo a primer token (TTFT) a medida que el contexto va de 100k tokens a 1 millón y más.

Como dice Jonmichael Hands de FarmGPU, cuando se reanuda una conversación de 400k tokens y el sistema tiene que regenerar toda la caché KV desde cero,Eso significa dos minutos completos de tiempo de ejecución de la GPU con cero fichas producidasLightInferra cambia el modelo económico por completo la misma carga de trabajo genera su primer token en menos de medio segundo, convirtiendo un nivel de producto no viable en uno rentable.

Lightbits y ScaleFlux han diseñado esta solución conjunta específicamente para las granjas de GPU neocloud de próxima generación, donde las grandes cápsulas de GPU ejecutan cientos o incluso miles de cargas de trabajo concurrentes de modelos de IA.Casi todas estas cargas de trabajo alcanzarán el límite de la capacidad de caché KV en la memoria de gran ancho de banda (HBM) de la GPU.

Bajo las configuraciones tradicionales, los equipos se enfrentan a dos opciones costosas: lentamente buscar vectores de token de almacenamiento externo genérico,o el proceso mucho más lento de recomputar esos vectores desde cero, ambos de los cuales dejan las GPU inactivas durante horas.La combinación de LightInferra y ScaleFlux elimina por completo este punto doloroso paralizante de la industria.

El CEO de FarmGPU, Jonmichael Hands, añadió: "El almacenamiento en red rápido de Lightbits desbloquea una gran cantidad de nuevos casos de uso para la inferencia de contexto largo.Al emparejar nuestro servicio administrado con el almacenamiento de alto rendimiento de Lightbits que se ejecuta en unidades NVMe de ScaleFlux, podemos reducir el tiempo para el primer token y aumentar la utilización de la GPU, reduciendo drásticamente el costo total de propiedad (TCO) para las cargas de trabajo de inferencia.

China, China, China, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón.
Sandy Yang, directora de estrategia global
WhatsApp / WeChat: +86 13426366826 El número de teléfono es:
Correo electrónico: yangyd@qianxingdata.com
Página web:La información de las empresas incluidas en el anexo I del Reglamento (UE) n.o 1303/2013 es la siguiente:

Enfoque en el negocio:
Distribución de productos TIC/Integración de sistemas y servicios/Soluciones de infraestructura
Con más de 20 años de experiencia en distribución de TI, nos asociamos con las principales marcas globales para ofrecer productos confiables y servicios profesionales.
Usar la tecnología para construir un mundo inteligente¡Su proveedor de servicios de productos TIC de confianza!

Tiempo del Pub : 2026-03-18 11:34:46 >> Lista de las noticias

Contacto

Beijing Qianxing Jietong Technology Co., Ltd.

Persona de Contacto: Ms. Sandy Yang

Teléfono: 13426366826

noticias de la compañía sobre Lightbits y demostración de ScaleFlux aceleración de caché de 100x a 280x KV

Servidor del almacenamiento de estante

Servidor de la fusión de Huawei

Dell Poweredge Server

Servidor de H3C

Interruptores del Datacom

Dispositivo de la red inalámbrica (WLAN)

Router inalámbrico elegante

Disco duro HDD

SSD interno del disco duro

Tarjeta gráfica de Geforce

Procesador de la CPU de INTEL

Memoria RAM del servidor

Servidor restaurado del almacenamiento

Módulo del transmisor-receptor de SFP

Interruptor de canal de la fibra

- ¿Cómo lo hizo?

Una vez más, cómo?

Servidor del almacenamiento de estante

12 servidor montado en rack del estante de Lenovo ThinkSystem SR630 del servidor de las bahías 1U

Procesador de Intel Xeon E-2378G del servidor del almacenamiento de estante de ThinkSystem SR250 V2 4SFF

Servidor del soporte de estante de Inspur NF5180M6 1U del servidor del almacenamiento de estante de Intel C621A

Servidor de la fusión de Huawei

Servidor 32 DDR4 DIMMs del estante de FusionServer 5288 V6 4U 44 discos duros de 3,5 pulgadas

Servidor ultra de alta densidad 1288H V5 del almacenamiento de la red del servidor 1U de la fusión de Huawei

Almacenamiento de destello híbrido del nuevo de Gen OceanStor 5310 Huawei servidor del estante