MinIO ha lanzado MemKV, un almacén de memoria contextual dedicado creado para resolver un cuello de botella crítico dentro de los procesos de inferencia de IA a gran escala. MemKV, que sirve como la segunda solución insignia de MinIO junto con AIStor, expande la infraestructura de datos de la empresa al nivel de memoria. Está diseñado para ofrecer datos contextuales compartidos y persistentes para cargas de trabajo de IA agentes que se ejecutan en clústeres de GPU distribuidos.
AIStor MinIO
A medida que los sistemas de IA avanzan desde respuestas únicas hasta razonamientos de múltiples turnos y ejecución automatizada de tareas, mantener un contexto continuo a lo largo de los ciclos de inferencia se ha vuelto cada vez más esencial. En las arquitecturas existentes, los datos de contexto a menudo se descartan debido a la capacidad limitada de los niveles de memoria adyacentes a la GPU, incluidos HBM y DRAM. Esto obliga a las GPU a recalcular repetidamente el contexto existente, lo que aumenta la latencia, el uso de cómputo y el consumo de energía. MinIO define esta carga de trabajo redundante como el "impuesto de recalcular", una ineficiencia que empeora exponencialmente en entornos de nube a hiperescala.
MemKV está diseñado para aliviar este problema a través de una capa de memoria persistente compartida capaz de almacenar a escala de petabytes con latencia de acceso a nivel de microsegundos. Al retener datos contextuales a lo largo de los flujos de trabajo de inferencia, la plataforma reduce los cálculos redundantes y aumenta la eficiencia general de la infraestructura. Los datos de referencia internos de MinIO verifican la latencia mejorada del tiempo hasta el primer token en condiciones de simultaneidad de nivel de producción. En una implementación típica equipada con 128 GPU y ventanas de contexto de 128 000 tokens, la utilización de la GPU aumentó de aproximadamente el 50 % a más del 90 %, lo que se tradujo en reducciones sustanciales de los costos de procesamiento anuales.
Los ejecutivos de MinIO afirmaron que los gastos generales de recálculo siguen siendo imperceptibles en implementaciones de pequeña escala, pero se convierten en una falla estructural fundamental a escala empresarial. A medida que los clústeres de GPU se expanden, la regeneración repetida del contexto genera un mayor consumo de energía y gastos de infraestructura, lo que hace que los sistemas de memoria especializados sean indispensables para el funcionamiento sostenible de la IA.
Abordar el equilibrio entre la escala de la memoria
La infraestructura de IA heredada obliga a los desarrolladores a hacer concesiones entre la velocidad de acceso y la capacidad de almacenamiento. Los niveles de memoria de alto rendimiento, como HBM y DRAM, ofrecen una latencia de microsegundos, pero tienen límites de capacidad estrictos y costos elevados. Por el contrario, los sistemas de almacenamiento convencionales ofrecen una escalabilidad masiva, pero sufren de una latencia de milisegundos, lo que los hace incompatibles con la inferencia en tiempo real y las tareas de razonamiento de contexto prolongado.
Micron HBM4
MemKV cierra esta brecha en la industria al introducir un nivel intermedio de memoria compartida que equilibra una latencia ultrabaja y una gran escalabilidad de almacenamiento. Compatible de forma nativa con NVIDIA BlueField-4 STX e integrada con NVIDIA Dynamo junto con las herramientas NIXL, la solución permite que grupos completos de GPU accedan a grupos de datos contextuales unificados a velocidades de transmisión alineadas con inferencias. Este diseño elimina la migración frecuente de datos contextuales entre la memoria aislada y las capas de almacenamiento, lo que reduce la latencia y eleva el rendimiento del sistema.
NVIDIA BlueField-4
Arquitectura optimizada para cargas de trabajo de inferencia
Diseñado exclusivamente para canalizaciones de datos de inferencia, MemKV encaja en la capa G3.5 del marco de jerarquía de memoria GPU de MinIO. Construido sobre una infraestructura de almacenamiento NVMe, alcanza una capacidad de nivel de petabytes al tiempo que conserva una latencia de acceso de microsegundos, desacoplando con éxito la escalabilidad de la memoria de los recursos informáticos de la GPU.
El sistema abandona las engorrosas abstracciones de almacenamiento tradicionales y transfiere datos directamente desde las unidades NVMe a las canalizaciones de datos de IA a través de la transmisión RDMA de extremo a extremo. Esto reduce la sobrecarga de rendimiento provocada por los protocolos HTTP, la conversión de sistemas de archivos y los servidores de almacenamiento intermedio, cuellos de botella comunes en las arquitecturas de almacenamiento basadas en objetos y archivos.
Fuente: Google
Las optimizaciones arquitectónicas clave incluyen la ejecución binaria ARM64 nativa en NVIDIA BlueField-4 STX, integrada directamente dentro de la capa de almacenamiento para reducir la dependencia de nodos de almacenamiento x86 externos. Todas las transferencias de datos entre la memoria de la GPU y el almacenamiento NVMe adoptan la transmisión RDMA, sin pasar por las pilas de almacenamiento convencionales redundantes. Además, MemKV utiliza tamaños de bloques ampliados que van desde 2 MB a 16 MB, que están optimizados para las características de rendimiento de la GPU en lugar de los bloques de almacenamiento heredados de 4 KB. Admite tejidos de interconexión de alta velocidad de vanguardia, como NVIDIA Spectrum-X Ethernet y PCIe Gen6, lo que facilita la transmisión de datos casi a velocidad de cable entre clústeres.
Disponibilidad
MinIO MemKV ahora está disponible comercialmente para implementación empresarial.
Beijing Qianxing Jietong Tecnología Co., Ltd.
Sandy Yang/Director de Estrategia Global
WhatsApp/WeChat: +86 13426366826
Correo electrónico: yangyd@qianxingdata.com
Sitio web: www.qianxingdata.com/www.storagesserver.com
Enfoque empresarial:
Distribución de productos TIC/Integración de sistemas y servicios/Soluciones de infraestructura
Con más de 20 años de experiencia en distribución de TI, nos asociamos con marcas líderes a nivel mundial para ofrecer productos confiables y servicios profesionales.
“Uso de la tecnología para construir un mundo inteligente” ¡Su proveedor de servicios de productos TIC de confianza!
Sandy Yang/Director de Estrategia Global
WhatsApp/WeChat: +86 13426366826
Correo electrónico: yangyd@qianxingdata.com
Sitio web: www.qianxingdata.com/www.storagesserver.com
Enfoque empresarial:
Distribución de productos TIC/Integración de sistemas y servicios/Soluciones de infraestructura
Con más de 20 años de experiencia en distribución de TI, nos asociamos con marcas líderes a nivel mundial para ofrecer productos confiables y servicios profesionales.
“Uso de la tecnología para construir un mundo inteligente” ¡Su proveedor de servicios de productos TIC de confianza!



