Inicio Casos

NVIDIA DGX Spark Cluster Review: Inferencia distribuida en Dell, GIGABYTE y HP

Todos los productos

Servidor del almacenamiento de estante
(165)

Servidor de la fusión de Huawei
(31)

Dell Poweredge Server
(59)

Servidor de H3C
(31)

Interruptores del Datacom
(96)

Dispositivo de la red inalámbrica (WLAN)
(21)

Router inalámbrico elegante
(10)

Disco duro HDD
(78)

SSD interno del disco duro
(16)

Tarjeta gráfica de Geforce
(27)

Procesador de la CPU de INTEL
(20)

Memoria RAM del servidor
(6)

Servidor restaurado del almacenamiento
(6)

Módulo del transmisor-receptor de SFP
(4)

Interruptor de canal de la fibra
(42)

Certificación

China Beijing Qianxing Jietong Technology Co., Ltd. certificaciones

Comentarios de cliente

El personal de ventas de la tecnología Co., Ltd de Pekín Qianxing Jietong es muy profesional y paciente. Pueden proporcionar citas rápidamente. La calidad y el empaquetado de los productos son también muy buenos. Nuestra cooperación es muy lisa.

—— LLC del》 de Festfing DV del 《

Cuando buscaba la CPU de Intel y el SSD de Toshiba urgente, Sandy de la tecnología Co., Ltd de Pekín Qianxing Jietong me dio mucha ayuda y me consiguió los productos que necesité rápidamente. La aprecio realmente.

—— Kitty Yen

Sandy de la tecnología Co., Ltd de Pekín Qianxing Jietong es un vendedor muy cuidadoso, que puede recordarme errores de la configuración a tiempo cuando compro un servidor. Los ingenieros son también muy profesionales y pueden terminar rápidamente el proceso de prueba.

—— Strelkin Mikhail Vladimirovich

Estamos muy contentos con nuestra experiencia trabajando con Beijing Qianxing Jietong. La calidad del producto es excelente y la entrega siempre es puntual. Su equipo de ventas es profesional, paciente y muy útil con todas nuestras preguntas. Realmente apreciamos su apoyo y esperamos una asociación a largo plazo. ¡Muy recomendado!

—— Ahmad Navid

Calidad: Gran experiencia con mi proveedor. El MikroTik RB3011 ya estaba usado, pero estaba en muy buen estado y todo funcionaba perfectamente.y todas mis preocupaciones fueron abordadas rápidamenteUn proveedor muy confiable, muy recomendable.

—— Geran Colesio

Estoy en línea para chatear ahora

NVIDIA DGX Spark Cluster Review: Inferencia distribuida en Dell, GIGABYTE y HP

May 15, 2026

Dos rasgos definitorios se destacan para NVIDIA DGX Spark: 128 GB de memoria unificada en una unidad de escritorio de $ 4,000 y una red integrada de 200 Gb con calidad de centro de datos. La estructura de alta velocidad la diferencia de las estaciones de trabajo normales, lo que permite la agrupación en clústeres de múltiples nodos que alguna vez fue exclusiva de los servidores montados en bastidor. Esta revisión compara la inferencia distribuida en las variantes de Dell, GIGABYTE y HP Spark en clústeres de 200 GbE de dos nodos en diversos modelos y cargas de trabajo. También analiza el paralelismo de canalización (PP), un método de división alternativo que supera el paralelismo tensorial (TP) predeterminado de NVIDIA.

Estructura de red de 200 Gb

Cada Spark equipa dos jaulas QSFP56 emparejadas con una ConnectX-7 SmartNIC integrada. Limitada por el ancho de banda PCIe Gen5 x4, la velocidad de red utilizable tiene un límite de 200 Gb, con un puerto suficiente para el ancho de banda completo; el segundo puerto ofrece flexibilidad de topología. Hay tres configuraciones comunes disponibles: enlaces directos Spark-to-Spark de 200 Gb, topología de anillo sin conmutador a través de dos puertos de 100 Gb y agrupación híbrida con acceso de almacenamiento de alta velocidad NVMe-oF. NVIDIA vende computadoras de escritorio de una sola unidad, clústeres de dos nodos validados y configuraciones de cuatro nodos recientemente lanzadas. La configuración de doble Spark es la más práctica para la inferencia de estilo de producción y el foco de esta prueba.

Justificación de la agrupación Spark

El principal beneficio es ampliar la capacidad del modelo: dos Sparks vinculados pueden ejecutar modelos de 120B de parámetros que exceden los límites de memoria de una sola unidad. Más importante aún, la plataforma sirve como una herramienta educativa asequible. NVIDIA diseña Spark para que los principiantes aprendan los flujos de trabajo de IA, con guías oficiales que cubren la implementación de modelos, el ajuste y el desarrollo de PyTorch/JAX. Los clústeres de dos nodos enseñan además el paralelismo de múltiples nodos y el análisis de cuellos de botella de la red sin costoso hardware de centro de datos. En particular, Spark no está optimizado para la inferencia de producción. Restringido por el ancho de banda de la memoria y la latencia entre nodos, su enlace de 200 GbE es más lento que las conexiones PCIe internas. Los clústeres más grandes sufren una grave degradación del rendimiento, con un bajo rendimiento de tokens, lo que los limita al uso educativo en lugar del servicio comercial.

Pruebas de rendimiento: PP frente a TP

Selección de estrategia de paralelismo

NVIDIA utiliza de forma predeterminada TP, que divide cada capa de transformador en dos GPU con frecuentes intercambios de datos completos. Por el contrario, PP divide los modelos por capas, transfiriendo activaciones solo una vez entre nodos. En enlaces de 200 GbE, PP minimiza la comunicación entre nodos. Para modelos grandes con lotes de gran tamaño, el PP supera ampliamente al TP; TP solo sobresale en escenarios de chat de baja latencia de solicitud única.

Las pruebas realizadas en GPT-OSS-120B confirman esta brecha. Con un tamaño de lote 128, PP alcanza 554,69 tok/s (2,20 veces más rápido que TP) en cargas de trabajo equilibradas, 310,63 tok/s frente a 164,99 tok/s en tareas de precarga pesada. TP lidera solo en el tamaño de lote 1. Para modelos pequeños como Llama-3.1-8B, TP domina la mayoría de los tamaños de lote debido al cálculo de capas livianas, con PP superando a TP simplemente en alta concurrencia.

Resultados de referencia multimodelo (PP=2)

Serie GPT-OSS

Para GPT-OSS-120B, HP superó el rendimiento máximo en cargas de trabajo equilibradas (504,88 tok/s) y con precarga pesada (441,63 tok/s); GIGABYTE lideró pruebas de decodificación intensa (494,37 tok/s). Para GPT-OSS-20B, Dell dominó los escenarios equilibrados (976,77 tok/s) y de precarga pesada (852,39 tok/s), mientras que GIGABYTE lideró las tareas de decodificación (945,55 tok/s).

Variantes de Llama 3.1 8B

En precisión BF16, Dell lideró cargas de trabajo equilibradas (689,53 tok/s) y con gran decodificación (581,43 tok/s); GIGABYTE ganó pruebas de precarga intensa (539,27 tok/s). La optimización del FP4 aumentó considerablemente el rendimiento: GIGABYTE lideró tareas equilibradas (1458,86 tok/s) y de precarga pesada (954,23 tok/s). Para el FP8, Dell mantuvo una estrecha ventaja en escenarios equilibrados (1105,42 tok/s) y con mucha decodificación (862,33 tok/s).

Modelos Mistral y Qwen

Mistral Small 3.1 24B vio brechas mínimas: GIGABYTE alcanzó un máximo de 255,09 tok/s en cargas de trabajo equilibradas. Para Qwen3 Coder 30B (A3B Base), GIGABYTE lideró tareas de precarga pesadas (1862,40 tok/s); Dell se destacó en escenarios de decodificación. Bajo la cuantificación de FB8, GIGABYTE superó el rendimiento de precarga (3088,62 tok/s), mientras que Dell lideró las tareas de decodificación (705,77 tok/s).

Resumen de salida máxima de sistemas de doble chispa

Modelo	Escenario (BS – 64)	Salida máxima de Dell	Salida máxima de GIGABYTE	Salida máxima de HP
GPT-OSS-120B	Igual ISL/OSL	463,97 tok/s	497,26 tok/s	504,88 tok/s
GPT-OSS-120B	Precarga Pesada	419,56 tok/s	417,34 tok/s	441,63 tok/s
GPT-OSS-120B	Decodificar pesado	451,18 tok/s	494,37 tok/s	474,85 tok/s
GPT-OSS-20B	Igual ISL/OSL	976,77 tok/s	952,31 tok/s	915,72 tok/s
GPT-OSS-20B	Precarga Pesada	852,39 tok/s	802,37 tok/s	757,05 tok/s
GPT-OSS-20B	Decodificar pesado	938,65 tok/s	945,55 tok/s	865,78 tok/s
Llama-3.1-8B-Instrucción	Igual ISL/OSL	689,53 tok/s	687,48 tok/s	618,87 tok/s
Llama-3.1-8B-Instrucción	Precarga Pesada	515,45 tok/s	539,27 tok/s	463,39 tok/s
Llama-3.1-8B-Instrucción	Decodificar pesado	581,43 tok/s	576,91 tok/s	531,07 tok/s
Llama-3.1-8B-FP4	Igual ISL/OSL	1427,39 tok/s	1458,86 tok/s	1413,51 tok/s
Llama-3.1-8B-FP4	Precarga Pesada	884,22 tok/s	954,23 tok/s	843,57 tok/s
Llama-3.1-8B-FP4	Decodificar pesado	1008,98 tok/s	1007,23 tok/s	943,73 tok/s
Llama-3.1-8B-FP8	Igual ISL/OSL	1105,42 tok/s	1089,85 tok/s	1076,68 tok/s
Llama-3.1-8B-FP8	Precarga Pesada	759,50 tok/s	827,40 tok/s	725,51 tok/s
Llama-3.1-8B-FP8	Decodificar pesado	862,33 tok/s	855,81 tok/s	800,78 tok/s
Mistral-Pequeño-3.1-24B	Igual ISL/OSL	249,77 tok/s	255,09 tok/s	239,09 tok/s
Mistral-Pequeño-3.1-24B	Precarga Pesada	216,01 tok/s	214,38 tok/s	197,92 tok/s
Mistral-Pequeño-3.1-24B	Decodificar pesado	238,44 tok/s	237,97 tok/s	221,41 tok/s

Conclusión

Las unidades Dell, GIGABYTE y HP Spark ofrecen brechas de rendimiento insignificantes, con ventajas menores específicas por lotes. Las decisiones de compra deben priorizar el diseño del chasis, el rendimiento térmico, la garantía y el soporte posventa por encima de diferencias triviales en los puntos de referencia. La estrategia de paralelismo ejerce un impacto mucho mayor que las variaciones OEM: PP supera a TP en inferencia por lotes, mientras que TP se adapta a la interacción de baja latencia de flujo único. La recomendación TP de NVIDIA se alinea con el posicionamiento de Spark como un dispositivo de aprendizaje interactivo en lugar de una infraestructura de producción. Un clúster Spark de doble nodo sirve como una plataforma de enseñanza asequible para la IA distribuida. Las pruebas futuras cubrirán clústeres más grandes y capacitación de modelo pequeño de extremo a extremo, en espera de la implementación del conmutador de 800 Gb en el laboratorio.

Beijing Qianxing Jietong Tecnología Co., Ltd.
Sandy Yang/Director de Estrategia Global
WhatsApp/WeChat: +86 13426366826
Correo electrónico: yangyd@qianxingdata.com
Sitio web: www.qianxingdata.com/www.storagesserver.com
Enfoque empresarial:
Distribución de productos TIC/Integración de sistemas y servicios/Soluciones de infraestructura
Con más de 20 años de experiencia en distribución de TI, nos asociamos con marcas líderes a nivel mundial para ofrecer productos confiables y servicios profesionales.
“Uso de la tecnología para construir un mundo inteligente” ¡Su proveedor de servicios de productos TIC de confianza!

PREV: Revisión de ORICO X50: velocidad Thunderbolt 5 en una carcasa SSD portátil

NEXT: Revisión de Seagate IronWolf Pro 32TB: capacidad superior para NAS de múltiples bahías

Contacto

Beijing Qianxing Jietong Technology Co., Ltd.

Persona de Contacto: Ms. Sandy Yang

Teléfono: 13426366826

NVIDIA DGX Spark Cluster Review: Inferencia distribuida en Dell, GIGABYTE y HP

Servidor del almacenamiento de estante

Servidor de la fusión de Huawei

Dell Poweredge Server

Servidor de H3C

Interruptores del Datacom

Dispositivo de la red inalámbrica (WLAN)

Router inalámbrico elegante

Disco duro HDD

SSD interno del disco duro

Tarjeta gráfica de Geforce

Procesador de la CPU de INTEL

Memoria RAM del servidor

Servidor restaurado del almacenamiento

Módulo del transmisor-receptor de SFP

Interruptor de canal de la fibra

NVIDIA DGX Spark Cluster Review: Inferencia distribuida en Dell, GIGABYTE y HP

Estructura de red de 200 Gb

Justificación de la agrupación Spark

Pruebas de rendimiento: PP frente a TP

Selección de estrategia de paralelismo

Resultados de referencia multimodelo (PP=2)

Serie GPT-OSS

Variantes de Llama 3.1 8B

Modelos Mistral y Qwen

Resumen de salida máxima de sistemas de doble chispa

Conclusión

Servidor del almacenamiento de estante

12 servidor montado en rack del estante de Lenovo ThinkSystem SR630 del servidor de las bahías 1U

Procesador de Intel Xeon E-2378G del servidor del almacenamiento de estante de ThinkSystem SR250 V2 4SFF

Servidor del soporte de estante de Inspur NF5180M6 1U del servidor del almacenamiento de estante de Intel C621A

Servidor de la fusión de Huawei

Servidor 32 DDR4 DIMMs del estante de FusionServer 5288 V6 4U 44 discos duros de 3,5 pulgadas

Servidor ultra de alta densidad 1288H V5 del almacenamiento de la red del servidor 1U de la fusión de Huawei

Almacenamiento de destello híbrido del nuevo de Gen OceanStor 5310 Huawei servidor del estante