Dos rasgos definitorios se destacan para NVIDIA DGX Spark: 128 GB de memoria unificada en una unidad de escritorio de $ 4,000 y una red integrada de 200 Gb con calidad de centro de datos. La estructura de alta velocidad la diferencia de las estaciones de trabajo normales, lo que permite la agrupación en clústeres de múltiples nodos que alguna vez fue exclusiva de los servidores montados en bastidor. Esta revisión compara la inferencia distribuida en las variantes de Dell, GIGABYTE y HP Spark en clústeres de 200 GbE de dos nodos en diversos modelos y cargas de trabajo. También analiza el paralelismo de canalización (PP), un método de división alternativo que supera el paralelismo tensorial (TP) predeterminado de NVIDIA.
Estructura de red de 200 Gb
Cada Spark equipa dos jaulas QSFP56 emparejadas con una ConnectX-7 SmartNIC integrada. Limitada por el ancho de banda PCIe Gen5 x4, la velocidad de red utilizable tiene un límite de 200 Gb, con un puerto suficiente para el ancho de banda completo; el segundo puerto ofrece flexibilidad de topología. Hay tres configuraciones comunes disponibles: enlaces directos Spark-to-Spark de 200 Gb, topología de anillo sin conmutador a través de dos puertos de 100 Gb y agrupación híbrida con acceso de almacenamiento de alta velocidad NVMe-oF. NVIDIA vende computadoras de escritorio de una sola unidad, clústeres de dos nodos validados y configuraciones de cuatro nodos recientemente lanzadas. La configuración de doble Spark es la más práctica para la inferencia de estilo de producción y el foco de esta prueba.
Justificación de la agrupación Spark
El principal beneficio es ampliar la capacidad del modelo: dos Sparks vinculados pueden ejecutar modelos de 120B de parámetros que exceden los límites de memoria de una sola unidad. Más importante aún, la plataforma sirve como una herramienta educativa asequible. NVIDIA diseña Spark para que los principiantes aprendan los flujos de trabajo de IA, con guías oficiales que cubren la implementación de modelos, el ajuste y el desarrollo de PyTorch/JAX. Los clústeres de dos nodos enseñan además el paralelismo de múltiples nodos y el análisis de cuellos de botella de la red sin costoso hardware de centro de datos. En particular, Spark no está optimizado para la inferencia de producción. Restringido por el ancho de banda de la memoria y la latencia entre nodos, su enlace de 200 GbE es más lento que las conexiones PCIe internas. Los clústeres más grandes sufren una grave degradación del rendimiento, con un bajo rendimiento de tokens, lo que los limita al uso educativo en lugar del servicio comercial.
Pruebas de rendimiento: PP frente a TP
Selección de estrategia de paralelismo
NVIDIA utiliza de forma predeterminada TP, que divide cada capa de transformador en dos GPU con frecuentes intercambios de datos completos. Por el contrario, PP divide los modelos por capas, transfiriendo activaciones solo una vez entre nodos. En enlaces de 200 GbE, PP minimiza la comunicación entre nodos. Para modelos grandes con lotes de gran tamaño, el PP supera ampliamente al TP; TP solo sobresale en escenarios de chat de baja latencia de solicitud única.
Las pruebas realizadas en GPT-OSS-120B confirman esta brecha. Con un tamaño de lote 128, PP alcanza 554,69 tok/s (2,20 veces más rápido que TP) en cargas de trabajo equilibradas, 310,63 tok/s frente a 164,99 tok/s en tareas de precarga pesada. TP lidera solo en el tamaño de lote 1. Para modelos pequeños como Llama-3.1-8B, TP domina la mayoría de los tamaños de lote debido al cálculo de capas livianas, con PP superando a TP simplemente en alta concurrencia.
Resultados de referencia multimodelo (PP=2)
Serie GPT-OSS
Para GPT-OSS-120B, HP superó el rendimiento máximo en cargas de trabajo equilibradas (504,88 tok/s) y con precarga pesada (441,63 tok/s); GIGABYTE lideró pruebas de decodificación intensa (494,37 tok/s). Para GPT-OSS-20B, Dell dominó los escenarios equilibrados (976,77 tok/s) y de precarga pesada (852,39 tok/s), mientras que GIGABYTE lideró las tareas de decodificación (945,55 tok/s).
Variantes de Llama 3.1 8B
En precisión BF16, Dell lideró cargas de trabajo equilibradas (689,53 tok/s) y con gran decodificación (581,43 tok/s); GIGABYTE ganó pruebas de precarga intensa (539,27 tok/s). La optimización del FP4 aumentó considerablemente el rendimiento: GIGABYTE lideró tareas equilibradas (1458,86 tok/s) y de precarga pesada (954,23 tok/s). Para el FP8, Dell mantuvo una estrecha ventaja en escenarios equilibrados (1105,42 tok/s) y con mucha decodificación (862,33 tok/s).
Modelos Mistral y Qwen
Mistral Small 3.1 24B vio brechas mínimas: GIGABYTE alcanzó un máximo de 255,09 tok/s en cargas de trabajo equilibradas. Para Qwen3 Coder 30B (A3B Base), GIGABYTE lideró tareas de precarga pesadas (1862,40 tok/s); Dell se destacó en escenarios de decodificación. Bajo la cuantificación de FB8, GIGABYTE superó el rendimiento de precarga (3088,62 tok/s), mientras que Dell lideró las tareas de decodificación (705,77 tok/s).
Resumen de salida máxima de sistemas de doble chispa
|
Modelo
|
Escenario (BS – 64)
|
Salida máxima de Dell
|
Salida máxima de GIGABYTE
|
Salida máxima de HP
|
|---|---|---|---|---|
|
GPT-OSS-120B
|
Igual ISL/OSL
|
463,97 tok/s
|
497,26 tok/s
|
504,88 tok/s
|
|
GPT-OSS-120B
|
Precarga Pesada
|
419,56 tok/s
|
417,34 tok/s
|
441,63 tok/s
|
|
GPT-OSS-120B
|
Decodificar pesado
|
451,18 tok/s
|
494,37 tok/s
|
474,85 tok/s
|
|
GPT-OSS-20B
|
Igual ISL/OSL
|
976,77 tok/s
|
952,31 tok/s
|
915,72 tok/s
|
|
GPT-OSS-20B
|
Precarga Pesada
|
852,39 tok/s
|
802,37 tok/s
|
757,05 tok/s
|
|
GPT-OSS-20B
|
Decodificar pesado
|
938,65 tok/s
|
945,55 tok/s
|
865,78 tok/s
|
|
Llama-3.1-8B-Instrucción
|
Igual ISL/OSL
|
689,53 tok/s
|
687,48 tok/s
|
618,87 tok/s
|
|
Llama-3.1-8B-Instrucción
|
Precarga Pesada
|
515,45 tok/s
|
539,27 tok/s
|
463,39 tok/s
|
|
Llama-3.1-8B-Instrucción
|
Decodificar pesado
|
581,43 tok/s
|
576,91 tok/s
|
531,07 tok/s
|
|
Llama-3.1-8B-FP4
|
Igual ISL/OSL
|
1427,39 tok/s
|
1458,86 tok/s
|
1413,51 tok/s
|
|
Llama-3.1-8B-FP4
|
Precarga Pesada
|
884,22 tok/s
|
954,23 tok/s
|
843,57 tok/s
|
|
Llama-3.1-8B-FP4
|
Decodificar pesado
|
1008,98 tok/s
|
1007,23 tok/s
|
943,73 tok/s
|
|
Llama-3.1-8B-FP8
|
Igual ISL/OSL
|
1105,42 tok/s
|
1089,85 tok/s
|
1076,68 tok/s
|
|
Llama-3.1-8B-FP8
|
Precarga Pesada
|
759,50 tok/s
|
827,40 tok/s
|
725,51 tok/s
|
|
Llama-3.1-8B-FP8
|
Decodificar pesado
|
862,33 tok/s
|
855,81 tok/s
|
800,78 tok/s
|
|
Mistral-Pequeño-3.1-24B
|
Igual ISL/OSL
|
249,77 tok/s
|
255,09 tok/s
|
239,09 tok/s
|
|
Mistral-Pequeño-3.1-24B
|
Precarga Pesada
|
216,01 tok/s
|
214,38 tok/s
|
197,92 tok/s
|
|
Mistral-Pequeño-3.1-24B
|
Decodificar pesado
|
238,44 tok/s
|
237,97 tok/s
|
221,41 tok/s
|
Conclusión
Las unidades Dell, GIGABYTE y HP Spark ofrecen brechas de rendimiento insignificantes, con ventajas menores específicas por lotes. Las decisiones de compra deben priorizar el diseño del chasis, el rendimiento térmico, la garantía y el soporte posventa por encima de diferencias triviales en los puntos de referencia. La estrategia de paralelismo ejerce un impacto mucho mayor que las variaciones OEM: PP supera a TP en inferencia por lotes, mientras que TP se adapta a la interacción de baja latencia de flujo único. La recomendación TP de NVIDIA se alinea con el posicionamiento de Spark como un dispositivo de aprendizaje interactivo en lugar de una infraestructura de producción. Un clúster Spark de doble nodo sirve como una plataforma de enseñanza asequible para la IA distribuida. Las pruebas futuras cubrirán clústeres más grandes y capacitación de modelo pequeño de extremo a extremo, en espera de la implementación del conmutador de 800 Gb en el laboratorio.
Beijing Qianxing Jietong Tecnología Co., Ltd.
Sandy Yang/Director de Estrategia Global
WhatsApp/WeChat: +86 13426366826
Correo electrónico: yangyd@qianxingdata.com
Sitio web: www.qianxingdata.com/www.storagesserver.com
Enfoque empresarial:
Distribución de productos TIC/Integración de sistemas y servicios/Soluciones de infraestructura
Con más de 20 años de experiencia en distribución de TI, nos asociamos con marcas líderes a nivel mundial para ofrecer productos confiables y servicios profesionales.
“Uso de la tecnología para construir un mundo inteligente” ¡Su proveedor de servicios de productos TIC de confianza!
Sandy Yang/Director de Estrategia Global
WhatsApp/WeChat: +86 13426366826
Correo electrónico: yangyd@qianxingdata.com
Sitio web: www.qianxingdata.com/www.storagesserver.com
Enfoque empresarial:
Distribución de productos TIC/Integración de sistemas y servicios/Soluciones de infraestructura
Con más de 20 años de experiencia en distribución de TI, nos asociamos con marcas líderes a nivel mundial para ofrecer productos confiables y servicios profesionales.
“Uso de la tecnología para construir un mundo inteligente” ¡Su proveedor de servicios de productos TIC de confianza!



