logo
Inicio Casos

NVIDIA DGX Spark Cluster Review: Inferencia distribuida en Dell, GIGABYTE y HP

Certificación
China Beijing Qianxing Jietong Technology Co., Ltd. certificaciones
China Beijing Qianxing Jietong Technology Co., Ltd. certificaciones
Comentarios de cliente
El personal de ventas de la tecnología Co., Ltd de Pekín Qianxing Jietong es muy profesional y paciente. Pueden proporcionar citas rápidamente. La calidad y el empaquetado de los productos son también muy buenos. Nuestra cooperación es muy lisa.

—— LLC del》 de Festfing DV del 《

Cuando buscaba la CPU de Intel y el SSD de Toshiba urgente, Sandy de la tecnología Co., Ltd de Pekín Qianxing Jietong me dio mucha ayuda y me consiguió los productos que necesité rápidamente. La aprecio realmente.

—— Kitty Yen

Sandy de la tecnología Co., Ltd de Pekín Qianxing Jietong es un vendedor muy cuidadoso, que puede recordarme errores de la configuración a tiempo cuando compro un servidor. Los ingenieros son también muy profesionales y pueden terminar rápidamente el proceso de prueba.

—— Strelkin Mikhail Vladimirovich

Estamos muy contentos con nuestra experiencia trabajando con Beijing Qianxing Jietong. La calidad del producto es excelente y la entrega siempre es puntual. Su equipo de ventas es profesional, paciente y muy útil con todas nuestras preguntas. Realmente apreciamos su apoyo y esperamos una asociación a largo plazo. ¡Muy recomendado!

—— Ahmad Navid

Calidad: “Gran experiencia con mi proveedor. El MikroTik RB3011 ya estaba usado, pero estaba en muy buen estado y todo funcionaba perfectamente.y todas mis preocupaciones fueron abordadas rápidamenteUn proveedor muy confiable, muy recomendable.

—— Geran Colesio

Estoy en línea para chatear ahora

NVIDIA DGX Spark Cluster Review: Inferencia distribuida en Dell, GIGABYTE y HP

May 15, 2026
Dos rasgos definitorios se destacan para NVIDIA DGX Spark: 128 GB de memoria unificada en una unidad de escritorio de $ 4,000 y una red integrada de 200 Gb con calidad de centro de datos. La estructura de alta velocidad la diferencia de las estaciones de trabajo normales, lo que permite la agrupación en clústeres de múltiples nodos que alguna vez fue exclusiva de los servidores montados en bastidor. Esta revisión compara la inferencia distribuida en las variantes de Dell, GIGABYTE y HP Spark en clústeres de 200 GbE de dos nodos en diversos modelos y cargas de trabajo. También analiza el paralelismo de canalización (PP), un método de división alternativo que supera el paralelismo tensorial (TP) predeterminado de NVIDIA.

último caso de la compañía sobre NVIDIA DGX Spark Cluster Review: Inferencia distribuida en Dell, GIGABYTE y HP  0

Estructura de red de 200 Gb


Cada Spark equipa dos jaulas QSFP56 emparejadas con una ConnectX-7 SmartNIC integrada. Limitada por el ancho de banda PCIe Gen5 x4, la velocidad de red utilizable tiene un límite de 200 Gb, con un puerto suficiente para el ancho de banda completo; el segundo puerto ofrece flexibilidad de topología. Hay tres configuraciones comunes disponibles: enlaces directos Spark-to-Spark de 200 Gb, topología de anillo sin conmutador a través de dos puertos de 100 Gb y agrupación híbrida con acceso de almacenamiento de alta velocidad NVMe-oF. NVIDIA vende computadoras de escritorio de una sola unidad, clústeres de dos nodos validados y configuraciones de cuatro nodos recientemente lanzadas. La configuración de doble Spark es la más práctica para la inferencia de estilo de producción y el foco de esta prueba.

último caso de la compañía sobre NVIDIA DGX Spark Cluster Review: Inferencia distribuida en Dell, GIGABYTE y HP  1

Justificación de la agrupación Spark


El principal beneficio es ampliar la capacidad del modelo: dos Sparks vinculados pueden ejecutar modelos de 120B de parámetros que exceden los límites de memoria de una sola unidad. Más importante aún, la plataforma sirve como una herramienta educativa asequible. NVIDIA diseña Spark para que los principiantes aprendan los flujos de trabajo de IA, con guías oficiales que cubren la implementación de modelos, el ajuste y el desarrollo de PyTorch/JAX. Los clústeres de dos nodos enseñan además el paralelismo de múltiples nodos y el análisis de cuellos de botella de la red sin costoso hardware de centro de datos. En particular, Spark no está optimizado para la inferencia de producción. Restringido por el ancho de banda de la memoria y la latencia entre nodos, su enlace de 200 GbE es más lento que las conexiones PCIe internas. Los clústeres más grandes sufren una grave degradación del rendimiento, con un bajo rendimiento de tokens, lo que los limita al uso educativo en lugar del servicio comercial.

Pruebas de rendimiento: PP frente a TP


Selección de estrategia de paralelismo


NVIDIA utiliza de forma predeterminada TP, que divide cada capa de transformador en dos GPU con frecuentes intercambios de datos completos. Por el contrario, PP divide los modelos por capas, transfiriendo activaciones solo una vez entre nodos. En enlaces de 200 GbE, PP minimiza la comunicación entre nodos. Para modelos grandes con lotes de gran tamaño, el PP supera ampliamente al TP; TP solo sobresale en escenarios de chat de baja latencia de solicitud única.
Las pruebas realizadas en GPT-OSS-120B confirman esta brecha. Con un tamaño de lote 128, PP alcanza 554,69 tok/s (2,20 veces más rápido que TP) en cargas de trabajo equilibradas, 310,63 tok/s frente a 164,99 tok/s en tareas de precarga pesada. TP lidera solo en el tamaño de lote 1. Para modelos pequeños como Llama-3.1-8B, TP domina la mayoría de los tamaños de lote debido al cálculo de capas livianas, con PP superando a TP simplemente en alta concurrencia.

Resultados de referencia multimodelo (PP=2)


Serie GPT-OSS


Para GPT-OSS-120B, HP superó el rendimiento máximo en cargas de trabajo equilibradas (504,88 tok/s) y con precarga pesada (441,63 tok/s); GIGABYTE lideró pruebas de decodificación intensa (494,37 tok/s). Para GPT-OSS-20B, Dell dominó los escenarios equilibrados (976,77 tok/s) y de precarga pesada (852,39 tok/s), mientras que GIGABYTE lideró las tareas de decodificación (945,55 tok/s).

Variantes de Llama 3.1 8B


En precisión BF16, Dell lideró cargas de trabajo equilibradas (689,53 tok/s) y con gran decodificación (581,43 tok/s); GIGABYTE ganó pruebas de precarga intensa (539,27 tok/s). La optimización del FP4 aumentó considerablemente el rendimiento: GIGABYTE lideró tareas equilibradas (1458,86 tok/s) y de precarga pesada (954,23 tok/s). Para el FP8, Dell mantuvo una estrecha ventaja en escenarios equilibrados (1105,42 tok/s) y con mucha decodificación (862,33 tok/s).

Modelos Mistral y Qwen


Mistral Small 3.1 24B vio brechas mínimas: GIGABYTE alcanzó un máximo de 255,09 tok/s en cargas de trabajo equilibradas. Para Qwen3 Coder 30B (A3B Base), GIGABYTE lideró tareas de precarga pesadas (1862,40 tok/s); Dell se destacó en escenarios de decodificación. Bajo la cuantificación de FB8, GIGABYTE superó el rendimiento de precarga (3088,62 tok/s), mientras que Dell lideró las tareas de decodificación (705,77 tok/s).

Resumen de salida máxima de sistemas de doble chispa


Modelo
Escenario (BS – 64)
Salida máxima de Dell
Salida máxima de GIGABYTE
Salida máxima de HP
GPT-OSS-120B
Igual ISL/OSL
463,97 tok/s
497,26 tok/s
504,88 tok/s
GPT-OSS-120B
Precarga Pesada
419,56 tok/s
417,34 tok/s
441,63 tok/s
GPT-OSS-120B
Decodificar pesado
451,18 tok/s
494,37 tok/s
474,85 tok/s
GPT-OSS-20B
Igual ISL/OSL
976,77 tok/s
952,31 tok/s
915,72 tok/s
GPT-OSS-20B
Precarga Pesada
852,39 tok/s
802,37 tok/s
757,05 tok/s
GPT-OSS-20B
Decodificar pesado
938,65 tok/s
945,55 tok/s
865,78 tok/s
Llama-3.1-8B-Instrucción
Igual ISL/OSL
689,53 tok/s
687,48 tok/s
618,87 tok/s
Llama-3.1-8B-Instrucción
Precarga Pesada
515,45 tok/s
539,27 tok/s
463,39 tok/s
Llama-3.1-8B-Instrucción
Decodificar pesado
581,43 tok/s
576,91 tok/s
531,07 tok/s
Llama-3.1-8B-FP4
Igual ISL/OSL
1427,39 tok/s
1458,86 tok/s
1413,51 tok/s
Llama-3.1-8B-FP4
Precarga Pesada
884,22 tok/s
954,23 tok/s
843,57 tok/s
Llama-3.1-8B-FP4
Decodificar pesado
1008,98 tok/s
1007,23 tok/s
943,73 tok/s
Llama-3.1-8B-FP8
Igual ISL/OSL
1105,42 tok/s
1089,85 tok/s
1076,68 tok/s
Llama-3.1-8B-FP8
Precarga Pesada
759,50 tok/s
827,40 tok/s
725,51 tok/s
Llama-3.1-8B-FP8
Decodificar pesado
862,33 tok/s
855,81 tok/s
800,78 tok/s
Mistral-Pequeño-3.1-24B
Igual ISL/OSL
249,77 tok/s
255,09 tok/s
239,09 tok/s
Mistral-Pequeño-3.1-24B
Precarga Pesada
216,01 tok/s
214,38 tok/s
197,92 tok/s
Mistral-Pequeño-3.1-24B
Decodificar pesado
238,44 tok/s
237,97 tok/s
221,41 tok/s


Conclusión


Las unidades Dell, GIGABYTE y HP Spark ofrecen brechas de rendimiento insignificantes, con ventajas menores específicas por lotes. Las decisiones de compra deben priorizar el diseño del chasis, el rendimiento térmico, la garantía y el soporte posventa por encima de diferencias triviales en los puntos de referencia. La estrategia de paralelismo ejerce un impacto mucho mayor que las variaciones OEM: PP supera a TP en inferencia por lotes, mientras que TP se adapta a la interacción de baja latencia de flujo único. La recomendación TP de NVIDIA se alinea con el posicionamiento de Spark como un dispositivo de aprendizaje interactivo en lugar de una infraestructura de producción. Un clúster Spark de doble nodo sirve como una plataforma de enseñanza asequible para la IA distribuida. Las pruebas futuras cubrirán clústeres más grandes y capacitación de modelo pequeño de extremo a extremo, en espera de la implementación del conmutador de 800 Gb en el laboratorio.

Beijing Qianxing Jietong Tecnología Co., Ltd.
Sandy Yang/Director de Estrategia Global
WhatsApp/WeChat: +86 13426366826
Correo electrónico: yangyd@qianxingdata.com
Sitio web: www.qianxingdata.com/www.storagesserver.com
Enfoque empresarial:
Distribución de productos TIC/Integración de sistemas y servicios/Soluciones de infraestructura
Con más de 20 años de experiencia en distribución de TI, nos asociamos con marcas líderes a nivel mundial para ofrecer productos confiables y servicios profesionales.
“Uso de la tecnología para construir un mundo inteligente” ¡Su proveedor de servicios de productos TIC de confianza!
Contacto
Beijing Qianxing Jietong Technology Co., Ltd.

Persona de Contacto: Ms. Sandy Yang

Teléfono: 13426366826

Envíe su pregunta directamente a nosotros (0 / 3000)