logo
Inicio Casos

AMD Instinct MI355X logra ganancias en MLPerf Inference v6.0 con más de 1 millón de tokens por segundo y admite ROC escalable

Certificación
China Beijing Qianxing Jietong Technology Co., Ltd. certificaciones
China Beijing Qianxing Jietong Technology Co., Ltd. certificaciones
Comentarios de cliente
El personal de ventas de la tecnología Co., Ltd de Pekín Qianxing Jietong es muy profesional y paciente. Pueden proporcionar citas rápidamente. La calidad y el empaquetado de los productos son también muy buenos. Nuestra cooperación es muy lisa.

—— LLC del》 de Festfing DV del 《

Cuando buscaba la CPU de Intel y el SSD de Toshiba urgente, Sandy de la tecnología Co., Ltd de Pekín Qianxing Jietong me dio mucha ayuda y me consiguió los productos que necesité rápidamente. La aprecio realmente.

—— Kitty Yen

Sandy de la tecnología Co., Ltd de Pekín Qianxing Jietong es un vendedor muy cuidadoso, que puede recordarme errores de la configuración a tiempo cuando compro un servidor. Los ingenieros son también muy profesionales y pueden terminar rápidamente el proceso de prueba.

—— Strelkin Mikhail Vladimirovich

Estamos muy contentos con nuestra experiencia trabajando con Beijing Qianxing Jietong. La calidad del producto es excelente y la entrega siempre es puntual. Su equipo de ventas es profesional, paciente y muy útil con todas nuestras preguntas. Realmente apreciamos su apoyo y esperamos una asociación a largo plazo. ¡Muy recomendado!

—— Ahmad Navid

Calidad: “Gran experiencia con mi proveedor. El MikroTik RB3011 ya estaba usado, pero estaba en muy buen estado y todo funcionaba perfectamente.y todas mis preocupaciones fueron abordadas rápidamenteUn proveedor muy confiable, muy recomendable.

—— Geran Colesio

Estoy en línea para chatear ahora

AMD Instinct MI355X logra ganancias en MLPerf Inference v6.0 con más de 1 millón de tokens por segundo y admite ROC escalable

April 15, 2026
AMD ha anunciado sus resultados de referencia de MLPerf Inference v6.0, posicionando la GPU Instinct MI355X como una plataforma de inferencia altamente escalable capaz de admitir un solo nodo, multinodo,y despliegues heterogéneosMás allá de las ganancias de rendimiento incrementales, la presentación introduce nuevas cargas de trabajo, demuestra un rendimiento a escala de clúster superior a 1 millón de tokens por segundo,y valida la reproducibilidad constante del rendimiento en un ecosistema de socios en expansión.

CDNA 4 Arquitectura de objetivos de alta capacidad de inferencia


El Instinct MI355X está basado en la arquitectura CDNA 4 de AMD, aprovechando un diseño de chiplet de doble proceso de TSMC: los procesadores de cómputo (XCD) utilizan un nodo de 3 nm, mientras que los procesadores de E/S utilizan la tecnología FinFET de 6 nm.El paquete multichiplet integra 185 mil millones de transistores y admite los formatos de datos FP4 y FP6Cada GPU está equipada con hasta 288 GB de memoria HBM3E (que ofrece 8 TB/seg de ancho de banda de memoria), lo que permite soportar modelos de hasta 520 mil millones de parámetros en un solo dispositivo.AMD enfatiza que esta combinación de densidad de cómputo y capacidad de memoria elimina la necesidad de una partición excesiva del modelo, una ventaja clave para las cargas de trabajo de inferencia a gran escala.

Disponible en configuraciones UBB8, la plataforma ofrece opciones tanto enfriadas por aire como enfriadas por líquido directo, alineándose con diversos requisitos de despliegue de centros de datos.El MI355X cuenta con un TBP de 1400W (potencia de diseño térmico) con refrigeración por líquido, ofreciendo un mayor rendimiento que su homólogo refrigerado por aire, el MI350X.

El rendimiento multinodo supera el millón de tokens por segundo


Un logro destacado de la ronda MLPerf v6.0 es el rendimiento a escala de clúster de AMD que supera el millón de tokens por segundo.AMD alcanzó este hito con Llama 2 70B tanto en escenarios de servidor como fuera de línea, así como con GPT-OSS-120B en modo Offline.

último caso de la compañía sobre AMD Instinct MI355X logra ganancias en MLPerf Inference v6.0 con más de 1 millón de tokens por segundo y admite ROC escalable  0

AMD MLPerf 1M fichas por segundo gráfico

Estos resultados reflejan un creciente cambio de la industria hacia la evaluación del rendimiento de inferencia a nivel de grupo, en lugar de por acelerador individual.El rendimiento agregado y el tiempo de servicio se han convertido en métricas primarias para determinar la preparación de la producción en las implementaciones de IA a gran escala.

AMD también demostró una eficiencia de escala excepcional. para Llama 2 70B, una configuración de 11 nodos, 87 GPU logró más de 1 millón de tokens por segundo en escenarios Offline, Server e Interactivo,con una eficiencia de escalación que oscila entre el 93% y el 98%Para GPT-OSS-120B, un clúster de 12 nodos y 94 GPU ofreció un rendimiento similar con una eficiencia de escalado superior al 90% – probando un rendimiento que se traduce efectivamente a medida que las implementaciones se expanden más allá de un solo sistema.

Las ganancias generacionales y el rendimiento competitivo de un solo nodo


AMD informó mejoras generacionales significativas, con el Instinct MI355X ofreciendo un rendimiento 3,1 veces mejor en el servidor Llama 2 70B en comparación con el Instinct MI325X de generación anterior, alcanzando el 100,282 fichas por segundoEsta mejora se debe tanto a las mejoras arquitectónicas de CDNA 4 como a las optimizaciones del software ROCm. Las puntuaciones fuera de línea mejoraron en 4.4x y las puntuaciones del servidor en 4.8x en comparación con las rondas anteriores de MLPerf,principalmente impulsado por la cuantización FP4 – una característica clave del MI355X que desbloquea un mayor rendimiento para las cargas de trabajo de IA.

Resultados de AMD Inferencia frente al gráfico de la generación anterior

En las comparaciones de un solo nodo con las plataformas de NVIDIA, el MI355X demostró una fuerte competitividad.logrado cerca de la paridad en el rendimiento del servidorEn comparación con el NVIDIA B300, el MI355X entregó el 92% del rendimiento Offline, el 93% del rendimiento Server y lo superó en un 4% en el modo Interactivo.El MI355X también ofrece una mayor rentabilidad, entregando un 40% más de fichas por dólar en comparación con el NVIDIA B200.

La activación del modelo por primera vez amplía la cobertura


MLPerf Inference v6.0 introdujo varias nuevas cargas de trabajo, y AMD utilizó esta ronda para mostrar la habilitación de modelos rápidos.logrando resultados competitivos frente a los sistemas NVIDIA tanto en escenarios Offline como de servidor.

AMD también presentó resultados para la generación de texto a vídeo Wan-2.2, marcando su entrada en la inferencia de vídeo multimodal y generativa.Los resultados fueron iguales a los de las plataformas existentesEl ajuste posterior a la presentación mejoró aún más el rendimiento, destacando el margen de optimización a medida que la pila de software madura.

Estas adiciones subrayan el compromiso de AMD de expandirse más allá de los puntos de referencia tradicionales de LLM para apoyar las cargas de trabajo emergentes de IA en diversos casos de uso.

El software ROCm permite escalar e inferir heterogéneamente


AMD atribuye gran parte del rendimiento y la escalabilidad del MI355X a su pila de software ROCm. Las mejoras clave incluyen la ejecución FP4 optimizada, la comunicación mejorada de GPU a GPU para inferencia distribuida,y soporte para la distribución dinámica de la carga de trabajo en entornos heterogéneos.

AMD MLPerf resultados de inferencia instinto mI355x gráfico
Una presentación heterogénea de hito, desarrollada por Dell y MangoBoost, utilizó tres modelos de GPU AMD Instinct: MI300X, MI325X y MI355X.521 fichas por segundo en el servidor Llama 2 70B y 151En particular, la plataforma MI355X estaba ubicada en el laboratorio estadounidense de Dell,Mientras los sistemas MI300X y MI325X estaban en Corea, demostrando la capacidad de coordinar sistemas distribuidos a través de lugares geográficos..

Crecimiento y reproductibilidad del ecosistema


El ecosistema de socios de AMD se expandió significativamente en esta ronda MLPerf, con nueve compañías que presentaron resultados en múltiples generaciones de GPU Instinct.Computación Giga, HPE, MangoBoost, MiTAC, Oracle, Supermicro y Red Hat, lo que refleja la amplia adopción de las soluciones de inferencia de AMD en la industria.

Las presentaciones de los socios se alinearon estrechamente con los resultados internos de AMD, generalmente dentro del 4% y en algunos casos dentro del 1%.Esta consistencia confirma que el rendimiento del MI355X es reproducible en plataformas OEM y cloud., reduciendo el riesgo de despliegue y aumentando la confianza en los resultados del rendimiento en el mundo real.

China, China, China, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón, Japón.
Sandy Yang, directora de estrategia global
WhatsApp / WeChat: +86 13426366826 El número de teléfono es:
Correo electrónico: yangyd@qianxingdata.com
El sitio web: www.qianxingdata.com/www.storagesserver.com
Enfoque en el negocio:
Distribución de productos TIC/Integración de sistemas y servicios/Soluciones de infraestructura
Con más de 20 años de experiencia en distribución de TI, nos asociamos con las principales marcas globales para ofrecer productos confiables y servicios profesionales.
“Usar la tecnología para construir un mundo inteligente”¡Su proveedor de servicios de productos TIC de confianza!
Contacto
Beijing Qianxing Jietong Technology Co., Ltd.

Persona de Contacto: Ms. Sandy Yang

Teléfono: 13426366826

Envíe su pregunta directamente a nosotros (0 / 3000)