Las cosas que hay que aprender
- Un rendimiento sin precedentes en un solo nodo:El R7725xd soportó más de 300 GB/s de ancho de banda interno y 160 GB/s sobre NVMe-oF RDMA, rivalizando con los clústeres de almacenamiento multi-nodo dentro de un chasis de 2U.
- Verdadera arquitectura de la 5a generación, sin interruptores, sin fan-out:Todos los SSDs 24 Micron 9550 PRO reciben carriles dedicados x4 PCIe Gen5 directamente desde el complejo de CPU, lo que permite escalar la velocidad de línea sin problemas.
- Impulsado por AMD EPYC Serie 9005:Los procesadores AMD EPYC 9575F duales proporcionan el número de carriles, el ancho de banda de memoria y la topología NUMA necesarios para una I/O de alta concurrencia sostenida.
- Diseñado para IA, análisis y cargas de trabajo con puntos de control:El sistema elimina los cuellos de botella de I / O que detienen las tuberías de GPU modernas, lo que permite la entrega continua de datos de alto ancho de banda.
- Pico: AIO desbloquea el paralelismo completo:PEAK: La pila de software de AIO mantiene las estructuras de cola saturadas bajo carga, ofreciendo un rendimiento empresarial a una relación convincente de dólar por GB.
La sección de almacenamiento de iDRAC 10 presenta una descripción completa de todos los discos físicos instalados en el R7725xd. El panel de resumen muestra un recuento de alto nivel de todas las unidades conectadas,acompañado de un gráfico gráfico que ilustra los estados de accionamientoEn esta configuración, 24 SSD NVMe están activos y reportan estar listos, con dos dispositivos de arranque adicionales presentes en el sistema, separados del banco NVMe frontal principal.
A la derecha, el panel Resumen de discos divide estos en discos físicos y cualquier disco virtual asociado.,todas las unidades se informan como no RAID y son direccionables individualmente, alineándose con el diseño del sistema para grandes grupos NVMe y plataformas SDS.
Debajo del resumen de estado, el área de eventos de almacenamiento registrados recientemente enumera los registros de inserción para cada SSD PCIe, organizados por bahía y ranura.Este registro confirma la detección adecuada en todas las bahías de accionamiento y ayuda a identificar cualquier problema con asientosPara las grandes implementaciones, estos registros son útiles para rastrear el aprovisionamiento de la unidad o verificar que la capacidad se ha llenado como se esperaba.
La captura de pantalla final muestra la vista detallada del dispositivo NVMe dentro de iDRAC10. Cada unidad NVMe instalada en el sistema se enumera con su estado, capacidad y ubicación de la bahía.La selección de una unidad individual abre un desglose completo de sus características.
En este ejemplo, el panel de información de la unidad muestra la cadena completa del modelo, el protocolo del dispositivo, el factor de forma y los ajustes PCIe negociados.Los dispositivos NVMe funcionan a una velocidad de enlace de 32 GT / s con una conexión x4 negociadaLa sección de información también informa el porcentaje de resistencia, el estado de reserva disponible y el tipo de protocolo.Ayudar a los administradores a monitorear las expectativas de salud y ciclo de vida de la unidad.
Este informe de unidad granular es valioso en configuraciones NVMe de alta densidad donde el ancho del enlace, la velocidad negociada y el estado de los medios influyen directamente en el comportamiento de la carga de trabajo y el rendimiento del almacenamiento.
En general, la interfaz iDRAC 10 proporciona una vista clara y centrada en el hardware de la arquitectura de almacenamiento NVMe de R7725xd, lo que permite una fácil validación del estado del enlace, el estado de la unidad,y la integridad del sistema a simple vista.
Dell PowerEdge R7725xd Rendimiento
Antes de las pruebas, nuestro sistema fue configurado con una carga equilibrada pero de alto rendimiento. El sistema está equipado con dos procesadores AMD EPYC 9575F, cada uno con 64 núcleos de alta frecuencia,y emparejado con 24 DIMM DDR5 de 32 GB que operan a 6400 MT/sPara almacenamiento, el chasis está lleno de 24 unidades SSD Micron 9550 PRO U.2 NVMe de 15.36 TB, cada una conectada a través de un enlace PCIe Gen5 x4 dedicado.y las unidades Micron 9550 PRO ofrecen velocidades de lectura secuenciales de hasta 14,000 MB/s y velocidades de escritura secuenciales de hasta 10,000 MB/s. La red es manejada por cuatro adaptadores Broadcom BCM57608 que suministran un total de ocho puertos de 200Gb,junto con un BCM57412 OCP NIC que ofrece dos puertos adicionales de 10 gigabits.
Especificaciones del sistema de ensayo
- El CPU:Procesadores de alta frecuencia de 2x AMD EPYC 9575F de 64 núcleos
- Memoria:El valor de las emisiones de gases de efecto invernadero es el valor de las emisiones de gases de efecto invernadero.
- El almacenamiento:24x 15.36TB Micron 9550 PRO U.2 unidades (conectadas en 4x carriles de PCIe Gen5 cada uno); admite hasta 128TB unidades hoy con mayores capacidades en el horizonte
- Red:4x NIC de Broadcom BCM57608 2x200G, 1x NIC de OCP de 2x10Gb de BCM57412
- Interruptor:Dell PowerSwitch Z9664 es el mejor
Indicador de rendimiento del FIO
Para medir el rendimiento de almacenamiento del PowerEdge R7725xd, utilizamos métricas estándar de la industria y la herramienta FIO.
- 4K aleatorio 1M
- Secuencial 4K 1M
FIO local ancho de banda
Al probar el acceso local a las 24 unidades NVMe PCIe Gen5 dentro del Dell PowerEdge R7725xd,El sistema muestra exactamente lo que usted esperaría de una plataforma donde cada unidad está conectada a las CPU utilizando un enlace de PCIe Gen5 de carril completo x4Sin capas de red involucradas, este es el rendimiento interno puro del diseño de almacenamiento de Dell's Gen5 y el ancho de banda PCIe de la plataforma AMD EPYC funcionando sin restricciones.
Las lecturas secuenciales comienzan a 184 GB/s con bloques 4K y se escalan rápidamente a medida que aumenta el tamaño del bloque.lo que es una fuerte indicación de lo bien que el sistema puede agregar todos los carriles 24 × 4 Gen5 en un ancho de banda de lectura sostenido sin ningún cuello de botella en la etapa del controlador.
Las escrituras secuenciales siguen una curva diferente, pero se mantienen firmemente en el rango esperado.Esto se alinea con el comportamiento de escritura de las unidades SSD Micron 9550 PRO y la sobrecarga inherente a la alta NVMe paralela escribe a través de tantos dispositivos independientes.
El rendimiento de lectura aleatoria es otro punto destacado. El sistema alcanza velocidades de casi 300 GB/s en los tamaños de bloques más pequeños, baja ligeramente en el rango medio,y luego se recupera a los 200 superiores y 300 bajos en tamaños de bloques más grandesEn 1M, las lecturas aleatorias alcanzan un máximo de 318 GB/s, lo que demuestra la capacidad de la plataforma para distribuir operaciones mixtas de manera uniforme en las 24 unidades.
Las escrituras aleatorias se producen a una velocidad más baja, lo cual es típico para las tareas de metadatos dispersos y asignación de escritura en un amplio conjunto NVMe.Los resultados se mantienen en el rango de 140 a 160 GB/s durante la mayor parte de la prueba y se reducen a poco menos de 100 GB/s a 1 M.
FIO local IOPS
Cuando se examina el lado IOPS, el R7725xd demuestra un rendimiento robusto de bloque pequeño,con tasas de solicitud que llegan a las decenas de millones antes de que los tamaños de bloques más grandes cambien la carga de trabajo hacia un perfil impulsado por ancho de banda.
En 4K, las lecturas alcanzan 44.9 millones de IOPS y las escrituras llegan a 36.3 millones.Demostrar la capacidad del sistema para distribuir eficientemente las cargas de trabajo de alta cola en todas las unidadesEstos valores se estrechan naturalmente a medida que aumentan los tamaños de los bloques, pero la progresión sigue siendo consistente a través de los rangos de 8K, 16K y 32K.
En los bloques 16K y 32K, las lecturas se establecen en 17,4 millones y 8,35 millones de IOPS, con lecturas aleatorias que coinciden estrechamente en 16,5 millones y 8,15 millones.seguimiento más bajo pero estable en patrones de acceso secuenciales y aleatorios.
A medida que nos movemos a 64K y más, las transiciones de prueba de IOPS puro a un escenario más de ancho de banda limitada. IOPS caen en el bajo rango de millones y finalmente en los cientos de miles.En el tamaño del bloque 1M, leer IOPS tierra alrededor de 300K, escribe en alrededor de 174K, y las operaciones aleatorias terminan en el mismo vecindario.
En general, los resultados locales de IOPS muestran claramente la capacidad del sistema para soportar cargas de trabajo de muy alta profundidad de cola en bloques pequeños.con escalabilidad predecible a medida que crecen las transferencias y el ancho de banda se convierte en el factor dominante.
PEAK: AIO: Por qué el Dell PowerEdge R7725xd se ajusta a esta carga de trabajo
PEAK: AIO está diseñado para entornos que requieren acceso extremadamente rápido y de baja latencia a grandes conjuntos de datos, generalmente para capacitación de IA, tuberías de inferencia, modelado financiero y análisis en tiempo real.La plataforma prospera en el almacenamiento NVMe denso, un ancho de banda PCIe equilibrado y una latencia predecible a escala.el hardware subyacente debe ofrecer un rendimiento sostenido manteniendo un rendimiento constante y repetible bajo cargas pesadas concurrentes.
Aquí es donde el Dell PowerEdge R7725xd se alinea naturalmente con PEAK: AIO. La arquitectura del sistema está diseñada para maximizar los recursos de PCIe Gen5, exponiendo todo el ancho de banda de sus 24 U montados en el frente.2 bahías NVMe directamente a las CPUEste diseño le da a PEAK: AIO el perfil de paralelismo y latencia que espera de las tuberías de datos modernas basadas en NVMe.La configuración del sistema dividió los SSD NVMe en dos grupos RAID0.
En el escenario probado, utilizamos dos sistemas de clientes conectados al R7725xd, cada uno equipado con Broadcom BCM57608 2x 200G NICs.Empujando el R7725xd en una configuración realista de alto rendimiento que refleja lo que PEAKEste nivel de ancho de banda de la red nos dio el espacio para hacer hincapié en el subsistema NVMe, la topología PCIe,y la CPU se interconecta sin cuellos de botella en la capa NIC.
El resultado es una plataforma que se alinea efectivamente con las cargas de trabajo de PEAK: AIO.y la capacidad de red para mantener la ingestión de datos de varios clientes a cientos de gigabits por clienteTodas estas características son fundamentales para alcanzar las expectativas de rendimiento de PEAK:AIO.
PEAK:AIO ️ NVMe-of RDMA ️ Ancho de banda
Examinando los resultados de ancho de banda NVMe-oF RDMA en el PowerEdge R7725xd con PEAK: AIO, la tendencia general es precisamente lo que esperamos de un sistema con tanto ancho de banda PCIe y de red.A medida que el tamaño del bloque aumentaEn la actualidad, el rendimiento aumenta rápidamente hasta que se estabiliza cerca del límite práctico de la plataforma.
En los tamaños de bloques pequeños, el rendimiento comienza en el rango medio de 20 GB / s tanto para leer como para escribir, lo cual es normal porque las transferencias 4K y 8K empujan la ruta IOPS mucho más difícil que la ruta de rendimiento.Una vez que entramos en los bloques 16K y 32KLas lecturas saltan a alrededor de 154 GB/s a 32K y continúan subiendo al rango de 160 GB/s, que es justo donde esperaríamos una configuración de doble cliente a través de cuatro enlaces de 200 Gb/s a tierra.
Los espejos de rendimiento de lectura aleatoria secuenciales casi perfectamente.Así que el ancho de banda de lectura aleatoria esencialmente sigue secuencial de lectura de ancho de banda todo el camino hacia arribaEsto indica que la pila de almacenamiento no está causando cuellos de botella en los patrones de acceso mixto,y la topología PCIe de R7725xd®s está distribuyendo la carga uniformemente a través de las 24 unidades NVMe Gen5.
El rendimiento de escritura sigue una curva similar, aunque es ligeramente inferior a las lecturas.Bajando a aproximadamente 117 GB/s a 128K pero recuperándose a medida que aumenta el tamaño del bloqueLas escrituras aleatorias se comportan de manera diferente y se aplanan más cerca de 110-117 GB/s, lo cual es normal para cargas de trabajo de cola mixta que introducen gastos adicionales.
La conclusión clave de esta sección es que el R7725xd no tiene problemas para mantener un ancho de banda extremadamente alto sobre NVMe-oF, incluso con múltiples clientes que llevan el sistema a sus límites.Una vez que los tamaños de bloques alcanzan 32K o más, el servidor satura constantemente su red disponible y ancho de banda de almacenamiento.El objetivo de la plataforma es mejorar la calidad de la información de los usuarios y mejorar la calidad de la información..
PEAK AIO ¢ NVMe-oF RDMA IOPS
En el lado de IOPS, el PowerEdge R7725xd muestra un buen rendimiento en bloques pequeños, aunque inicialmente observamos números más bajos de lo esperado;Se espera que este problema se resuelva con un mejor soporte de controladores de red en el futuro.Incluso con eso en juego, la tendencia general de escalado aparece exactamente como NVMe-oF RDMA típicamente se comporta cuando el tamaño del bloque aumenta.
En el tamaño de bloque más pequeño, el sistema puede entregar más de 6 millones de IOPS a través de cargas de trabajo secuenciales y aleatorias.y escribir al azar todos se sientan en aproximadamente el mismo rango en 4K y 8K, lo que indica que los clientes de front-end, la infraestructura PCIe y las unidades NVMe no tienen problemas para mantenerse al día con la tasa de solicitudes.
A medida que crecen los tamaños de los bloques, comienza la caída esperada en IOPS. a 32K, lee tierra alrededor de 4,7 millones de IOPS, mientras que escribe el rastro ligeramente detrás en alrededor de 4,4 millones.,La reducción de la velocidad de entrada de datos a aproximadamente 3,3 millones de IOPS, lo que se alinea con la cola adicional y el recargo de la CPU introducido por los patrones de acceso mixto.
Al pasar a los bloques grandes, IOPS continúa reduciéndose de una manera lineal predecible.y IOPS naturalmente cae a los cientos de miles de mediadosEn un tamaño de bloque de 1M, todas las cargas de trabajo convergen a 140K-153K IOPS, consistente con los números de ancho de banda que vimos en la sección anterior.
Rendimiento de almacenamiento GPUDirect
Una de las pruebas que realizamos en el R7725xd fue la prueba Magnum IO GPUDirect Storage (GDS).GDS es una característica desarrollada por NVIDIA que permite a las GPUs eludir la CPU al acceder a datos almacenados en unidades NVMe u otros dispositivos de almacenamiento de alta velocidad.En lugar de enrutamiento de datos a través de la CPU y la memoria del sistema, GDS permite la comunicación directa entre la GPU y el dispositivo de almacenamiento, reduciendo significativamente la latencia y la mejora del rendimiento de los datos.
Cómo funciona el almacenamiento GPUDirect
Tradicionalmente, cuando una GPU procesa datos almacenados en una unidad NVMe, los datos deben viajar primero a través de la CPU y la memoria del sistema antes de llegar a la GPU.Como la CPU se convierte en un intermediarioGPUDirect Storage elimina esta ineficiencia al permitir que la GPU acceda a los datos directamente desde el dispositivo de almacenamiento a través del bus PCIe.Esta ruta directa reduce el movimiento de datos por encima, lo que permite transferencias de datos más rápidas y eficientes.
Las cargas de trabajo de IA, especialmente las que implican aprendizaje profundo, consumen mucha información.y cualquier retraso en la transferencia de datos puede conducir a GPUs subutilizadas y tiempos de entrenamiento más largos. GPUDirect Storage aborda este desafío asegurando que los datos se entreguen a la GPU lo más rápido posible, minimizando el tiempo de inactividad y maximizando la eficiencia computacional.
Además, el GDS es particularmente beneficioso para cargas de trabajo que implican la transmisión de grandes conjuntos de datos, como el procesamiento de video, el procesamiento de lenguaje natural o la inferencia en tiempo real.Al reducir la dependencia de la CPU, GDS acelera el movimiento de datos y libera recursos de la CPU para otras tareas, mejorando aún más el rendimiento general del sistema.
Más allá del ancho de banda en bruto, GPUDirect con NVMe-oF (TCP / RDMA) también ofrece E / S de latencia ultra baja. Esto garantiza que las GPU nunca estén hambrientas de datos, lo que hace que el sistema sea ideal para la inferencia de IA en tiempo real,tuberías de análisis, y reproducción de vídeo.
GDSIO Lectura secuencial
Cuando se examina PEAK:AIO con un cliente que utiliza GDSIO, el rendimiento de lectura muestra un patrón de escalado claro a medida que aumenta el tamaño del bloque y el número de hilos.Este único cliente estaba conectado a través de dos enlaces 400G, limitando su potencia total a 90 GB/s.
En los tamaños de bloques más pequeños y el bajo número de hilos, el rendimiento es modesto, con lecturas 4K que comienzan alrededor de 189 MiB / s en un solo hilo.El sistema responde inmediatamente., empujando 691MiB/s a cuatro hilos y rompiendo en el rango de multi-GiB/s a medida que nos adentramos en bloques más grandes.
Los tamaños de bloques de rango medio muestran la mayor sensibilidad al número de hilos.con sólo un ligero afianzamiento más allá de esoUn patrón similar aparece en 64K y 128K, donde el sistema pasa de un bajo número de un solo dígito de GiB/s con un bajo paralelismo a más de 30 GiB/s a medida que la carga de trabajo aumenta.
Una vez que alcanzamos los tamaños de bloques más grandes, el rendimiento comienza a nivelarse a medida que el sistema se acerca a su techo de rendimiento para un solo cliente.El rendimiento sube de 11 GiB/s en un hilo a alrededor de 88 GiB/s con un alto número de hilosLas transferencias de 5 MiB y 10 MiB muestran la misma meseta, alcanzando alrededor de 89 ‰ 90 GiB/s independientemente de si la prueba se ejecuta a 64, 128 o 256 hilos.
GDSIO Escribir secuencial
En el lado de la escritura, el comportamiento de escala sigue un patrón similar a las lecturas, pero con un rendimiento ligeramente menor en la mayoría de los tamaños de bloques, lo que se espera para las cargas de trabajo de escritura secuenciales.En los tamaños de bloques más pequeñosEn cuatro hilos, el rendimiento comienza en 165 MiB/s para un solo hilo a 4K y aumenta constantemente a medida que aumenta el paralelismo.
Los tamaños de bloques de rango medio muestran ganancias más fuertes a medida que aumentan los números de hilos.Los rangos 64K y 128K continúan la tendencia, pasando de los bajos GiB/s de un solo dígito a los 30 GiB/s y 50 GiB/s a medida que la carga de trabajo se vuelve más paralela.
Las transferencias más grandes se producen cuando el sistema se asienta en su límite natural de transmisión de escritura.Las pruebas de 5 MiB y 10 MiB siguen un patrón similar, con resultados que alcanzan un máximo de alrededor de 90 GiB/s, independientemente de si el sistema se ejecuta a 64, 128 o 256 hilos.
Redefinición del rendimiento en la era Gen5
Sandy Yang, directora de estrategia global
WhatsApp / WeChat: +86 13426366826 El número de teléfono es:
Correo electrónico: yangyd@qianxingdata.com
El sitio web: www.qianxingdata.com/www.storagesserver.com
Enfoque en el negocio:
Distribución de productos TIC/Integración de sistemas y servicios/Soluciones de infraestructura
Con más de 20 años de experiencia en distribución de TI, nos asociamos con las principales marcas globales para ofrecer productos confiables y servicios profesionales.
Usar la tecnología para construir un mundo inteligente¡Su proveedor de servicios de productos TIC de confianza!



