Puntos Clave
- Rendimiento sin precedentes en un solo nodo: El R7725xd sostuvo más de 300 GB/s de ancho de banda interno y 160 GB/s a través de NVMe-oF RDMA, rivalizando con clústeres de almacenamiento multinodo dentro de un chasis de 2U.
- Arquitectura Gen5 real, sin switches, sin distribución (fan-out): Los 24 SSD Micron 9550 PRO reciben carriles PCIe Gen5 x4 dedicados directamente del complejo de CPU, lo que permite una escalabilidad a velocidad de línea sin contención.
- Impulsado por AMD EPYC Serie 9005: Los procesadores duales AMD EPYC 9575F proporcionan el recuento de carriles, el ancho de banda de memoria y la topología NUMA necesarios para E/S de alta concurrencia sostenida.
- Diseñado para IA, Analítica y Cargas de Trabajo con Muchos Puntos de Control: El sistema elimina los cuellos de botella de E/S que detienen las canalizaciones de GPU modernas, permitiendo una entrega de datos continua y de alto ancho de banda.
- PEAK:AIO Desbloquea el Paralelismo Completo: La pila de software de PEAK:AIO mantiene las estructuras de cola saturadas bajo carga, ofreciendo un rendimiento empresarial a una atractiva relación dólar por GB.
La sección de almacenamiento de iDRAC 10 presenta una visión completa de todos los discos físicos instalados en el R7725xd. El panel de resumen muestra un recuento general de todas las unidades conectadas, acompañado de un gráfico circular visual que ilustra los estados de las unidades. En esta configuración, 24 SSD NVMe están activos e informan como listos, con dos dispositivos de arranque adicionales presentes en el sistema, separados del banco NVMe frontal principal.
A la derecha, el Resumen de Discos desglosa estos en discos físicos y cualquier disco virtual asociado. Dado que el R7725xd utiliza una arquitectura NVMe directa sin controladores RAID tradicionales, todas las unidades se informan como No RAID y son direccionables individualmente, lo que se alinea con el diseño del sistema para grandes grupos NVMe y plataformas SDS.
Debajo del resumen de estado, el área de Eventos de Almacenamiento Registrados Recientemente enumera los registros de inserción para cada SSD PCIe, organizados por bahía y ranura. Este registro confirma la detección adecuada en todas las bahías de unidades y ayuda a identificar cualquier problema con el asiento, el cableado o la actividad de intercambio en caliente. Para implementaciones grandes, estos registros son útiles al rastrear el aprovisionamiento de unidades o verificar que la capacidad se ha poblado según lo esperado.
La captura de pantalla final muestra la vista detallada del dispositivo NVMe dentro de iDRAC10. Cada unidad NVMe instalada en el sistema se enumera con su estado, capacidad y ubicación en la bahía. Seleccionar una unidad individual abre un desglose completo de sus características.
En este ejemplo, el panel de información de la unidad muestra la cadena completa del modelo, el protocolo del dispositivo, el factor de forma y la configuración PCIe negociada. Los dispositivos NVMe se ejecutan a una velocidad de enlace de 32 GT/s con una conexión x4 negociada, lo que confirma que las unidades operan a pleno ancho de banda en el backplane PCIe Gen5 del sistema. La sección de información también informa el porcentaje de resistencia, el estado de repuesto disponible y el tipo de protocolo, lo que ayuda a los administradores a monitorear la salud de la unidad y las expectativas del ciclo de vida.
Este informe granular de unidades es valioso en configuraciones NVMe de alta densidad donde el ancho del enlace, la velocidad negociada y la salud de los medios influyen directamente en el comportamiento de la carga de trabajo y el rendimiento del almacenamiento.
En general, la interfaz iDRAC 10 proporciona una vista clara y centrada en el hardware de la arquitectura de almacenamiento NVMe del R7725xd, lo que permite una fácil validación del estado del enlace, el estado de la unidad y la integridad del sistema de un vistazo.
Rendimiento de Dell PowerEdge R7725xd
Antes de las pruebas, nuestro sistema se configuró con una carga equilibrada pero de alto rendimiento. El sistema está equipado con dos procesadores AMD EPYC 9575F, cada uno con 64 núcleos de alta frecuencia, y combinado con 24 DIMM DDR5 de 32 GB que operan a 6400 MT/s. Para el almacenamiento, el chasis está completamente poblado con 24 SSD NVMe U.2 Micron 9550 PRO de 15,36 TB, cada uno conectado a través de un enlace PCIe Gen5 x4 dedicado. Esto proporciona una capacidad bruta total de 368,64 TB, y las unidades Micron 9550 PRO ofrecen velocidades de lectura secuencial de hasta 14.000 MB/s y velocidades de escritura secuencial de hasta 10.000 MB/s. La red se maneja mediante cuatro adaptadores Broadcom BCM57608 que proporcionan un total de ocho puertos de 200 Gb, junto con una NIC OCP BCM57412 que ofrece dos puertos adicionales de 10 Gigabit.
Especificaciones del sistema de prueba
- CPU: 2x Procesadores de alta frecuencia AMD EPYC 9575F de 64 núcleos
- Memoria: 24x 32 GB DDR5 @ 6400 MT/s
- Almacenamiento: 24x unidades U.2 Micron 9550 PRO de 15,36 TB (conectadas a 4 carriles de PCIe Gen5 cada una); admite unidades de hasta 128 TB hoy en día con capacidades superiores en el horizonte
- Red: 4x NIC Broadcom BCM57608 2x200G, 1x NIC OCP BCM57412 2x10Gb
- Switch: Dell PowerSwitch Z9664
Benchmark de rendimiento FIO
Para medir el rendimiento del almacenamiento del PowerEdge R7725xd, utilizamos métricas estándar de la industria y la herramienta FIO. En esta sección, nos centramos en los siguientes benchmarks de FIO:
- 4K aleatorio – 1M
- 4K secuencial – 1M
FIO – Local – Ancho de banda
Al probar el acceso local a las 24 unidades NVMe PCIe Gen5 dentro del Dell PowerEdge R7725xd, el sistema muestra exactamente lo que se esperaría de una plataforma donde cada unidad está conectada a las CPU utilizando un enlace PCIe Gen5 x4 completo. Sin capa de red involucrada, este es el rendimiento puro e interno de la disposición de almacenamiento Gen5 de Dell y el ancho de banda PCIe de la plataforma AMD EPYC funcionando sin restricciones.
Las lecturas secuenciales comienzan en 184 GB/s con bloques de 4K y escalan rápidamente a medida que aumenta el tamaño del bloque. De 512K a 1M, el servidor mantiene un consistente de 312 a 314 GB/s, lo que es un fuerte indicio de cuán bien el sistema puede agregar los 24 carriles Gen5 x4 en ancho de banda de lectura sostenido sin cuellos de botella en la etapa del controlador.
Las escrituras secuenciales siguen una curva diferente pero se mantienen firmemente dentro del rango esperado. Comenzando en 149 GB/s, los resultados aumentan a través de los 100 GB/s medios y alcanzan 182 GB/s a 1 millón. Esto se alinea con el comportamiento de escritura de los SSD Micron 9550 PRO y la sobrecarga inherente a las escrituras NVMe de alta paralelización en tantos dispositivos independientes.
El rendimiento de lectura aleatoria es otro punto destacado. El sistema alcanza velocidades de casi 300 GB/s en los tamaños de bloque más pequeños, disminuye ligeramente en el rango medio y luego se recupera a los 200 y 300 GB/s superiores en tamaños de bloque más grandes. A 1M, las lecturas aleatorias alcanzan un máximo de 318 GB/s, lo que demuestra la capacidad de la plataforma para distribuir operaciones mixtas de manera uniforme en las 24 unidades.
Las escrituras aleatorias se presentan a una tasa más baja, lo cual es típico para la dispersión de metadatos y las tareas de asignación de escritura en un amplio conjunto NVMe. Los resultados se mantienen en el rango de 140 a 160 GB/s durante la mayor parte de la prueba y disminuyen a poco menos de 100 GB/s a 1 M.
FIO – Local – IOPS
Al examinar el lado de IOPS, el R7725xd demuestra un sólido rendimiento de bloques pequeños, con tasas de solicitud que alcanzan muy por encima de las decenas de millones antes de que los tamaños de bloque más grandes cambien la carga de trabajo hacia un perfil impulsado por el ancho de banda.
A 4K, las lecturas alcanzan 44,9 millones de IOPS y las escrituras llegan a 36,3 millones. Las lecturas aleatorias alcanzan niveles aún más altos con 71,4 millones de IOPS, lo que demuestra la capacidad del sistema para distribuir cargas de trabajo de cola alta en todas las unidades. Estos valores disminuyen naturalmente a medida que aumentan los tamaños de bloque, pero la progresión sigue siendo consistente a través de los rangos de 8K, 16K y 32K.
A 16K y 32K bloques, las lecturas se estabilizan en 17,4 millones y 8,35 millones de IOPS, con lecturas aleatorias muy similares con 16,5 millones y 8,15 millones. Las escrituras siguen el patrón esperado, siendo más bajas pero manteniéndose estables en patrones de acceso secuencial y aleatorio.
A medida que avanzamos a 64K y superiores, la prueba pasa de IOPS puros a un escenario más limitado por el ancho de banda. Los IOPS caen al rango de millones bajos y eventualmente a cientos de miles. A un tamaño de bloque de 1M, los IOPS de lectura se sitúan alrededor de 300K, las escrituras alrededor de 174K, y las operaciones aleatorias terminan en el mismo vecindario.
En general, los resultados de IOPS locales muestran claramente la capacidad del sistema para mantener cargas de trabajo de profundidad de cola muy altas en bloques pequeños, con una escalabilidad predecible a medida que las transferencias crecen y el ancho de banda se convierte en el factor dominante.
PEAK:AIO: Por qué el Dell PowerEdge R7725xd se adapta a esta carga de trabajo
PEAK:AIO está diseñado para entornos que exigen acceso extremadamente rápido y de baja latencia a grandes conjuntos de datos, típicamente para entrenamiento de IA, canalizaciones de inferencia, modelado financiero y análisis en tiempo real. La plataforma prospera con almacenamiento NVMe denso, ancho de banda PCIe equilibrado y latencia predecible a escala. Para cumplir con estos requisitos, el hardware subyacente debe ofrecer un rendimiento sostenido mientras mantiene un rendimiento consistente y repetible bajo cargas pesadas concurrentes.
Aquí es donde el Dell PowerEdge R7725xd se alinea naturalmente con PEAK:AIO. La arquitectura del sistema está diseñada para maximizar los recursos PCIe Gen5, exponiendo el ancho de banda completo de sus 24 bahías NVMe U.2 montadas en la parte frontal directamente a las CPU, sin depender de controladores RAID tradicionales. Esta disposición le da a PEAK:AIO el paralelismo y el perfil de latencia que espera de las canalizaciones de datos modernas basadas en NVMe. La configuración del sistema dividió los SSD NVMe en dos grupos RAID0.
En el escenario probado, utilizamos dos sistemas cliente conectados al R7725xd, cada uno equipado con NIC Broadcom BCM57608 2x 200G. Eso creó un total de cuatro enlaces ascendentes de 200G que alimentaban a cada cliente, empujando al R7725xd a una configuración realista de alto rendimiento que refleja lo que las implementaciones de PEAK:AIO ven en producción. Este nivel de ancho de banda de red nos dio el margen para estresar completamente el subsistema NVMe, la topología PCIe y las interconexiones de la CPU sin estrangular en la capa NIC.
El resultado es una plataforma que se alinea eficazmente con las cargas de trabajo de PEAK:AIO. El R7725xd proporciona capacidad NVMe densa, rendimiento PCIe Gen5, procesadores duales AMD EPYC 9005 para paralelismo y la capacidad de red para sostener la ingesta de datos multicliente a cientos de gigabits por cliente. Todas estas características son fundamentales para lograr las expectativas de rendimiento de PEAK:AIO.
PEAK:AIO – NVMe-oF RDMA – Ancho de banda
Al examinar los resultados de ancho de banda NVMe-oF RDMA en el PowerEdge R7725xd con PEAK:AIO, la tendencia general es precisamente la que esperamos de un sistema con tanto ancho de banda PCIe y de red. A medida que aumenta el tamaño del bloque, el rendimiento aumenta rápidamente hasta que se estabiliza cerca del límite práctico de la plataforma.
En los tamaños de bloque pequeños, el rendimiento comienza en el rango medio de 20 GB/s tanto para lecturas como para escrituras, lo cual es normal porque las transferencias de 4K y 8K exigen más a la ruta de IOPS que a la ruta de rendimiento. Una vez que entramos en los bloques de 16K y 32K, la canalización se abre. Las lecturas saltan a alrededor de 154 GB/s a 32K y continúan subiendo al rango de 160 GB/s, que es exactamente donde esperaríamos que aterrizara una configuración de doble cliente a través de cuatro enlaces de 200 Gb/s.
El rendimiento de lectura aleatoria refleja casi perfectamente el secuencial. PEAK:AIO hace un buen trabajo al mantener las colas de comandos alimentadas, por lo que el ancho de banda de lectura aleatoria rastrea esencialmente el ancho de banda de lectura secuencial hasta arriba, estabilizándose en aproximadamente 159 a 161 GB/s de 32K a 1M. Esto indica que la pila de almacenamiento no es un cuello de botella bajo patrones de acceso mixtos, y la topología PCIe del R7725xd está distribuyendo la carga de manera uniforme en las 24 unidades NVMe Gen5.
El rendimiento de escritura sigue una curva similar, aunque alcanza un máximo ligeramente inferior al de las lecturas. Las escrituras secuenciales se mantienen en el rango de 140 a 148 GB/s a través de los bloques de tamaño medio, disminuyendo a aproximadamente 117 GB/s a 128K pero recuperándose a medida que aumenta el tamaño del bloque. Las escrituras aleatorias se comportan de manera diferente y se aplanan cerca de 110-117 GB/s, lo cual es normal para cargas de trabajo de cola mixta que introducen sobrecarga adicional.
La conclusión clave de esta sección es que el R7725xd no tiene problemas para mantener un ancho de banda extremadamente alto a través de NVMe-oF, incluso con múltiples clientes llevando el sistema a sus límites. Una vez que los tamaños de bloque alcanzan 32K o más, el servidor satura consistentemente su ancho de banda de red y almacenamiento disponible. Este es exactamente el tipo de rendimiento que PEAK:AIO está diseñado para extraer, lo que hace que estos resultados sean una fuerte validación de la capacidad de la plataforma para escalar en condiciones del mundo real.
PEAK AIO – NVMe-oF RDMA IOPS
En el lado de IOPS, el PowerEdge R7725xd exhibe un sólido rendimiento de bloques pequeños, aunque inicialmente observamos números más bajos de lo esperado; se espera que este problema se aborde con un mejor soporte de controladores de red en el futuro. Incluso con eso en juego, la tendencia general de escalabilidad parece ser exactamente como se comporta típicamente NVMe-oF RDMA cuando aumenta el tamaño del bloque.
En el tamaño de bloque más pequeño, el sistema puede entregar más de 6 millones de IOPS en cargas de trabajo secuenciales y aleatorias. Lectura, escritura, lectura aleatoria y escritura aleatoria se encuentran aproximadamente en el mismo rango a 4K y 8K, lo que indica que los clientes frontales, la infraestructura PCIe y las propias unidades NVMe no tienen problemas para seguir el ritmo de la tasa de solicitudes.
A medida que los tamaños de bloque crecen, comienza la caída esperada en IOPS. A 32K, las lecturas se sitúan alrededor de 4,7 millones de IOPS, mientras que las escrituras se quedan ligeramente atrás con aproximadamente 4,4 millones. Las escrituras aleatorias sufren el mayor impacto aquí, cayendo a aproximadamente 3,3 millones de IOPS, lo que se alinea con la sobrecarga adicional de cola y CPU introducida por los patrones de acceso mixto.
Al pasar a los bloques grandes, los IOPS continúan disminuyendo de manera predecible y lineal. Para cuando llegamos a transferencias de 256K y 512K, el rendimiento se convierte en la métrica dominante, y los IOPS caen naturalmente a cientos de miles. A un tamaño de bloque de 1M, todas las cargas de trabajo convergen a 140K-153K IOPS, consistente con los números de ancho de banda que vimos en la sección anterior.
Rendimiento de GPUDirect Storage
Una de las pruebas que realizamos en el R7725xd fue la prueba Magnum IO GPUDirect Storage (GDS). GDS es una característica desarrollada por NVIDIA que permite a las GPU omitir la CPU al acceder a datos almacenados en unidades NVMe u otros dispositivos de almacenamiento de alta velocidad. En lugar de enrutar los datos a través de la CPU y la memoria del sistema, GDS permite la comunicación directa entre la GPU y el dispositivo de almacenamiento, lo que reduce significativamente la latencia y mejora el rendimiento de los datos.
Cómo funciona GPUDirect Storage
Tradicionalmente, cuando una GPU procesa datos almacenados en una unidad NVMe, los datos deben viajar primero a través de la CPU y la memoria del sistema antes de llegar a la GPU. Este proceso introduce cuellos de botella, ya que la CPU se convierte en un intermediario, agregando latencia y consumiendo valiosos recursos del sistema. GPUDirect Storage elimina esta ineficiencia al permitir que la GPU acceda a los datos directamente desde el dispositivo de almacenamiento a través del bus PCIe. Esta ruta directa reduce la sobrecarga de movimiento de datos, permitiendo transferencias de datos más rápidas y eficientes.
Las cargas de trabajo de IA, especialmente aquellas que involucran aprendizaje profundo, son muy intensivas en datos. El entrenamiento de redes neuronales grandes requiere el procesamiento de terabytes de datos, y cualquier retraso en la transferencia de datos puede llevar a GPUs infrautilizadas y tiempos de entrenamiento más largos. GPUDirect Storage aborda este desafío asegurando que los datos se entreguen a la GPU lo más rápido posible, minimizando el tiempo de inactividad y maximizando la eficiencia computacional.
Además, GDS es particularmente beneficioso para cargas de trabajo que implican la transmisión de grandes conjuntos de datos, como el procesamiento de video, el procesamiento del lenguaje natural o la inferencia en tiempo real. Al reducir la dependencia de la CPU, GDS acelera el movimiento de datos y libera recursos de la CPU para otras tareas, mejorando aún más el rendimiento general del sistema.
Más allá del ancho de banda bruto, GPUDirect con NVMe-oF (TCP/RDMA) también ofrece E/S de latencia ultra baja. Esto asegura que las GPU nunca se queden sin datos, lo que hace que el sistema sea ideal para inferencia de IA en tiempo real, canalizaciones de análisis y reproducción de video.
GDSIO Lectura Secuencial
Al examinar PEAK:AIO con un cliente usando GDSIO, el rendimiento de lectura exhibe un patrón de escalabilidad claro a medida que aumentan tanto el tamaño del bloque como el número de hilos. Este cliente único estaba conectado a través de dos enlaces de 400G, limitando su potencial total a 90 GB/s.
En los tamaños de bloque más pequeños y recuentos de hilos bajos, el rendimiento es modesto, con lecturas de 4K comenzando alrededor de 189 MiB/s con un solo hilo. Tan pronto como aumentamos el paralelismo de hilos, el sistema responde de inmediato, alcanzando 691 MiB/s con cuatro hilos y entrando en el rango de múltiples GiB/s al pasar a bloques más grandes.
Los tamaños de bloque intermedios muestran la mayor sensibilidad al recuento de hilos. A 32K, el rendimiento crece de 1,3 GiB/s con un solo hilo a casi 20 GiB/s con 64 hilos, con solo una ligera disminución más allá de eso. Un patrón similar aparece a 64K y 128K, donde el sistema pasa de GiB/s bajos de un solo dígito con bajo paralelismo a más de 30 GiB/s a medida que la carga de trabajo escala.
Una vez que llegamos a los tamaños de bloque más grandes, el rendimiento comienza a estabilizarse a medida que el sistema se acerca a su techo de rendimiento para un solo cliente. A 1 MiB, el rendimiento aumenta de 11 GiB/s con un hilo a alrededor de 88 GiB/s con recuentos de hilos altos. Las transferencias de 5 MiB y 10 MiB muestran la misma meseta, alcanzando un máximo de alrededor de 89-90 GiB/s independientemente de si la prueba se ejecuta con 64, 128 o 256 hilos.
GDSIO Escritura Secuencial
En el lado de la escritura, el comportamiento de escalabilidad sigue un patrón similar al de las lecturas, pero con un rendimiento ligeramente menor en la mayoría de los tamaños de bloque, lo cual es esperado para cargas de trabajo de escritura secuencial. En los tamaños de bloque más pequeños, el rendimiento comienza en 165 MiB/s para un solo hilo a 4K y aumenta constantemente a medida que aumenta el paralelismo. Con cuatro hilos, eso aumenta a poco más de 619 MiB/s antes de superar 1 GiB/s con ocho hilos.
Los tamaños de bloque intermedios muestran mayores ganancias a medida que aumentan los recuentos de hilos. A 32K, el rendimiento comienza en poco menos de 1 GiB/s y escala a más de 21 GiB/s en niveles de hilos más altos. Los rangos de 64K y 128K continúan la tendencia, pasando de GiB/s bajos de un solo dígito a GiB/s medios de 30 y 50 GiB/s a medida que la carga de trabajo se vuelve más paralela.
Las transferencias más grandes son cuando el sistema se asienta en su techo de rendimiento de escritura natural. A 1 MiB, el rendimiento aumenta de 13,3 GiB/s con un solo hilo a poco menos de 90 GiB/s con recuentos de hilos altos. Las pruebas de 5 MiB y 10 MiB siguen un patrón similar, con resultados que alcanzan un máximo de alrededor de 90 GiB/s independientemente de si el sistema se ejecuta con 64, 128 o 256 hilos.
Redefiniendo el rendimiento en la era Gen5
Sandy Yang/Director de Estrategia Global
WhatsApp / WeChat: +86 13426366826
Correo electrónico: yangyd@qianxingdata.com
Sitio web: www.qianxingdata.com/www.storagesserver.com
Enfoque de Negocio:
Distribución de Productos TIC/Integración de Sistemas y Servicios/Soluciones de Infraestructura
Con más de 20 años de experiencia en distribución de TI, nos asociamos con marcas líderes a nivel mundial para ofrecer productos confiables y servicios profesionales.
"Usando la Tecnología para Construir un Mundo Inteligente" ¡Su Proveedor de Servicios de Productos TIC de Confianza!
Persona de Contacto: Ms. Sandy Yang
Teléfono: 13426366826



