Utilizamos un Dell PowerEdge R760 con Ubuntu 22.04.02 LTS como nuestra plataforma de prueba para todas las cargas de trabajo en esta revisión. Equipado con cables serie Gen5 JBOF, ofrece amplia compatibilidad con SSD U.2, E1.S, E3.S y M.2. La configuración de nuestro sistema se describe a continuación:
Rendimiento de CDN
Para simular una carga de trabajo CDN realista y de contenido mixto, los SSD se sometieron a una secuencia de referencia de varias fases diseñada para replicar los patrones de E/S de servidores perimetrales con mucho contenido. El proceso de prueba cubre una variedad de tamaños de bloques, tanto grandes como pequeños, distribuidos en operaciones aleatorias y secuenciales, con distintos niveles de concurrencia.
Antes de las principales pruebas de rendimiento, cada SSD completó un llenado completo del dispositivo mediante una pasada de escritura 100 % secuencial utilizando bloques de 1 MB. Este proceso empleó E/S sincrónicas y una profundidad de cola de cuatro, lo que permitió cuatro trabajos simultáneos. Esta fase garantiza que la unidad entre en una condición de estado estable que refleja el uso en el mundo real. Después del llenado secuencial, se ejecutó una etapa secundaria de saturación de escritura aleatoria de tres horas, utilizando una distribución de tamaño de bloque ponderado (tamaño de bloque/porcentaje) con un fuerte enfoque en transferencias de 128K (98,51%), complementada con contribuciones menores desde bloques de menos de 128K hasta 8K. Este paso emula los patrones de escritura fragmentados y desiguales que se ven comúnmente en entornos de caché distribuida.
El conjunto de pruebas principal se centró en operaciones de lectura y escritura aleatorias escaladas para medir el rendimiento de la unidad en profundidades de cola variables y simultaneidad de trabajos. Cada prueba se ejecutó durante cinco minutos (300 segundos), seguida de un período de inactividad de tres minutos para permitir que los mecanismos de recuperación internos estabilicen las métricas de rendimiento.
Las pruebas se realizaron utilizando una distribución de tamaño de bloque fijo que favorecía 128K (98,51%), y el 1,49% restante de las operaciones consistía en tamaños de transferencia más pequeños que oscilaban entre 64K y 8K. Cada configuración varió en 1, 2 y 4 trabajos simultáneos, con profundidades de cola de 1, 2, 4, 8, 16 y 32, para perfilar la escalabilidad del rendimiento y la latencia en condiciones típicas de escritura perimetral.
También se utilizó un perfil de tamaño de bloque muy mixto, que imita la recuperación de contenido CDN, comenzando con un componente dominante de 128K (83,21%), seguido de una larga cola de más de 30 tamaños de bloque más pequeños (4K a 124K), cada uno con representación de frecuencia fraccionaria. Esta distribución refleja los diversos patrones de solicitud encontrados durante la búsqueda de segmentos de vídeo, el acceso a miniaturas y las búsquedas de metadatos. Estas pruebas también se realizaron en toda la matriz de recuentos de trabajos y profundidad de las colas.
Esta combinación de pruebas de precondicionamiento, saturación y acceso aleatorio de tamaños mixtos está diseñada para revelar cómo se desempeñan los SSD en entornos sostenidos similares a CDN, enfatizando la capacidad de respuesta y la eficiencia en escenarios altamente paralelizados y con mucho ancho de banda.
Carga de trabajo CDN Lectura 1
En nuestras pruebas de lectura de carga de trabajo de CDN (1 trabajo), el Kingston DC3000ME entregó un rendimiento sólido que se escaló de manera efectiva al aumentar la profundidad de la cola. En el QD1, alcanzó 940 MB/s, detrás del SanDisk SN861 en aproximadamente un 26%. Sin embargo, a medida que aumentó la profundidad de la cola, el DC3000ME redujo la brecha y superó a varias unidades Gen5. En el cuarto trimestre, el Kingston DC3000ME alcanzó 3390 MB/s, aproximadamente un 42 % más rápido que el Micron 9550, un 40 % más que el Pascari X200P y aproximadamente un 25 % más rápido que el Solidigm PS1010, aunque ligeramente por detrás del SanDisk SN861 en aproximadamente un 2,6 %. En el QD16, el DC3000ME alcanzó los 9645 MB/s, superando al Solidigm PS1010 en ~13% y al Micron 9550 en ~20%. En la profundidad de prueba máxima de QD32, Kingston logró 14,131 MB/s, igualando efectivamente al Micron 9550 y superando al Solidigm PS1010 en aproximadamente un 15 % y al SanDisk SN861 en casi un 10 %.
Kingston DC3000ME - Carga de trabajo CDN Leer 1 trabajo
Carga de trabajo CDN Lectura 2
En la carga de trabajo de lectura CDN de 2 trabajos, el Kingston DC3000ME mantuvo un rendimiento sólido en todas las profundidades de la cola. En el primer trimestre, registró 1.854 MB/s, más rápido que el Micron 9550 (1.548 MB/s) en un 20 %, el Pascari X200P (1.519 MB/s) en un 22 % y el Solidigm PS1010 (2.011 MB/s) en aproximadamente un 8 %, aunque por detrás del SanDisk SN861 (2.487 MB/s). 34%.
En el cuarto trimestre, Kingston alcanzó 6.335 MB/s, superando notablemente a Micron (5.337 MB/s), Pascari (5.249 MB/s) y Solidigm (5.609 MB/s). Sin embargo, todavía estaba por detrás de SanDisk, que ocupó el primer lugar con 6.996 MB/s.
Para el QD16, Kingston alcanzó los 14,131MB/s, liderando el grupo en este punto. En el punto de prueba final (QD32), logró un ligero aumento a 14,336 MB/s, detrás de Pascari (15,257 MB/s) y Micron (15,052 MB/s) en ~6 % y 5 %, respectivamente, mientras mantiene una sólida ventaja sobre SanDisk (13,619 MB/s) y Solidigm (13,721 MB/s).
Carga de trabajo CDN Lectura 4
Con cuatro trabajos activos, el Kingston DC3000ME siguió manteniéndose firme en rendimiento de lectura de CDN. En el primer trimestre, alcanzó los 3639 MB/s, superando al Micron 9550 (3070 MB/s) y al Pascari X200P (2982 MB/s), pero todavía un 22 % por detrás del SanDisk SN861, que lideró este nivel con 4443 MB/s. En el cuarto trimestre, Kingston entregó 10.854 MB/s, una mejora del 15 % con respecto a Micron (9.427 MB/s), un 20 % por delante de Pascari (9.070 MB/s) y ligeramente por encima de Solidigm (9.627 MB/s). Sin embargo, todavía estaba por detrás de los 11.161 MB/s de SanDisk.
Para el octavo trimestre, Kingston registró 13.926 MB/s, casi idéntico a Micron y aproximadamente en línea con SanDisk (13.619 MB/s) y Solidigm (12.800 MB/s). En QD16 y QD32, el rendimiento se estabilizó alrededor de 14,131–14,233 MB/s para Kingston, ligeramente detrás de Micron y Pascari (ambos alrededor de 15,052–15,257 MB/s), pero aún cómodamente por delante de SanDisk (13,619 MB/s) y Solidigm (13,721 MB/s).
Carga de trabajo CDN Escritura 1
En nuestra carga de trabajo de escritura CDN (1 trabajo), Kingston DC3000ME mostró un escalamiento consistente en todas las profundidades de la cola. En QD1, alcanzó 2118 MB/s, más rápido que el Micron 9550 (2004 MB/s), el Pascari X200P (1885 MB/s) y el Solidigm PS1010 (1718 MB/s), mientras que el SanDisk SN861 estaba apenas por un pelo (2164 MB/s). En el cuarto trimestre, Kingston registró 4.318 MB/s: 55 % más rápido que Solidigm (2.789 MB/s), 26 % más rápido que Pascari (3.437 MB/s), pero 10 % más lento que Micron (4.807 MB/s) y 19 % detrás de SanDisk (5.353 MB/s).
Para el QD16, entregó 5.880 MB/s, superando a Pascari (4.921 MB/s) en un 20 % y más del doble que Solidigm (2.664 MB/s), pero todavía un 11 % detrás de Micron (6.686 MB/s) y un 15 % de SanDisk (6.939 MB/s). En QD32, Kingston alcanzó un límite de 5987 MB/s, nuevamente cerca de Pascari (5913 MB/s), pero detrás de Micron (7422 MB/s) y SanDisk (7521 MB/s) en ~20% y 25%, respectivamente.
Kingston DC3000ME: carga de trabajo CDN de rendimiento de escritura 1 trabajo
Carga de trabajo CDN Escritura 2
En la carga de trabajo de escritura CDN de 2 trabajos, el Kingston DC3000ME demostró un rendimiento constante, aunque en general quedó por detrás de los SSD de clase empresarial Gen5 más rápidos. En el primer trimestre, registró 2651 MB/s, justo por debajo del Micron 9550 (2813 MB/s) y Pascari X200P (2762 MB/s), y aproximadamente un 33% por detrás del SanDisk SN861 (3972 MB/s).
A medida que aumentaba la cantidad de colas, el DC3000ME mantuvo el ritmo. En QD4, alcanzó 4807 MB/s, aproximadamente un 23 % más lento que el Micron 9550 (5902 MB/s) y un 13 % detrás del SanDisk SN861 (5508 MB/s), pero por delante del Solidigm PS1010 con 3154 MB/s.
En el QD16, Kingston entregó 5772 MB/s, todavía detrás de Micron (7896 MB/s) y SanDisk (6709 MB/s), pero continúa superando a los modelos de nivel inferior como Solidigm PS1010 (3820 MB/s) y Pascari X200P (5417 MB/s). En QD32, el DC3000ME alcanzó un máximo de 5870 MB/s, aproximadamente un 32 % por detrás del Micron 9550 (8670 MB/s) y un 22 % por debajo del SanDisk SN861 (7537 MB/s), pero aún por delante del Solidigm PS1010 (2817 MB/s) y Pascari (4585 MB/s).
Carga de trabajo CDN Escritura 4
En la carga de trabajo de escritura CDN de 4 trabajos, el Kingston DC3000ME escaló de manera constante en todas las profundidades de la cola, aunque en general quedó detrás de las dos unidades Gen5 superiores. En QD1, logró 2202 MB/s, colocándolo detrás del Pascari X200P (2845 MB/s), Micron 9550 (2703 MB/s) y SanDisk SN861 (3544 MB/s), pero por delante del Solidigm PS1010 (2020 MB/s). En el segundo trimestre, Kingston alcanzó 3165 MB/s, nuevamente por detrás de SanDisk (4863 MB/s) y Micron (4457 MB/s), pero manteniendo una ventaja sobre Solidigm (2872 MB/s).
En profundidades de cola de rango medio, el Kingston DC3000ME alcanzó 3647 MB/s en QD4 y 4410 MB/s en QD8. Si bien esto mostró una escala decente, se mantuvo detrás de la unidad Micron (5539 MB/s y 6478 MB/s) y la unidad SanDisk (5177 MB/s y 5575 MB/s) en ambos puntos de prueba. En el QD16, Kingston entregó 4.865 MB/s, una ganancia modesta sobre el QD8, pero aún por detrás de la unidad SanDisk (6.011 MB/s) y la unidad Micron (7.474 MB/s). En QD32, el DC3000ME alcanzó su punto máximo con 5307 MB/s, manteniéndose muy por delante de Solidigm (3894 MB/s) pero significativamente por detrás de Micron (7941 MB/s) y SanDisk (7212 MB/s). Si bien no es un líder en rendimiento, la unidad Kingston mantuvo una escalabilidad y eficiencia consistentes.
Punto de referencia de control DLIO
Para evaluar el rendimiento de SSD en el mundo real en entornos de entrenamiento de IA, utilizamos la herramienta de referencia de entrada/salida de datos y aprendizaje (DLIO). DLIO, desarrollado por el Laboratorio Nacional Argonne, está diseñado específicamente para probar patrones de E/S en cargas de trabajo de aprendizaje profundo, proporcionando información sobre cómo los sistemas de almacenamiento manejan desafíos como puntos de control, ingesta de datos y entrenamiento de modelos. El siguiente cuadro ilustra cómo ambas unidades manejan el proceso en 36 puntos de control. Al entrenar modelos de aprendizaje automático, los puntos de control son fundamentales para guardar el estado del modelo periódicamente, evitando la pérdida de progreso durante interrupciones o cortes de energía. Esta demanda de almacenamiento requiere un rendimiento sólido, especialmente bajo cargas de trabajo sostenidas o intensivas. Usamos la versión comparativa 2.0 de DLIO de la versión del 13 de agosto de 2024.
Para garantizar que nuestra evaluación comparativa refleje escenarios del mundo real, basamos nuestras pruebas en la arquitectura del modelo LLAMA 3.1 405B. Implementamos puntos de control usando torch.save() para capturar parámetros del modelo, estados del optimizador y estados de las capas. Nuestra configuración simuló un sistema de ocho GPU, utilizando una estrategia de paralelismo híbrido con paralelismo tensorial de 4 vías y procesamiento paralelo de canalización de 2 vías distribuido en las ocho GPU. Esta configuración dio como resultado puntos de control con tamaños de 1636 GB, lo que representa los requisitos de capacitación de modelos de lenguaje grandes modernos.
En los resultados promedio de aprobación de DLIO, el Kingston DC3000ME 7.68TB quedó ligeramente por detrás de los principales contendientes, quedando en el medio del grupo de cinco unidades. Los tiempos de control promediaron 465,04 segundos en la primera pasada, 584,38 segundos en la segunda pasada y 590,30 segundos en la tercera pasada. Si bien fue consistentemente más rápido que el Pascari X200P 7.68TB (que registró los tiempos más altos en los tres pases, alcanzando 674.48 segundos en el pase 3), el Kingston DC3000ME quedó atrás del Micron 9550 7.68TB y Solidigm PS1010 7.68TB, los cuales se mantuvieron por debajo de 565 segundos en el pase final.

Como se muestra en el cuadro a continuación, el Kingston DC3000ME tuvo un buen comienzo, con tiempos de control iniciales muy similares a los de los competidores de primer nivel. En el punto de control 1, registró 469,27 segundos, justo detrás del Micron 9550 con 464,01 segundos y por delante del Pascari X200P con 472,65 segundos. Desde el punto de control 2 al 4, mantuvo un rango constante de 461,92 a 465,44 segundos, manteniéndose nuevamente cerca del Micron 9550 y Solidigm PS1010, los cuales oscilaron en el rango de 453 a 465 segundos.
A la mitad de la prueba (puntos de control 5 a 8), el Kingston DC3000ME experimentó un salto en los tiempos de los puntos de control, alcanzando un máximo de 613,01 segundos durante el punto de control 7. Esto fue más alto que el Micron 9550 (570,42 s) y el SanDisk SN861 7,68 TB (559,56 s), aunque aún significativamente mejor que el Pascari X200P (que alcanzó tan alto como 694,38 segundos durante el mismo intervalo). Hacia el final de la prueba, el Kingston DC3000ME se estabilizó ligeramente y terminó en 571,36 segundos para el punto de control 12, aproximadamente 28 segundos más lento que el Micron 9550, pero aún superó al Pascari X200P (que cerró en 689,68 segundos). En general, el Kingston DC3000ME 7.68TB demostró un rendimiento consistente y se mantuvo dentro de un rango competitivo durante toda la carga de trabajo de puntos de control, colocándolo en el medio del grupo.
Punto de referencia de rendimiento de la FIO
Para medir el rendimiento del almacenamiento de cada SSD a través de métricas comunes de la industria, utilizamos FIO. Cada unidad se sometió al mismo proceso de prueba, incluido un paso de preacondicionamiento de dos llenados completos de la unidad con una carga de trabajo de escritura secuencial, seguido de una medición del rendimiento en estado estable. A medida que cambiaba cada tipo de carga de trabajo, ejecutamos otro preacondicionamiento de ese nuevo tamaño de transferencia.
En esta sección, nos centramos en los siguientes puntos de referencia de la FIO:
-128K secuencial
-64K Aleatorio
-16K Aleatorio
-4K aleatorio
Con SSD QLC de alta capacidad diseñados para transferencias de gran tamaño, nuestras pruebas de velocidad de escritura están limitadas a 16K aleatorios. Para 4K, utilizamos el estado precargado de la carga de trabajo de 16K para medir solo el rendimiento de lectura aleatoria de 4K.
Condición previa secuencial de 128 K (IODepth 256 / NumJobs 1)
En esta prueba de preacondicionamiento de profundidad de cola pesada, el Kingston DC3000ME mantuvo un ancho de banda de escritura constante de 8944,9 MB/s durante la ejecución de 1000 segundos (finalizando justo después de la marca de 800 segundos). Si bien no es el más rápido (ligeramente detrás del Micron 9550, que alcanzó un máximo de 10,3 GB/s), el Kingston DC3000ME demostró un rendimiento constante con una variación mínima.
Latencia de condición previa secuencial de 128 K (IODepth 256 / NumJobs 1)
En la prueba de latencia de condición previa de escritura secuencial de 128K, el Kingston DC3000ME mostró una latencia promedio de 3,577 ms (permaneciendo estable en el tiempo con una fluctuación mínima), ubicándolo en segundo lugar detrás de la unidad Micron.
Escritura secuencial de 128 K (IODepth 16 / NumJobs 1)
En la prueba de escritura secuencial de 128K, el Kingston DC3000ME logró 8.477,4 MB/s, colocándolo justo detrás del Micron 9550 (que lideró el grupo con 10.354,6 MB/s). El Kingston DC3000ME superó al Pascari X200P y mantuvo una sólida ventaja sobre el Solidigm PS1010 y el SanDisk SN861 (cada uno rondando los 7100 MB/s). El desempeño de Kingston refleja un fuerte equilibrio entre velocidad y consistencia.
Latencia de escritura secuencial de 128 K (IODepth 16/NumJobs 1)
En la prueba de latencia de escritura secuencial de 128K, el Kingston DC3000ME arrojó un resultado sólido con una latencia promedio de 235,6 µs. Esto lo coloca por delante tanto del SanDisk SN861 (280,7 µs) como del Solidigm PS1010 (280,3 µs), mientras que supera ligeramente al Pascari X200P (238,6 µs). Aunque no es tan rápido como el Micron 9550 (que lideraba a 192,9 µs), el Kingston DC3000ME siguió siendo competitivo.
Lectura secuencial de 128K (IODepth 64 / NumJobs 1)
En la prueba de lectura secuencial de 128K con una profundidad de cola de 64 con un trabajo, el Kingston DC3000ME logró 13.513,8 MB/s. Aunque ocupó el cuarto lugar entre las unidades probadas, aún así ofreció un rendimiento sólido (con diferencias mínimas en el mundo real). Quedó por detrás del Pascari X200P (14.242,1 MB/s) en ~5,1%, el Solidigm PS1010 (14.163,3 MB/s) en un 4,6% y el Micron 9550 (14.050,1 MB/s) en ~3,8%, pero superó cómodamente al SanDisk SN861 (12.631,2 MB/s). En general, los resultados del Kingston DC3000ME fueron sólidos, con una caída mínima en comparación con las unidades más probadas.
Latencia de lectura secuencial de 128 K (IODepth 64/NumJobs 1)
En cuanto a latencia, el Kingston DC3000ME registró un promedio de 591,6 µs, lo que lo sitúa en el medio del grupo. Este resultado fue un 5,4 % superior al del Micron 9550 (569,0 µs) y un 5,4 % inferior al del Solidigm PS1010 (564,5 µs). El Pascari X200P lideró marginalmente con 561,4 µs, mientras que el SanDisk SN861 mostró la respuesta más lenta con 633,0 µs. En última instancia, el Kingston DC3000ME mantuvo una latencia relativamente baja en condiciones de lectura de alta profundidad de cola.
Escritura aleatoria de 64K
En la prueba de escritura aleatoria de 64K, el Kingston DC3000ME entregó consistentemente un alto rendimiento en varias profundidades de cola y combinaciones de subprocesos, alcanzando un máximo de 6649 MB/s en la configuración 32 (profundidad de E/S)/8 (numjobs), una de las más altas en todas las cargas de trabajo y puntos de prueba.
A lo largo del gráfico, el Kingston DC3000ME mantuvo una tendencia de ancho de banda estable de 4000 a 5000 MB/s, con resultados particularmente fuertes en configuraciones de concurrencia media a alta (por ejemplo, 32/4 a 5380 MB/s y 16/8 a 5017 MB/s). Incluso en condiciones más ligeras (1/4 y 2/4), se mantuvo por encima de los 4200 MB/s. En comparación con otras unidades, la Kingston DC3000ME generalmente lideró o se mantuvo cerca de la cima en la mayoría de los puntos de prueba, ofreciendo un alto rendimiento máximo y un rendimiento constante.
Latencia de escritura aleatoria de 64K
En la prueba de latencia de escritura aleatoria de 64K, el Kingston DC3000ME entregó consistentemente tiempos de respuesta bajos en la mayoría de las profundidades de cola y combinaciones de trabajos, demostrando una sólida eficiencia de escritura incluso bajo carga pesada.
Por ejemplo:
- En 4/1, mostró 49 µs
- En 8/1, la latencia se mantuvo baja en 102 µs
- A 16/4, midió 1.486 µs
- Y con la carga más alta probada, 32/8, alcanzó los 2.402 µs.
Estos resultados indican que el Kingston DC3000ME escaló de manera predecible, evitando los picos de latencia severos observados en otras unidades, especialmente los modelos Pascari y Solidigm, que exhibieron saltos erráticos por encima de 3000 a 6000 µs (más notablemente en 16/8).
Lectura aleatoria de 64K
En la prueba de lectura aleatoria de 64K, el Kingston DC3000ME entregó un rendimiento sólido y consistente en toda la matriz IO Depth/NumJobs, terminando en cuarto lugar al final de la prueba (por un pequeño margen). El ancho de banda máximo alcanzó los 13 515 MB/s en 32/4, con un rendimiento igualmente alto en 16/4 (13 482 MB/s) y 32/8 (13 512 MB/s), lo que demuestra una excelente escalabilidad bajo pesadas cargas de trabajo de lectura paralela. Con cargas más bajas (1/4 y 2/2), el Kingston DC3000ME midió 2298 MB/s y 2234 MB/s, respectivamente.
Latencia de lectura aleatoria de 64K
La latencia de 64K del Kingston DC3000ME se mantuvo relativamente baja en todos los puntos de prueba. Todas las unidades funcionaron de manera similar, aunque el SanDisk SN861 alcanzó un pico notablemente más alto que otros al final de la prueba. A partir de 1/2, el Kingston DC3000ME midió 106 µs, seguido de 108 µs en 1/4, 131 µs en 8/1, 133 µs en 4/4 y 177 µs en 8/4. Con una mayor concurrencia, aumentó a 305 µs en 16/4, 174 µs en 32/1, 301 µs en 32/2 y alcanzó un máximo de 1184 µs en 32/8, alineándose con el resto del grupo. En general, el perfil de latencia del Kingston DC3000ME estuvo muy cerca de los de mejor rendimiento, con una fluctuación mínima o picos atípicos (comunes a todas las unidades probadas).
Escritura aleatoria de 16K
En la prueba de escritura aleatoria de 16K, el Kingston DC3000ME entregó un gran ancho de banda en toda la gama de profundidades de cola y recuentos de subprocesos, quedando en segundo lugar entre las unidades de la competencia. Alcanzó un máximo de 427.592 IOPS en la configuración 32/16. Otros puntos de alto rendimiento incluyeron 338 521 IOPS en 32/8, 251 428 IOPS en 16/4 y 226 606 IOPS en 1/8, todos mostrando una excelente eficiencia del controlador bajo diferentes cargas paralelas. Incluso en configuraciones de carga moderada (2/16 y 1/4), la unidad alcanzó 218.300 IOPS y 204.867 IOPS, respectivamente. En general, Kingston DC3000ME logró consistentemente IOPS por encima de 160 000 en toda la matriz de prueba (excepto en algunas áreas), lo que la convierte en una de las unidades más equilibradas en esta carga de trabajo.
Latencia de escritura aleatoria de 16K
El rendimiento de latencia de escritura de 16K del Kingston DC3000ME fue excelente, terminando en la cima de la clasificación (con la unidad Pascari ligeramente por detrás). Los aspectos más destacados incluyeron 14 µs a 1/1, 18 µs a 2/1, 19 µs a 1/4 y 29 µs a 1/2. A medida que aumentaba la carga, Kingston mantuvo un fuerte perfil de latencia: 126 µs en 8/4, 146 µs en 2/16, 254 µs en 16/4 y 575 µs en 16/8. Incluso en la configuración más pesada (32/16), la latencia se mantuvo controlada en 1197 µs.
Lectura aleatoria de 16K
En condiciones de lectura aleatoria de 16K, el Kingston DC3000ME demostró un rendimiento consistentemente sólido hasta alcanzar 8/8, momento en el que comenzó a quedarse atrás ligeramente. El pico de IOPS llegó a poco menos de 800.000 (648.686) en QD32 con cuatro trabajos, seguido de 641.000 IOPS en QD4 con 16 trabajos y 623.000 en QD16 con cuatro trabajos. Desafortunadamente, el Kingston DC3000ME terminó cerca del final de la clasificación junto con la unidad SanDisk.
Latencia de lectura aleatoria de 16K
En el rendimiento máximo (QD8/8), la latencia del Kingston DC3000ME midió solo 99 µs, manteniéndose dentro de una banda estrecha y de baja latencia en la mayoría de las configuraciones hasta alrededor del 16/8, cuando comenzó a fallar. La mejor latencia se observó en QD1/4 (74 µs), con varios otros resultados inferiores a 80 µs en profundidades de cola bajas a moderadas. Con cargas más pesadas (por ejemplo, QD32/16), la Kingston DC3000ME registró 826 µs, significativamente más alta que otras unidades probadas (excepto SanDisk).
Lectura aleatoria 4K
En la prueba de lectura aleatoria de 4K, el Kingston DC3000ME mostró un escalado excelente en todo el rango de prueba, alcanzando un máximo de 1.957,92 K IOPS en la configuración 16/16. Mantuvo un alto rendimiento con 1923,42 K IOPS en 32/8, 1361,32 K IOPS en 8/16 y 1326,03 K IOPS en 16/8, ubicándose constantemente en la cima de la clasificación junto con Solidigm y Micron.
Latencia de lectura aleatoria 4K
El Kingston DC3000ME mantuvo una latencia baja durante toda la prueba de lectura aleatoria de 4K, comenzando en 60 µs en la configuración 1/1. En 1/4, mejoró ligeramente a 61 µs, y en 1/8, se mantuvo estable en 63 µs. A medida que aumentó la concurrencia, la latencia aumentó de manera predecible: 66 µs en 2/4, 67 µs en 2/16, 71 µs en 4/4 y 80 µs en 8/4. Las configuraciones más pesadas experimentaron aumentos modestos: 94 µs en 16/4, 99 µs en 16/8, 135 µs en 32/8 y un pico de 266 µs en 32/16.
Escritura aleatoria 4K
En escritura aleatoria 4K, el Kingston DC3000ME tuvo un desempeño sólido con un máximo de 979,636 IOPS en 32/16 y 979,173 IOPS en 32/8, colocándolo muy detrás del de mejor desempeño (Pascari X200P, que superó los 1,6 millones de IOPS en su pico). Dicho esto, el Kingston DC3000ME registró números decentes en cargas de rango medio: 879K IOPS en 8/16, 944K IOPS en 16/16 y 745K IOPS en 16/4.
Latencia de escritura aleatoria 4K
En latencia de escritura aleatoria, el Kingston DC3000ME comenzó a 11 µs por debajo de 1/1, permaneció entre 20 y 50 µs hasta alcanzar la profundidad de 8/8 y escaló a 261 µs a 32/8 y 522 µs a 32/16. Si bien no tiene la latencia más baja, el Kingston DC3000ME mantuvo un escalado moderado y predecible, sin los picos observados en unidades como Solidigm y Pascari, que mostraron una mayor volatilidad más allá de los 16 subprocesos.
Almacenamiento directo de GPU
Una de las pruebas que realizamos en este banco de pruebas fue la prueba Magnum IO GPU Direct Storage (GDS). GDS es una función desarrollada por NVIDIA que permite a las GPU omitir la CPU al acceder a datos almacenados en unidades NVMe u otros dispositivos de almacenamiento de alta velocidad. En lugar de enrutar datos a través de la CPU y la memoria del sistema, GDS permite la comunicación directa entre la GPU y el dispositivo de almacenamiento, lo que reduce significativamente la latencia y mejora el rendimiento de los datos.
Cómo funciona el almacenamiento directo de GPU
Tradicionalmente, cuando una GPU procesa datos almacenados en una unidad NVMe, los datos primero deben viajar a través de la CPU y la memoria del sistema antes de llegar a la GPU. Este proceso introduce cuellos de botella, ya que la CPU actúa como intermediario, lo que agrega latencia y consume valiosos recursos del sistema. GPU Direct Storage elimina esta ineficiencia al permitir que la GPU acceda a los datos directamente desde el dispositivo de almacenamiento a través del bus PCIe. Esta ruta directa reduce la sobrecarga del movimiento de datos, lo que permite transferencias más rápidas y eficientes.
Las cargas de trabajo de IA, especialmente el aprendizaje profundo, requieren un gran uso de datos. Entrenar grandes redes neuronales requiere procesar terabytes de datos, y cualquier retraso en la transferencia de datos puede provocar GPU infrautilizadas y tiempos de entrenamiento más prolongados. GPU Direct Storage aborda este desafío garantizando que los datos se entreguen a la GPU lo más rápido posible, minimizando el tiempo de inactividad y maximizando la eficiencia computacional.
Además, GDS es particularmente beneficioso para cargas de trabajo que implican la transmisión de grandes conjuntos de datos (por ejemplo, procesamiento de vídeo, procesamiento de lenguaje natural o inferencia en tiempo real). Al reducir la dependencia de la CPU, GDS acelera el movimiento de datos y libera recursos de la CPU para otras tareas, mejorando aún más el rendimiento general del sistema.
Rendimiento de lectura
En nuestras pruebas de lectura secuencial GDSIO, el Kingston DC3000ME demostró un escalamiento de rendimiento consistente y eficiente en tamaños de bloques de 16K, 128K y 1MB, aunque las tendencias de rendimiento variaron ligeramente según el tamaño de transferencia. Con bloques de 16K, el rendimiento aumentó de manera constante a medida que aumentaba el número de subprocesos, alcanzando un máximo de 3,70 GiB/s en 32 subprocesos antes de disminuir gradualmente a 3,41 GiB/s en 128 subprocesos. Para transferencias de 128K, la unidad logró su mejor resultado de 5,88GiB/s en 16 subprocesos, manteniendo ese nivel a través de 32 subprocesos antes de caer a ~5,35GiB/s en 128 subprocesos. Con 1 MB, el rendimiento se estabilizó antes: alcanzó 6,54 GiB/s en 16 subprocesos y disminuyó modestamente a 5,91 GiB/s en 128 subprocesos.
Leer latencia
En términos de latencia, el DC3000ME mostró un escalado predecible (consistente con todas las unidades probadas): un menor número de subprocesos produjo tiempos de respuesta más bajos en todos los tamaños de bloque, y la latencia aumentó a medida que los subprocesos aumentaron. A 16K, la latencia comenzó en 504 µs y aumentó gradualmente hasta 582 µs en 128 subprocesos. Para 128K, la latencia comenzó en 260 µs y aumentó a 3228 µs en el número de subprocesos más alto. Con bloques de 1 MB, la latencia mostró un salto mayor debido a la carga útil más pesada: comenzando en 2609 µs con un subproceso y aumentando a 2703 µs con 128 subprocesos.