Inicio Casos

Puntos de control de IA de escala: el impacto de los SSD de alta capacidad en la capacitación de modelos

Todos los productos

Servidor del almacenamiento de estante
(179)

Servidor de la fusión de Huawei
(31)

Dell Poweredge Server
(59)

Servidor de H3C
(31)

Interruptores del Datacom
(96)

Dispositivo de la red inalámbrica (WLAN)
(21)

Router inalámbrico elegante
(17)

Disco duro HDD
(78)

SSD interno del disco duro
(16)

Tarjeta gráfica de Geforce
(27)

Procesador de la CPU de INTEL
(20)

Memoria RAM del servidor
(6)

Servidor restaurado del almacenamiento
(6)

Módulo del transmisor-receptor de SFP
(4)

Interruptor de canal de la fibra
(125)

Certificación

China Beijing Qianxing Jietong Technology Co., Ltd. certificaciones

Comentarios de cliente

El personal de ventas de la tecnología Co., Ltd de Pekín Qianxing Jietong es muy profesional y paciente. Pueden proporcionar citas rápidamente. La calidad y el empaquetado de los productos son también muy buenos. Nuestra cooperación es muy lisa.

—— LLC del》 de Festfing DV del 《

Cuando buscaba la CPU de Intel y el SSD de Toshiba urgente, Sandy de la tecnología Co., Ltd de Pekín Qianxing Jietong me dio mucha ayuda y me consiguió los productos que necesité rápidamente. La aprecio realmente.

—— Kitty Yen

Sandy de la tecnología Co., Ltd de Pekín Qianxing Jietong es un vendedor muy cuidadoso, que puede recordarme errores de la configuración a tiempo cuando compro un servidor. Los ingenieros son también muy profesionales y pueden terminar rápidamente el proceso de prueba.

—— Strelkin Mikhail Vladimirovich

Estamos muy contentos con nuestra experiencia trabajando con Beijing Qianxing Jietong. La calidad del producto es excelente y la entrega siempre es puntual. Su equipo de ventas es profesional, paciente y muy útil con todas nuestras preguntas. Realmente apreciamos su apoyo y esperamos una asociación a largo plazo. ¡Muy recomendado!

—— Ahmad Navid

Calidad: Gran experiencia con mi proveedor. El MikroTik RB3011 ya estaba usado, pero estaba en muy buen estado y todo funcionaba perfectamente.y todas mis preocupaciones fueron abordadas rápidamenteUn proveedor muy confiable, muy recomendable.

—— Geran Colesio

Estoy en línea para chatear ahora

Puntos de control de IA de escala: el impacto de los SSD de alta capacidad en la capacitación de modelos

March 13, 2026

La creación de puntos de control es esencial para el entrenamiento de modelos de IA, ya que garantiza la resiliencia, la eficiencia operativa y la capacidad de reanudar o ajustar el entrenamiento desde estados guardados. Sin embargo, las demandas de las cargas de trabajo de IA modernas, caracterizadas por modelos cada vez más complejos y conjuntos de datos de entrenamiento expansivos, están llevando los sistemas de almacenamiento a sus límites absolutos.

El papel de los puntos de control en los flujos de trabajo de IA

La creación de puntos de control en el entrenamiento de IA es un proceso vital que implica guardar periódicamente el estado completo de un modelo durante su ciclo de entrenamiento. Este estado abarca los pesos y parámetros del modelo, los estados del optimizador, los cronogramas de la tasa de aprendizaje y los metadatos de entrenamiento. Al crear una instantánea completa del proceso de entrenamiento en intervalos específicos, la creación de puntos de control garantiza la continuidad del entrenamiento y permite la recuperación en caso de interrupciones.

Los puntos de control se capturan típicamente en intervalos basados en iteraciones (por ejemplo, cada mil pasos de entrenamiento). El entrenamiento de modelos de lenguaje grandes (LLM) modernos, que puede abarcar semanas o incluso meses y consumir enormes recursos computacionales, depende en gran medida de estos puntos de control como una red de seguridad contra posibles fallos. Por ejemplo, el entrenamiento de un modelo de clase GPT-4 puede generar puntos de control que van desde varios cientos de gigabytes hasta varios terabytes, dependiendo del tamaño del modelo y la configuración de entrenamiento.

Proceso de entrenamiento generado por DALL-E

El propósito principal de la creación de puntos de control va más allá de la simple funcionalidad de copia de seguridad. Sirve como un mecanismo crítico para la resiliencia del entrenamiento, permitiendo que el entrenamiento se reanude desde el último estado guardado en lugar de reiniciarse desde cero en casos de fallos del sistema, cortes de energía o problemas de hardware. Además, los puntos de control son invaluables para el análisis del modelo: permiten a los investigadores examinar la evolución del modelo en diferentes etapas de entrenamiento y potencialmente retroceder a estados anteriores si se detecta una degradación del rendimiento.

Desde la perspectiva del almacenamiento, los patrones de escritura durante la creación de puntos de control son particularmente notables. Cuando se activa un punto de control, el sistema debe escribir enormes volúmenes de datos en un patrón de ráfaga. Esto crea un perfil de E/S distinto: períodos de actividad de almacenamiento relativamente baja durante los cálculos de entrenamiento, seguidos de operaciones de escritura intensas y de alto ancho de banda durante la creación de puntos de control. Estas operaciones de escritura son típicamente secuenciales y pueden beneficiarse significativamente de los sistemas de almacenamiento optimizados para escrituras secuenciales de alto ancho de banda.

Las diferentes estrategias de paralelismo en el entrenamiento distribuido pueden tener un impacto sustancial en el comportamiento de la creación de puntos de control. Estas estrategias influyen en cuándo ocurre la creación de puntos de control durante el entrenamiento y qué porción del modelo se guarda. En las configuraciones de entrenamiento distribuido modernas, varias GPU pueden escribir simultáneamente diferentes partes de la misma capa, creando patrones de E/S complejos. Esta capacidad de escritura paralela es clave para la eficiencia, pero requiere una coordinación cuidadosa y sistemas de almacenamiento robustos que puedan manejar operaciones de escritura concurrentes manteniendo la coherencia de los datos. Cualquier cuello de botella en este proceso puede provocar retrasos generalizados en el entrenamiento.

La creación lenta de puntos de control puede crear cuellos de botella significativos en el entrenamiento, ya que todo el proceso de entrenamiento debe pausarse mientras el punto de control se escribe en el almacenamiento. Por ejemplo, en una configuración de entrenamiento a gran escala, si la creación de puntos de control tarda 30 minutos cada pocas horas, esto podría resultar en varias horas de tiempo de inactividad acumulado durante todo el período de entrenamiento. Esto impacta directamente la eficiencia del entrenamiento y aumenta los costos operativos, especialmente en entornos en la nube donde los recursos informáticos se facturan por hora.

Una creación de puntos de control más rápida también permite a los equipos crear puntos de control con mayor frecuencia, reduciendo la pérdida máxima potencial de datos en caso de fallos. Esto permite enfoques de entrenamiento más agresivos y ciclos de iteración experimental mejorados. Además, los tiempos de carga rápidos de los puntos de control facilitan la experimentación más rápida con diferentes configuraciones de entrenamiento y arquitecturas de modelos, ya que los investigadores pueden restaurar más fácilmente desde estados anteriores para probar enfoques alternativos.

La capacidad del sistema de almacenamiento para manejar eficientemente estas operaciones de punto de control se convierte en un factor fundamental en la infraestructura general de entrenamiento. Las soluciones de almacenamiento de alto rendimiento que pueden gestionar tanto los patrones de escritura en ráfaga de la creación de puntos de control como las operaciones sostenidas de lectura/escritura del entrenamiento pueden reducir significativamente el tiempo y el costo total del entrenamiento de modelos de lenguaje grandes. Por lo tanto, las características de rendimiento del subsistema de almacenamiento, en particular su capacidad para manejar escrituras secuenciales grandes y mantener un alto ancho de banda constante, son consideraciones cruciales al diseñar la infraestructura de entrenamiento de LLM.

Para este informe, buscamos evaluar el rendimiento de los SSD para la creación de puntos de control de IA, evaluando los beneficios de los últimos SSD Gen5 cuando la velocidad de los puntos de control es crítica, en comparación con los SSD QLC más grandes del mercado, que pueden almacenar una gran cantidad de puntos de control si eso es más beneficioso para el modelo que se está entrenando.

Rendimiento de puntos de control - Benchmarking con DLIO

Para evaluar el rendimiento en el mundo real del SSD Solidigm en entornos de entrenamiento de IA, utilizamos la herramienta de benchmark Data and Learning Input/Output (DLIO). Desarrollado por el Laboratorio Nacional de Argonne, DLIO está diseñado específicamente para probar patrones de E/S en cargas de trabajo de aprendizaje profundo, proporcionando información sobre cómo los sistemas de almacenamiento manejan la creación de puntos de control, la ingesta de datos y los desafíos del entrenamiento de modelos.

Usando DLIO, nuestro objetivo fue medir el rendimiento, la latencia y la fiabilidad de la unidad bajo escenarios intensivos de creación de puntos de control. Si bien estas pruebas se realizaron en el D5-P5336 de 61,44 TB, los datos de rendimiento iniciales indican que la versión de 122 TB del Solidigm D5-P5336 ofrece un perfil de rendimiento similar. También incluimos resultados de un D7-PS1010 basado en TLC para demostrar las ventajas de PCIe Gen5 en esta prueba. Seleccionamos estas dos unidades para mostrar ambas perspectivas sobre los puntos de control: una centrada en el tiempo de punto de control más rápido posible y la otra en el almacenamiento del número máximo de puntos de control en un solo SSD.

La plataforma elegida para este trabajo fue nuestro Dell PowerEdge R760 con Ubuntu 22.04.02 LTS. Utilizamos la versión 2.0 del benchmark DLIO de la versión del 13 de agosto de 2024. Nuestra configuración del sistema se describe a continuación:

2 x Intel Xeon Gold 6430 (32 núcleos, 2,1 GHz)
16 x 64 GB DDR5-4400
SSD Dell BOSS de 480 GB
Cables serie Gen5 JBOF
- Solidigm D7-PS1010 de 7,68 TB
- Solidigm D5-P5336 de 61,44 TB

Para garantizar que nuestras pruebas de referencia reflejaran escenarios del mundo real, basamos nuestras pruebas en la arquitectura del modelo LLAMA 3.1 405B, implementando la creación de puntos de control a través de torch.save() para capturar los parámetros del modelo, los estados del optimizador y los estados de la capa. Nuestra configuración simuló un sistema de 8 GPU, implementando una estrategia de paralelismo híbrido con procesamiento paralelo de tensor de 4 vías y paralelo de pipeline de 2 vías distribuido en las ocho GPU. Esta configuración resultó en tamaños de punto de control de 1.636 GB, representativos de los requisitos modernos de entrenamiento de modelos de lenguaje grandes.

Nuestro proceso de prueba para la carga de trabajo de punto de control DLIO consistió en llenar cada unidad hasta un nivel de utilización similar. Para el Solidigm D5-P5336 de 61,44 TB, cada pasada incluyó 33 intervalos de punto de control, totalizando 54 TB. El D7-PS1010 más pequeño de 7,68 TB acomodó cómodamente tres intervalos de punto de control, con una huella total de 4,9 TB. Un punto de control adicional podría caber en el D7-PS1010, aunque elevó su utilización un poco más de lo deseado.

La carga de trabajo de punto de control DLIO arrojó resultados interesantes cuando comparamos el D5-P5536 de 61,44 TB basado en QLC Gen4 con el D7-PS1010 basado en TLC Gen5 de 7,68 TB. Durante la primera pasada, a medida que las unidades se llenaban, presenciamos una mayor brecha en el rendimiento entre los dos modelos de SSD. El PS1010 Gen5 más rápido completó cada punto de control en promedio en 464 segundos, en comparación con los 623 segundos del P5336 Gen4. En las pasadas dos y tres, la brecha se redujo a 579 y 587 segundos para el PS1010 y 676 y 680 segundos para el P5336.

Para las empresas que buscan tener la menor brecha posible en los intervalos de puntos de control, el PS1010 Gen5 basado en TLC ofrece una ventaja en el tiempo de finalización más rápido. Si el objetivo es retener muchos puntos de control de manera rentable, el P5336 Gen4 basado en QLC puede hacer precisamente eso. Medimos una diferencia en los tiempos promedio de punto de control de menos del 17% entre ambas unidades durante las pasadas dos y tres.

Ancho de banda de GPU Direct Storage

Si bien DLIO muestra el rendimiento flash en un flujo de trabajo de IA, la carga de trabajo se basa completamente en la escritura hasta que se restaura un punto de control. Para ofrecer una imagen más completa del Solidigm D7-PS1010 y D5-P5336 en cargas de trabajo de IA, incluimos mediciones de ancho de banda de lectura utilizando GDSIO.

Cómo funciona GPU Direct Storage

Tradicionalmente, cuando una GPU procesa datos almacenados en una unidad NVMe, los datos deben viajar primero a través de la CPU y la memoria del sistema antes de llegar a la GPU. Este proceso introduce cuellos de botella, ya que la CPU se convierte en un intermediario, agregando latencia y consumiendo valiosos recursos del sistema. GPU Direct Storage elimina esta ineficiencia al permitir que la GPU acceda directamente a los datos del dispositivo de almacenamiento a través del bus PCIe. Esta ruta directa reduce la sobrecarga asociada con el movimiento de datos, permitiendo transferencias de datos más rápidas y eficientes.

Las cargas de trabajo de IA, especialmente aquellas que involucran aprendizaje profundo, son altamente intensivas en datos. El entrenamiento de redes neuronales grandes requiere el procesamiento de terabytes de datos, y cualquier retraso en la transferencia de datos puede llevar a GPU infrautilizadas y tiempos de entrenamiento más largos. GPU Direct Storage aborda este desafío asegurando que los datos se entreguen a la GPU lo más rápido posible, minimizando el tiempo de inactividad y maximizando la eficiencia computacional.

Al igual que la prueba DLIO, el objetivo es comprender y caracterizar mejor las diferencias entre los SSD Gen5 de alta velocidad y las unidades QLC de alta capacidad. No todas las cargas de trabajo de IA son iguales, y cada unidad ofrece ventajas distintas, dependiendo de la necesidad.

Matriz de configuración de pruebas

Probamos sistemáticamente todas las combinaciones de los siguientes parámetros con una NVIDIA L4 en nuestra plataforma de pruebas:

Tamaños de bloque: 1M, 128K, 64K, 16K, 8K
Número de hilos: 128, 64, 32, 16, 8, 4, 1
Número de trabajos: 16
Tamaños de lote: 16

Nuestro primer vistazo fue al D5-P5336 basado en QLC, que alcanzó un máximo de 4,2 GiB/s utilizando un tamaño de transferencia de 1M a una profundidad de E/S de 128. El efecto de los tamaños de bloque produjo un aumento sustancial en el ancho de banda, pasando de 8K a 1M. La ventaja de una mayor profundidad de E/S comenzó a disminuir en 32, donde las cargas de trabajo comenzaron a estabilizarse.

A continuación, analizamos el PS-1010 Gen5, que puede escalar hasta 6,2 GiB/s con un tamaño de bloque de 1M y una profundidad de E/S de 128. En general, superó al P5336 basado en Gen4, con cargas de trabajo particulares que demostraron un aumento sustancial. Un área notable de mejora se produjo en el tamaño de bloque de 128K, donde a una profundidad de E/S de 64 y 128, el PS1010 ofreció el doble de ancho de banda de lectura que el P5336.

Es importante tener en cuenta que ambos SSD se probaron utilizando la NVIDIA L4. Si bien el D5-P5336 Gen4 está en su punto máximo o cerca de él, las GPU NVIDIA de gama alta como la H100 demostraron un mayor rendimiento con el D7-PS1010. La velocidad de una unidad es el factor decisivo para algunos clientes, mientras que otros priorizan la densidad general.Solidigmproporciona soluciones paraambos, con susofertas de SSD QLC y TLC.

Conclusión

A medida que la escala y la complejidad del entrenamiento de IA continúan aumentando, la infraestructura de almacenamiento subyacente no solo debe seguir el ritmo, sino también marcar el compás. Nuestras pruebas con dos SSD claramente diferentes resaltan la importancia de alinear las soluciones de almacenamiento con las prioridades de entrenamiento específicas, ya sea que eso signifique minimizar la latencia de los puntos de control o maximizar la densidad de los puntos de control para una escalabilidad rentable.

En nuestra evaluación, probamos el Solidigm D5-P5336 (61,44 TB) y el D7-PS1010 (7,68 TB) en condiciones realistas de entrenamiento de IA, aprovechando el benchmark DLIO y un extenso flujo de trabajo de creación de puntos de control LLM de paralelismo híbrido. Capturamos métricas que reflejan el rendimiento de escritura de puntos de control en múltiples ejecuciones de prueba a medida que las unidades se llenaban, lo que subraya las diferencias de rendimiento en los tiempos de finalización entre el D5-P5336 basado en QLC Gen4 y el D7-PS1010 basado en TLC Gen5.

Mientras que el D7-PS1010 ofreció las escrituras de puntos de control más rápidas posibles, el D5-P5336 demostró una rentabilidad y ventajas de capacidad convincentes, con solo una modesta contrapartida en el rendimiento. Examinamos además los anchos de banda de lectura de GPU Direct Storage (GDS) utilizando GDSIO con una GPU NVIDIA L4. Nuestros hallazgos mostraron que el Solidigm D5-P5336 entregó hasta 4,2 GiB/s de ancho de banda de lectura con un tamaño de transferencia de 1M, mientras que el D7-PS1010 proporcionó un aumento sustancial a 6,2 GiB/s. El rendimiento sería aún más impresionante al aprovechar una GPU más potente, como la NVIDIA L40s o H100/H200.

Mirando hacia el futuro, la capacidad sin precedentes del SSD Solidigm D5-P5336 de 122 TB está destinada a remodelar el entrenamiento y la implementación de IA. A medida que los tamaños de los modelos y los requisitos de creación de puntos de control continúan creciendo, estas unidades de alta capacidad desbloquean nuevos niveles de eficiencia y flexibilidad, permitiendo estrategias de entrenamiento que antes eran inalcanzables. El liderazgo de Solidigm en soluciones de SSD de alta capacidad permite a las organizaciones almacenar más datos y puntos de control en menos unidades, al tiempo que ayuda a proteger sus infraestructuras para la próxima ola de complejidad de IA.

Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Director de Estrategia Global
WhatsApp / WeChat: +86 13426366826
Correo electrónico: yangyd@qianxingdata.com
Sitio web: www.qianxingdata.com/www.storagesserver.com

Enfoque empresarial:
Distribución de productos TIC/Integración de sistemas y servicios/Soluciones de infraestructura
Con más de 20 años de experiencia en distribución de TI, nos asociamos con las principales marcas mundiales para ofrecer productos fiables y servicios profesionales.
"Usando la tecnología para construir un mundo inteligente" ¡Su proveedor de servicios de productos TIC de confianza!

PREV: El SSD Micron 6550 ION: rendimiento, eficiencia energética y alta capacidad en una unidad

NEXT: El enfriamiento líquido viene a su centro de datos: Dell Tech World destaca las opciones

Contacto

Beijing Qianxing Jietong Technology Co., Ltd.

Persona de Contacto: Ms. Sandy Yang

Teléfono: 13426366826

Puntos de control de IA de escala: el impacto de los SSD de alta capacidad en la capacitación de modelos

Servidor del almacenamiento de estante

Servidor de la fusión de Huawei

Dell Poweredge Server

Servidor de H3C

Interruptores del Datacom

Dispositivo de la red inalámbrica (WLAN)

Router inalámbrico elegante

Disco duro HDD

SSD interno del disco duro

Tarjeta gráfica de Geforce

Procesador de la CPU de INTEL

Memoria RAM del servidor

Servidor restaurado del almacenamiento

Módulo del transmisor-receptor de SFP

Interruptor de canal de la fibra

Puntos de control de IA de escala: el impacto de los SSD de alta capacidad en la capacitación de modelos

Ancho de banda de GPU Direct Storage

Cómo funciona GPU Direct Storage

Matriz de configuración de pruebas

Conclusión

Servidor del almacenamiento de estante

12 servidor montado en rack del estante de Lenovo ThinkSystem SR630 del servidor de las bahías 1U

Procesador de Intel Xeon E-2378G del servidor del almacenamiento de estante de ThinkSystem SR250 V2 4SFF

Servidor del soporte de estante de Inspur NF5180M6 1U del servidor del almacenamiento de estante de Intel C621A

Servidor de la fusión de Huawei

Servidor 32 DDR4 DIMMs del estante de FusionServer 5288 V6 4U 44 discos duros de 3,5 pulgadas

Servidor ultra de alta densidad 1288H V5 del almacenamiento de la red del servidor 1U de la fusión de Huawei

Almacenamiento de destello híbrido del nuevo de Gen OceanStor 5310 Huawei servidor del estante