Especificaciones completas:
| Especificación | Detalles |
|---|---|
| Procesador | Hasta dos procesadores Intel® Xeon® Scalable de 5ª Generación (64 núcleos por CPU) Hasta dos procesadores Intel® Xeon® Scalable de 4ª Generación (56 núcleos por CPU) |
| Opciones de GPU | XE9680: – NVIDIA HGX H200 (141 GB) SXM5 700W – NVIDIA HGX H100 (80 GB) SXM5 700W – AMD Instinct MI300X (192 GB) OAM 750W – Intel Gaudi3 (128 GB) OAM 900W |
| Memoria | 32 ranuras DIMM 5600 MT/s (5ª Gen) 4800 MT/s (4ª Gen) |
| Almacenamiento | Bahías de unidad frontales: 8x NVMe/SAS/SATA de 2.5" (122.88 TB máx.) 16x NVMe E3.S (122.88 TB máx.) |
| Controladores de almacenamiento | Controladores internos: PERC H965i (No compatible con Intel Gaudi3) Arranque interno: Subsistema de almacenamiento optimizado para arranque (NVMe BOSS-N1): HWRAID 1, 2 x SSD M.2 |
| Ranuras PCIE | Ranuras PCIe Hasta 10 ranuras PCIe Gen5 x16 (8 ranuras con Intel Gaudi3) |
| Red | 1x OCP 3.0 (opcional) 2x LOM de 1 GbE |
| Fuentes de alimentación | Titanium de 3200W (277 VCA) Titanium de 2800W (200-240 VCA) |
| Dimensiones | Altura: 10.36" (263.20 mm) Ancho: 18.97" (482.00 mm) Profundidad: 39.71" (1008.77 mm) con bisel |
| Peso | Hasta 251.44 lbs (114.05 kg) |
| Factor de forma | Servidor de rack 6U |
| Gestión | Embebido / En el servidor: iDRAC9 iDRAC Direct iDRAC RESTful API con Redfish iDRAC Service Module Consolas: Plugin CloudIQ para PowerEdge OpenManage Enterprise Plugin OpenManage Power Manager Plugin OpenManage Service Plugin OpenManage Update Manager Herramientas: Dell System Update Dell Repository Manager Catálogos empresariales iDRAC RESTful API con Redfish IPMI RACADM CLI OpenManage Integraciones: BMC Truesight OpenManage Integration con ServiceNow |
| Seguridad | Firmware firmado criptográficamente Cifrado de datos en reposo (SED con gestión de claves local o externa) Arranque seguro Verificación segura de componentes (comprobación de integridad del hardware) Borrado seguro Raíz de confianza de silicio Bloqueo del sistema (requiere iDRAC9 Enterprise o Datacenter) |
| Refrigeración | Refrigerado por aire |
Construcción y diseño del Dell PowerEdge XE9680
El PowerEdge XE9680 es una pieza imponente de hardware, que mide 10.36 pulgadas (263.20 mm) de altura, 18.97 pulgadas (482.00 mm) de ancho y 39.71 pulgadas (1008.77 mm) de profundidad con su bisel adjunto. Cuando está completamente cargado, pesa 251.44 libras (114.05 kg). La selección de GPU tendrá la última palabra sobre el peso, con el modelo NVIDIA H100/H200 con un peso de 238 libras, mientras que la unidad AMD MI300X pesa 251 libras.
Este fue el primer servidor que requirió una cuidadosa consideración para cargarlo correctamente en nuestro entorno de prueba. Cuando se considera el peso del servidor y la cantidad de personas necesarias para instalar hardware, hay cierto margen para salirse de los límites, pero en cierto punto, una o dos personas no lo levantan solas. Dell tiene la amabilidad de proporcionarle una "mesa elevadora" para ayudarle a comprender cómo encaja esta plataforma. Para todos los que se preguntan, Kevin instaló el XE9680 en el rack él mismo.
| Peso del chasis | Descripción |
|---|---|
| 40 libras – 70 libras | Se recomiendan dos personas para levantarlo. |
| 70 libras – 120 libras | Se recomiendan tres personas para levantarlo. |
| ≥ 121 libras | Se requiere un elevador de servidores. |
A pesar de su complejidad y de la recomendación de Dell para técnicos de servicio especializados, el XE9680 presenta elementos de servicio notablemente fáciles de usar. Los paneles del servidor incluyen instrucciones de servicio detalladas y gráficos claros, lo que hace que los procedimientos de mantenimiento sean sorprendentemente accesibles para el personal de TI experimentado. Estas guías visuales resultaron invaluables durante nuestro tiempo práctico con el sistema, lo que nos permitió dar servicio a varios componentes con confianza.
Después de abrir la cubierta del PowerEdge XE9680, una vez que se pasa por los numerosos cables de alimentación de la pequeña subestación de alimentación en la parte superior, se parece mucho a un PowerEdge R760. Nuestra unidad estaba alimentada por dos procesadores Intel Xeon Platinum 8468, cada uno con 48 núcleos a 2.1 GHz. Cada procesador ofrece 80 carriles PCIe, que fluyen a través de bastantes conmutadores PCIe en esta unidad para admitir las GPU, NIC y otro hardware cargado en el XE9680.
Una de las características de ingeniería más impresionantes es el diseño de la placa de conmutación PCIe (PSB). Estas placas proporcionan conectividad para hasta 10 tarjetas PCIe adicionales de altura completa y media longitud (dos de las cuales pueden superar los 75 W de consumo de energía) y se integran directamente con la placa base de la GPU. Esta integración directa permite la tecnología GPU-direct, lo que permite que las SSD y las tarjetas de red se comuniquen directamente con las GPU, omitiendo la CPU y reduciendo la latencia para cargas de trabajo de IA intensivas en E/S.
Cada ranura de expansión admite una interfaz PCIe Gen5 x16 completa, incluidas las dos ranuras inferiores en los extremos izquierdo y derecho del diseño. Mientras que las ocho ranuras superiores están conectadas a través de su propia PSB, las dos ranuras inferiores se conectan directamente a la placa base PCIe (PBB). Estas dos ranuras también admiten tarjetas de alto consumo de energía. Además, cabe señalar que la disposición de PCIe varía ligeramente según el tipo de GPU elegido para el PowerEdge XE9680. Los modelos equipados con AMD no admiten SmartNIC/DPU, y los modelos Intel Gaudi3 tienen dos ranuras bloqueadas debido a problemas de flujo de aire.
La refrigeración es otra área donde brilla la experiencia en ingeniería de Dell. El sistema emplea hasta 16 ventiladores de alto rendimiento de grado oro: seis en la bandeja central y diez en la parte trasera. El PowerEdge XE9680 admite una amplia gama de escenarios de instalación, con temperaturas ambiente que varían de 10 a 35 °C (30 °C con las GPU Intel Gaudi3). A plena potencia, el servidor mueve unos impresionantes 1200 CFM hacia el pasillo caliente.
Esta robusta solución de refrigeración maneja incluso las cargas térmicas más exigentes, incluidas las GPU AMD MI300X, Intel Gaudi3 o NVIDIA H100, manteniendo temperaturas de funcionamiento óptimas. El PowerEdge XE9680 suena bastante bajo carga en términos de salida de ruido. Dell ofrece una hoja de especificaciones acústicas completa para el XE9680 en diferentes situaciones, pero es bastante fácil decir que será una plataforma ruidosa bajo carga.
Gestión
Las capacidades de gestión del XE9680 se basan en el iDRAC9, probado en entornos empresariales de Dell, que proporciona una gestión y monitorización completas del ciclo de vida del servidor. Esta iteración de iDRAC aporta varias funciones optimizadas para IA, que incluyen telemetría detallada de GPU, análisis de consumo de energía y monitorización térmica exhaustiva diseñada para cargas de trabajo de IA de alta densidad.
La pila de gestión de la plataforma es particularmente notable para las implementaciones de infraestructura de IA. A través de la API RESTful de iDRAC9 con soporte Redfish, las organizaciones pueden monitorizar y gestionar programáticamente la utilización de la GPU, el ancho de banda de la memoria y las condiciones térmicas, métricas críticas para mantener un rendimiento óptimo de entrenamiento e inferencia de IA. La integración del sistema con OpenManage Enterprise permite la gestión de flotas de múltiples XE9680 a través de una consola unificada, lo cual es esencial para clústeres de IA a gran escala.
La seguridad y el cumplimiento son elementos fundamentales de la arquitectura de gestión. La plataforma implementa la raíz de confianza de silicio y la verificación segura de componentes, lo que garantiza la integridad del hardware desde el arranque hasta la operación. Estas funciones son especialmente valiosas cuando se ejecutan cargas de trabajo de IA sensibles o se manejan pesos de modelos propietarios.
La capacidad de análisis predictivo de fallos, impulsada por la integración de CloudIQ, utiliza el aprendizaje automático para prever posibles problemas de hardware antes de que afecten a las cargas de trabajo. Este enfoque proactivo es especialmente crucial para trabajos de entrenamiento de IA de larga duración, donde el tiempo de inactividad inesperado puede resultar en días de cómputo perdido. Cuando se combina con el servicio ProSupport Plus de Dell, esta capacidad predictiva activa la creación automática de casos y el envío de piezas, lo que a menudo resulta en mantenimiento preventivo antes de que ocurra la degradación del sistema.
Para las organizaciones que requieren integración con herramientas de gestión existentes, el XE9680 admite varios marcos de gestión a través de integraciones de OpenManage, incluidos ServiceNow y BMC TrueSight, lo que permite una incorporación fluida en los flujos de trabajo de gestión de servicios de TI establecidos.
La interfaz iDRAC9 proporciona monitorización detallada en tiempo real de componentes críticos a través de un panel intuitivo. La monitorización de GPU muestra métricas completas, que incluyen temperatura, consumo de energía y tasas de utilización en los ocho aceleradores, esenciales para optimizar la distribución de cargas de trabajo de IA.
La interfaz de monitorización de almacenamiento ofrece visibilidad instantánea del estado de las unidades, la temperatura y las métricas de rendimiento en la matriz NVMe, lo que es particularmente valioso al gestionar cachés de inferencia de alto rendimiento y conjuntos de datos de entrenamiento.
Memoria, almacenamiento y escala
Las ocho GPU AMD MI300X dentro del Dell PowerEdge XE9680 representan un salto significativo en la capacidad de memoria de GPU, ofreciendo 192 GB de memoria HBM3 por tarjeta en comparación con los 141 GB de la NVIDIA H200. Este aumento del 36% en la capacidad de memoria no es solo un número en una hoja de especificaciones: es crítico para la implementación de modelos de lenguaje grandes.
Este enorme conjunto de memoria, junto con el ancho de banda de memoria de 5.3 TB/s de la MI300X, permite a las organizaciones ejecutar múltiples instancias de modelos más pequeños o particionar modelos más grandes entre GPU manteniendo un alto rendimiento y baja latencia.
Para ponerlo en perspectiva, el modelo Llama 3.1 405B de Meta, que requiere más de 1 TB de VRAM en BF16, puede distribuirse cómodamente en un solo XE9680 con GPU MI300X sin cuantización y con una longitud de contexto completa de 128k. Esto elimina la posible pérdida de calidad asociada con las técnicas de cuantización y permite más Tokens/Segundo en comparación con tener el modelo distribuido en dos servidores.
Para maximizar nuestra huella de almacenamiento, utilizamos las unidades Solidigm de 61.44 TB para servir como una extensión sofisticada de la memoria, cerrando la brecha entre la memoria de GPU de alta velocidad y el almacenamiento tradicional. Las SSD sobresalen en el almacenamiento de pares clave-valor durante la inferencia, extendiendo efectivamente la capacidad de memoria de la GPU para generaciones de contexto largo. Su enorme capacidad y rendimiento NVMe las hacen ideales para un acceso rápido a los pesos del modelo, lo que permite un cambio de modelo eficiente y arranques en caliente.
En aplicaciones como la implementación de Metrum AI que detallamos a continuación, las SSD cumplen una doble función como backend de almacenamiento para bases de datos vectoriales, proporcionando el rendimiento necesario para búsquedas de similitud en tiempo real y manteniendo la capacidad para un extenso almacenamiento de incrustaciones.
El valor de estas unidades de alta capacidad se extiende más allá de la inferencia a los flujos de trabajo de entrenamiento. Proporcionan almacenamiento local ideal para poner en cola lotes de entrenamiento, reduciendo la sobrecarga de red al mantener los datos más cerca de los recursos de cómputo. Durante el entrenamiento, estas unidades sobresalen en el almacenamiento local de puntos de control del modelo, lo cual es crítico para mantener el progreso del entrenamiento y permitir una recuperación rápida. Esta estrategia de almacenamiento local también ayuda a optimizar la utilización de la red al reducir el tráfico de red inmediato después de cada capa y lote procesado.
Si bien la capacidad de 61.44 TB en ocho bahías del XE9680 suena prometedora, hay mucha más capacidad en camino. Con la unidad de 122.88 TB recién anunciada por Solidigm, la densidad de almacenamiento en el XE se puede duplicar a casi un petabyte para optimizaciones de entrenamiento adicionales y cachés de inferencia de mayor duración.
Metrum AI Healthcare Assistant – Revolucionando la atención al paciente
El sector de la salud se enfrenta constantemente al desafío de gestionar la documentación de pacientes y la gestión de registros, que consumen mucho tiempo y a menudo desvían la atención directa al paciente. El Asistente de Salud de Metrum AI, implementado en servidores Dell PowerEdge XE9680 con aceleradores AMD, ejemplifica cómo la infraestructura de IA avanzada puede transformar los flujos de trabajo de atención médica, mejorando la eficiencia y los resultados de los pacientes.
El sistema utiliza Llama 3.1 70B Instruct como su modelo de lenguaje principal, reconocido por su comprensión de los contextos médicos. Esto le permite procesar datos complejos de pacientes con facilidad. Este modelo de lenguaje se combina con el modelo de incrustación gte-v1.5 y Milvus Vector DB, proporcionando una base sólida para el procesamiento del lenguaje natural y la comprensión contextual esencial para manejar datos médicos.
El Asistente de Salud de Metrum AI también incluye un enfoque multimodal que incorpora HistoGPT para el análisis de imágenes de histopatología y Whisper de OpenAI para la transcripción en tiempo real de notas médicas. Juntos, estos modelos agilizan los flujos de trabajo clínicos, permitiendo a los médicos hablar de forma natural mientras el sistema transcribe, categoriza e integra la información en los registros de los pacientes en tiempo real.
Metrum AI reconoce que, aunque los datos de pacientes individuales pueden ser relativamente pequeños, las demandas de almacenamiento combinadas de hospitales de alto tráfico pueden ascender a cientos de terabytes. El Dell PowerEdge XE9680 puede abordar esto con su almacenamiento NVMe local a bordo. Nuestra configuración ofrece ocho bahías de almacenamiento NVMe U.2 de 2.5" que operan a velocidades PCIe Gen4. Si bien probamos el XE9680 con SSD QLC Soldigim D5-P5336 de 61.44 TB, esta capacidad puede escalar aún más. Soldigim lanzó recientemente sus nuevos modelos D5-P5336 QLC de 122.88 TB, que duplican la capacidad de sus ya masivas SSD manteniendo el mismo rendimiento.
Metrum proporcionó estimaciones de cómo se traducen los datos de los pacientes a lo largo del tiempo en diferentes escenarios. Cuando se calcula la capacidad de almacenamiento total, se puede ver cuántos pacientes adicionales podría admitir una unidad utilizando las SSD de mayor capacidad. Tomando la huella de datos estimada por paciente y comparándola con la capacidad utilizable de cada SSD (57 TB para la SSD de 61 TB y 114 TB para la SSD de 122 TB), podemos ver que tener SSD densas aumenta enormemente lo que se puede almacenar en el servidor de manera significativa por año.
| Estimación anual total por paciente | Notas | Almacenamiento estimado | Pacientes por SSD de 61 TB | Pacientes por SSD de 122 TB |
|---|---|---|---|---|
| Necesidades de almacenamiento mejoradas (imágenes DICOM/variantes, aumentos, copias procesadas, transcripciones de audio, registros detallados) | Incluye múltiples copias de imágenes, transcripciones de audio y registros | ~8.4 GB | 6,786 | 13,571 |
| Escenario de alto almacenamiento (procesamiento intensivo, visitas frecuentes) | Visitas frecuentes, altos requisitos de procesamiento de imágenes | ~10.5 GB | 5,428 | 10,857 |
Si bien las estimaciones iniciales de 1 año parecen bastante altas, es importante tener en cuenta que los datos de los pacientes no son estáticos. Se capturarán nuevos datos y se programarán nuevas visitas, lo que aumentará la demanda de almacenamiento. Aquí es donde el almacenamiento juega un papel importante en el espacio de imágenes médicas. La capacidad de almacenamiento adicional afecta directamente a cuántos pacientes puede admitir eficazmente una solución.
| Estimación total de almacenamiento a 10 años por paciente | Notas | Almacenamiento estimado | Pacientes por SSD de 61 TB | Pacientes por SSD de 122 TB |
|---|---|---|---|---|
| Escenario mejorado (múltiples copias, registros detallados, audio, aumentos) | Registros ampliados, imágenes y procesamiento frecuentes | ~84 GB | 679 | 1,357 |
| Escenario alto (procesamiento intensivo, historial completo) | Máximas necesidades de procesamiento y almacenamiento durante 10 años | ~105 GB | 543 | 1,086 |
El Dell PowerEdge XE9680, equipado con aceleradores AMD MI300X e integrado con el Asistente de Salud de Metrum AI, proporciona una solución escalable y eficiente para los proveedores de atención médica. Al automatizar tareas que consumen mucho tiempo y permitir un acceso rápido a información crítica, esta configuración permite a los médicos centrarse más en la atención al paciente mientras gestionan las crecientes demandas. A través de la integración fluida de componentes de IA en modalidades de lenguaje, imagen y voz, el Asistente de Salud representa un avance significativo en las soluciones de atención médica impulsadas por IA, reduciendo las cargas administrativas y mejorando los resultados generales de los pacientes.
Conclusión
Sandy Yang/Director de Estrategia Global
WhatsApp / WeChat: +86 13426366826
Correo electrónico: yangyd@qianxingdata.com
Sitio web: www.qianxingdata.com/www.storagesserver.com
Enfoque empresarial:
Distribución de productos TIC / Integración de sistemas y servicios / Soluciones de infraestructura
Con más de 20 años de experiencia en distribución de TI, nos asociamos con las principales marcas mundiales para ofrecer productos fiables y servicios profesionales.
"Usando la tecnología para construir un mundo inteligente" ¡Su proveedor de servicios de productos TIC de confianza!



