Creación de grandes modelos de lenguaje con el poder de AMD
TurkuNLP escaló a 192 nodos en la supercomputadora LUMI, con tecnología de las CPU AMD EPYC™ y las GPU AMD Instinct™, a fin de crear grandes modelos de lenguaje para el finlandés.
Los servidores de alto rendimiento son fundamentales para la IA empresarial. Las CPU para servidores AMD EPYC™ y las principales GPU ofrecen un rendimiento impresionante para las cargas de trabajos de entrenamiento de IA y de modelos grandes.
Webinar en vivo
Descubre cómo la combinación ganadora de procesadores AMD EPYC™ y aceleradores de GPU líderes en la industria proporciona la fuerza necesaria para abordar los desafíos más exigentes de la IA empresarial.
Los aceleradores de GPU se han convertido en la herramienta principal de la IA moderna, ya que se destacan en el entrenamiento de modelos grandes y complejos y son compatibles con una inferencia eficiente en tiempo real y a escala. Sin embargo, maximizar el potencial de tu inversión en GPU requiere un potente socio de CPU.
Las GPU son la herramienta adecuada para muchas cargas de trabajo de IA.
combinar la potencia de las GPU con la CPU adecuada puede mejorar significativamente la eficiencia de IA para determinadas cargas de trabajo. Busca estas funciones clave de la CPU:
Son tu opción ideal para liberar el verdadero potencial de tus grandes cargas de trabajo de IA. Ayudan a maximizar el rendimiento del acelerador de GPU y la eficiencia general de la carga de trabajo de IA. Además, con funciones de seguridad avanzadas y un compromiso largo y constante con los estándares abiertos, los procesadores AMD EPYC permiten a las empresas implementar con confianza la siguiente fase en su recorrido con IA.
Las soluciones basadas en aceleradores de GPU impulsadas por CPU AMD EPYC potencian muchas de las supercomputadoras e instancias en la nube más rápidas del mundo, lo que ofrece a las empresas una plataforma consolidada para optimizar cargas de trabajo basadas en datos y lograr resultados innovadores en IA.
Las CPU desempeñan un papel crucial en la organización y sincronización de las transferencias de datos entre las GPU, el manejo de los gastos generales de lanzamiento del kernel y la gestión de la preparación de datos. Esta función de “conductor” garantiza que las GPU funcionen a la máxima eficiencia.
Algunas cargas de trabajo se benefician de las altas velocidades de reloj de la CPU para mejorar el rendimiento de la GPU mediante la optimización del procesamiento, la transferencia y la ejecución simultánea de datos, lo que aumenta la eficiencia de la GPU.
Para demostrar el concepto de que las frecuencias de CPU más altas aumentan el rendimiento de la carga de trabajo Llama2-7B, utilizamos CPU AMD EPYC 9554 personalizadas en un servidor 2P equipado con ocho GPU NVIDIA H1001
Los procesadores que combinan alto rendimiento, bajo consumo energético, manejo eficiente de datos y capacidades efectivas de administración de energía permiten que tu infraestructura de IA opere al rendimiento máximo mientras optimiza el consumo energético y los costos.
Los procesadores AMD EPYC alimentan los servidores con el menor consumo energético del mundo, lo que ofrece un rendimiento excepcional y ayuda a reducir los costos energéticos2. Impleméntalos con confianza para crear soluciones de bajo consumo energético y ayudar a optimizar tu recorrido con la IA.
En los procesadores AMD EPYC Serie 9004, la administración de energía AMD Infinity ofrece un excelente rendimiento predeterminado y permite ajustar el comportamiento específico de la carga de trabajo.
Elige entre varias soluciones aceleradas por GPU certificadas o validadas y alojadas en CPU AMD EPYC para sobrecargar tus cargas de trabajo de IA.
¿Prefieres las soluciones con tecnología de aceleradores AMD Instinct?
¿Utilizas otras GPU? Consulta por otras soluciones con tecnología de CPU AMD EPYC disponibles de los principales proveedores de soluciones de plataforma, incluidos Asus, Dell, Gigabyte, HPE, Lenovo y Supermicro.
Solicita instancias que combinen la CPU AMD EPYC con GPU para cargas de trabajo con IA/ML de los principales proveedores en la nube, incluidos AWS, Azure, Google, IBM Cloud y OCI.
Configuraciones del servidor: EPYC 9554 de 2P (CPU con frecuencias personalizadas, 64 núcleos/128 subprocesos, 16 núcleos activos), 1,5 TB de memoria (24 DDR5 de 64 GB a 5600 MHz funcionando a 4800 MT/s), SSD de 3,2 TB, Ubuntu® 22.04.4 LTS, con ocho NVIDIA H100 de 80 GB HBM3, HuggingFace Transformers v 4.31.0, NVIDIA PyTorch 23.12, PEFT 0.4.0, Python 3.10.12, CUDA 12.3.2.001, TensorRT-LLM v 0.9.0.dev2024, CUDNN 8.9.7.29+cuda12.2, controlador NVIDIA-SMI versión 550.54.15, TRT v8.6.1.6+cuda12.0.1.011, motor transformador v1.1
Ajuste de Llama2-7B: BS por dispositivo = 4, seqln = 128, promedio sobre 4 series, 10 etapas por serie, FP16
Entrenamiento de Llama2-7B (1000): BS = 56 (7x8 GPU), seqln = 1000, gradientes en GPU
Entrenamiento de Llama2-7B (2000): BS = 24 (3x8 GPU), seqln = 2000, gradientes en GPU
Resultados:
Frecuencia de CPU 2000 MHz 2500 MHz 3000 MHz
Tiempo de ejecución promedio de ajuste del entrenamiento en segundos 649,38 584,24 507,1
Porcentaje de aumento del rendimiento 0,00 % 11,15 % 28,06 %
Rendimiento de entrenamiento en la longitud de secuencia de 1000 276,08 238,81 230,82
Porcentaje de aumento del rendimiento 0,00 % 15,61 % 19,61 %
Rendimiento de entrenamiento en la longitud de secuencia de 2000 883,85 807,94 778,72
Porcentaje de aumento del rendimiento 0,00 % 9,40 % 13,50 %
Los resultados pueden variar debido a factores como las configuraciones del sistema, las versiones de software y la configuración del BIOS. IMPORTANTE: Este rendimiento es una prueba de concepto. Datos recopilados en AMD EPYC™ 9554 de 2P personalizado como procesador host con varias frecuencias utilizando ocho aceleradores Nvidia H100 de 80 GB. Los procesadores EPYC de 4.a generación no permiten a los usuarios finales ajustar las frecuencias