Turbinando a IA e a HPC 

Os aceleradores AMD Instinct™ Série MI300 são excepcionalmente adequados para alimentar até mesmo as cargas de trabalho de IA e HPC mais exigentes, oferecendo desempenho de computação excepcional, grande densidade de memória com alta largura de banda e suporte para formatos de dados especializados.

Adicionar texto alternativo

Equipamento interno

Os aceleradores AMD Instinct MI300 Series são construídos com base na arquitetura AMD CDNA™ 3, que oferece Matrix Core Technologies e suporte para uma ampla gama de recursos de precisão — desde os altamente eficientes INT8 e FP8 (incluindo suporte a dispersão para IA) até o mais exigente FP64 para HPC.

Conheça a série

Explore aceleradores AMD Instinct Série MI300, plataformas AMD Instinct Série MI300 e APU AMD Instinct MI300A.

Conheça os aceleradores AMD Instinct™ MI325X

Os aceleradores de GPU AMD Instinct™ MI325X definem novos padrões de desempenho de IA com a arquitetura AMD CDNA™ de 3ª geração, oferecendo desempenho e eficiência incríveis para treinamento e inferência. Com memória líder do setor de 256 GB HBM3E e largura de banda de até 6 TB/s, eles otimizam o desempenho e ajudam a reduzir o custo total de propriedade.1

304 UCs

304 unidades de computação de GPU

256 GB

256 GB de memória HBM3E

6 TB/s

6 TB/s de largura de banda de memória teórica máxima

Comparações de especificações

Desempenho de IA (TFLOPs de pico)

Até 1,3 vez o desempenho de IA em comparação com os aceleradores da concorrência2, 3

TF32
494.7
653.7
0
300
600
900
1200
1500
1800
2100
2400
2700
3000
H200 SXM
MI325X OAM
FP16/BF16 (Tensor/Matrix)
989.4
1307.4
0
300
600
900
1200
1500
1800
2100
2400
2700
3000
H200 SXM
MI325X OAM
FP8
1978.9
2614.9
0
300
600
900
1200
1500
1800
2100
2400
2700
3000
H200 SXM
MI325X OAM

H200 SXM de 141 GB

OAM MI325X de 256 GB

Desempenho HPC (TFLOPs de pico)

Até 2,4 vezes o desempenho HPC em comparação com os aceleradores da concorrência3

FP64 (Vector)
33.5
81.7
0
20
40
60
80
100
120
140
160
H200 SXM
MI325X OAM
FP64 (Tensor / Matrix)
66.9
163.4
0
20
40
60
80
100
120
140
160
180
H200 SXM
MI325X OAM
FP32 (Vector)
66.9
163.4
0
20
40
60
80
100
120
140
160
180
H200 SXM
MI325X OAM

H200 SXM de 141 GB

OAM MI325X de 256 GB

Capacidade de memória e largura de banda

1,8 vez a capacidade de memória e 1,2 vez a largura de banda de memória em comparação com aceleradores da concorrência1

Memory Capacity
141 GB
256 GB
0
50
100
150
200
250
300
350
H200 SXM
MI325X OAM
Memory Bandwidth
4.8 TB/s
6 TB/s
0
1
2
3
4
5
6
7
H200 SXM
MI325X OAM

H200 SXM de 141 GB

OAM MI325X de 256 GB

Aceleradores Instinct MI300X

Os aceleradores AMD Instinct Série MI300X foram projetados para oferecer desempenho de liderança para cargas de trabalho de IA generativa e aplicativos HPC.

304 UCs

304 unidades de computação de GPU

192 GB

Memória de 192 GB HBM3

5,3 TB/s

5,3 TB/s de largura de banda teórica máxima de memória

Desempenho de IA (TFLOPs de pico)

Até 1,3 vez o desempenho de IA em comparação com os aceleradores da concorrência6

TF32 (Sparsity)
989.6
1307.4
0
1000
2000
3000
4000
5000
6000
7000
H100 SXM5
MI300X OAM
FP16/BF16 (Sparsity)
1978.9
2614.9
0
1000
2000
3000
4000
5000
6000
7000
H100 SXM5
MI300X OAM
FP8 (Sparsity)
3957.8
5229.8
0
1000
2000
3000
4000
5000
6000
7000
H100 SXM5
MI300X OAM

Desempenho de HPC (TFLOPs de pico)

Até 2,4 vezes o desempenho HPC em comparação com os aceleradores da concorrência7

FP64 (Vector)
33.5
81.7
0
20
40
60
80
100
120
140
160
180
H100 SXM5
MI300X OAM
FP64 (Tensor / Matrix)
66.9
163.4
0
20
40
60
80
100
120
140
160
180
H100 SXM5
MI300X OAM
FP32 (Vector)
66.9
163.4
0
20
40
60
80
100
120
140
160
180
H100 SXM5
MI300X OAM

Capacidade de memória e largura de banda

2,4 vezes a capacidade de memória e 1,6 vez o pico de largura de banda de memória teórica em comparação com aceleradores da concorrência8

Memory Capacity
80
192
0GB
50GB
100GB
150GB
200GB
250GB
300GB
H100 SXM5
MI300X OAM
Memory Bandwidth
3.4
5.3
0TB/s
1TB/s
2TB/s
3TB/s
4TB/s
5TB/s
6TB/s
7TB/s
H100 SXM5
MI300X OAM

Plataformas AMD Instinct

A plataforma AMD Instinct MI325X integra oito módulos OAM de GPU MI325X totalmente conectados em um design OCP padrão do setor por meio de links AMD Infinity Fabric™ de 4ª geração, fornecendo até 2 TB de capacidade HBM3E para processamento de IA de baixa latência. Essa plataforma pronta para implantação pode acelerar o time-to-market e reduzir os custos de desenvolvimento ao adicionar aceleradores MI325X à infraestrutura de servidor e rack de IA existente.

8 MI325X

8 módulos OAM de GPU MI325X

2 TB

2 TB total de memória HBM3E

48 TB/s

48 TB/s de pico de largura de banda de memória agregada teórica

APUs AMD Instinct MI300A

Unidades de processamento acelerado (APUs) AMD Instinct MI300A combinam a potência dos aceleradores AMD Instinct e dos processadores AMD EPYC™ com memória compartilhada para permitir maior eficiência, flexibilidade e capacidade de programação. Essas unidades foram projetadas para acelerar a convergência de IA e HPC, ajudando a avançar na pesquisa e a impulsionar novas descobertas.

228 UCs

228 unidades de computação de GPU

24

24 núcleos de CPU x86 "Zen 4"

128 GB

Memória HBM3 unificada de 128 GB

5,3 TB/s

5,3 TB/s de largura de banda teórica máxima de memória

Desempenho de IA (TFLOPs de pico)11

TF32 (Sparsity)
989.6
980.6
0
500
1000
1500
2000
2500
3000
3500
4000
4500
5000
H100 SXM5
MI300A APU
FP16/BF16 (Sparsity)
1978.9
1961.2
0
500
1000
1500
2000
2500
3000
3500
4000
4500
5000
H100 SXM5
MI300A APU
FP8 (Sparsity)
3957.8
3922.3
0
500
1000
1500
2000
2500
3000
3500
4000
4500
5000
H100 SXM5
MI300A APU

Desempenho de HPC (TFLOPs de pico)

Até 1,8 vez o desempenho HPC em comparação com aceleradores da concorrência12

FP64 (Vector)
33.5
61.3
0
20
40
60
80
100
120
140
160
H100 SXM5
MI300A APU
FP64 (Tensor / Matrix)
66.9
122.6
0
20
40
60
80
100
120
140
160
H100 SXM5
MI300A APU
FP32 (Vector)
66.9
122.6
0
20
40
60
80
100
120
140
160
H100 SXM5
MI300A APU

Capacidade de memória e largura de banda

2,4 vezes a capacidade de memória e 1,6 vez o pico de largura de banda de memória teórica em comparação com aceleradores concorrentes13

Memory Capacity
80
128
0GB
20GB
40GB
60GB
80GB
100GB
120GB
140GB
160GB
H100 SXM5
MI300A APU
Memory Bandwidth
3.4
5.3
0TB/s
1TB/s
2TB/s
3TB/s
4TB/s
5TB/s
6TB/s
7TB/s
H100 SXM5
MI300A APU

Avançando na computação Exascale

Os aceleradores AMD Instinct alimentam alguns dos principais supercomputadores do mundo, incluindo o sistema El Capitan do Lawrence Livermore National Laboratory. Veja como esse supercomputador de duas escalas exatas usará a IA para executar simulações inéditas e avançar na pesquisa científica.

Software AMD ROCm™

O software AMD ROCm™ inclui um amplo conjunto de modelos de programação, ferramentas, compiladores, bibliotecas e tempos de execução para modelos de IA e cargas de trabalho de HPC direcionados aos aceleradores AMD Instinct.

Estudos de caso

Encontre soluções

Encontre um parceiro que ofereça soluções baseadas no acelerador AMD Instinct.

Recursos

Estudos de caso

Leia os estudos de caso mais recentes sobre como os clientes estão aproveitando os aceleradores AMD Instinct. 

Mantenha-se informado

Inscreva-se para receber as últimas notícias sobre data centers e conteúdo sobre servidores.

Notas de rodapé
  1. MI325-001A – Cálculos realizados pelo AMD Performance Labs em 26 de setembro de 2024, com base nas especificações e/ou estimativas atuais. O acelerador AMD Instinct™ MI325X OAM terá capacidade de memória HBM3E de 256 GB e desempenho de largura de banda de memória teórica de pico de GPU de 6 TB/s. Os resultados reais baseados na produção de silício podem variar.
    Os resultados publicados mais elevados para o acelerador de GPU NVidia Hopper H200 (141 GB) SXM resultaram em capacidade de memória HBM3E de 141 GB e desempenho de largura de banda de memória de GPU de 4,8 TB/s.  https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446
    Os resultados publicados mais elevados para o acelerador de GPU NVidia Blackwell HGX B100 (192 GB) 700W resultaram em capacidade de memória HBM3E de 192 GB e desempenho de largura de banda de memória de GPU de 8 TB/s.
    Os resultados publicados mais elevados para o acelerador de GPU Blackwell HGX B200 (192GB) SXM resultaram em capacidade de memória HBM3E de 192 GB e desempenho de largura de banda de memória de GPU de 8 TB/s.
    Especificações NVIDIA Blackwell em https://resources.nvidia.com/en-us-blackwell-architecture?_gl=1*1r4pme7*_gcl_aw*R0NMLjE3MTM5NjQ3NTAuQ2p3S0NBancyNkt4QmhCREVpd0F1NktYdDlweXY1dlUtaHNKNmhPdHM4UVdPSlM3dFdQaE40WkI4THZBaWFVajFy
  2. MI325-002 – Os cálculos realizados pelo AMD Performance Labs em 28 de maio de 2024 para a GPU AMD Instinct™ MI325X resultaram em 1307,4 TFLOPS de pico teórico de meia precisão (FP16), 1307,4 TFLOPS de pico teórico de precisão de formato Bfloat16 (BF16), 2614,9 TFLOPS de pico teórico de precisão de 8 bits (FP8), 2614,9 TOPs de desempenho do ponto de flutuação INT8. O desempenho real varia de acordo com as especificações finais e a configuração do sistema.
    Resultados publicados sobre a GPU Nvidia H200 SXM (141 GB): 989,4 TFLOPS de pico teórico do tensor de meia precisão (FP16 Tensor), 989,4 TFLOPS de pico teórico da precisão do formato do tensor Bfloat16 (BF16 Tensor), 1.978,9 TFLOPS de pico teórico da precisão de 8 bits (FP8), 1.978,9 TOPs de pico teórico do desempenho do ponto de flutuação INT8. O desempenho do núcleo do tensor BFLOAT16, do núcleo do tensor FP16, do núcleo do tensor FP8 e do núcleo do tensor INT8 foi publicado pela NVIDIA usando dispersão. Para fins de comparação, a AMD converteu esses números para não dispersão/densa dividindo-os por 2, e esses números aparecem acima
    Fonte NVIDIA H200:  https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446 e https://www.anandtech.com/show/21136/nvidia-at-sc23-h200-accelerator-with-hbm3e-and-jupiter-supercomputer-for-2024
    Nota: As GPUs Nvidia H200 têm o mesmo desempenho em FLOPs publicados que os produtos H100 https://resources.nvidia.com/en-us-tensor-core/. MI325-02
  3. MI325-008 – Os cálculos realizados pelos AMD Performance Labs em 2 de outubro de 2024 na GPU AMD Instinct™ MI325X (1000 W) projetada com tecnologia de processo FinFET do AMD CDNA™ de 3 5 nm | 6 nm com aumento de pico do clock do mecanismo de 2.100 MHz resultaram em pico de precisão dupla teórica de 163,4 TFLOPS (Matriz FP64), pico de precisão dupla teórica de 81,7 TFLOPS (FP64), matriz de pico de precisão única teórica de 163,4 TFLOPS (Matriz FP32), pico de precisão única teórica de 163,4 TFLOPS (FP32), pico teórico do TensorFloat-32 de 653,7 TFLOPS (TF32), pico de meia precisão teórica de 1307,4 TFLOPS (FP16). O desempenho real pode variar de acordo com as especificações finais e a configuração do sistema.
    Resultados publicados sobre a GPU Nvidia H200 SXM (141 GB):   66,9 TFLOPs de pico de precisão dupla teórica (FP64 Tensor), 33,5 TFLOPs de pico de precisão dupla teórica (FP64), 66,9 TFLOPs de pico de precisão simples teórica (FP32), 494,7 TFLOPs de pico de TensorFloat-32 (TF32), 989,5 TFLOPS de pico de tensor de meia precisão teórica (FP16 Tensor). O desempenho do TF32 Tensor Core foi publicado pela Nvidia usando dispersão. Para fins de comparação, a AMD converteu esses números para não dispersão/densa dividindo por 2, e esse número aparece acima.
    Fonte NVIDIA H200:  https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446 e https://www.anandtech.com/show/21136/nvidia-at-sc23-h200-accelerator-with-hbm3e-and-jupiter-supercomputer-for-2024
    Nota: As GPUs Nvidia H200 têm o mesmo desempenho em FLOPs publicados que os produtos H100 https://resources.nvidia.com/en-us-tensor-core/.
    *As GPUs Nvidia H200 não são compatíveis com Tensor FP32.
  4. As medições realizadas pela AMD Performance Labs em 11 de novembro de 2023 na GPU AMD Instinct™ MI300X (750W) projetada com tecnologia de processo FinFET do AMD CDNA™ de 3 5 nm | 6 nm com aumento de pico do clock do mecanismo de 2.100 MHz resultaram em pico teórico do TensorFloat-32 de 653,7 TFLOPS (TF32), pico de meia precisão teórica de 1.307,4 TFLOPS (FP16), pico de precisão do formato Bfloat16 (BF16) de 1.307,4 TFLOPS, pico de precisão teórica de 8 bits (FP8) de 2.614,9 TFLOPS, desempenho do ponto de flutuação INT8 de 2.614,9 TOPs. É esperado que o MI300X seja capaz de aproveitar a dispersão da estrutura de granulação fina proporcionando uma melhoria estimada de 2x na eficiência matemática, resultando em pico teórico do TensorFloat-32 (TF32) de 1.307,4 TFLOPS, pico de meia precisão teórica (FP16) de 2.614,9 TFLOPS, pico de precisão do formato Bfloat16 (BF16) de 2.614,9 TFLOPS, pico de precisão teórica de 8 bits (FP8) de 5.229,8 TFLOPS, desempenho do ponto de flutuação INT8 de 5.229,8 TOPs com dispersão. Os resultados calculados para o acelerador OAM HBM2e AMD Instinct™ MI250X (560W) de 128GB projetado com tecnologia de processo FinFET AMD CDNA™ de 2 5nm com aumento de pico do clock do mecanismo de 1.700 MHz resultaram em TF32* (N/A), pico de meia precisão teórica de 383,0 TFLOPS (FP16), pico de precisão teórica do formato Bfloat16 de 383,0 TFLOPS (BF16), FP8* (N/A), desempenho do ponto de flutuação INT8 de 383,0 TOPs. *As GPUs da série AMD Instinct MI200 não são compatíveis com TF32, FP8 ou dispersão. MI300-16
  5. Medições feitas pelos laboratórios internos de desempenho da AMD em 2 de junho de 2023 com base nas especificações atuais e/ou cálculos internos de engenharia. Execução do modelo de linguagem grande (LLM) ou calculado com precisão FP16 para determinar o número mínimo de GPUs necessárias para executar os modelos Falcon-7B (7B, 40B parâmetros), LLaMA (13B, 33B parâmetros), OPT (66B parâmetros), GPT-3 (175B parâmetros), BLOOM (176B parâmetros) e PaLM (340B, 540B parâmetros). Estimativas calculadas com base no tamanho da memória somente da GPU versus a memória exigida pelo modelo em parâmetros definidos mais 10% de sobrecarga. Os cálculos se baseiam em tamanhos de memória de modelos publicados e, às vezes, preliminares. Resultados de GPT-3, BLOOM e PaML estimados no MI300X devido à disponibilidade do sistema/peça. Configurações de resultados testados: Sistema de laboratório AMD composto por 1x CPU EPYC 9654 (96 núcleos) com 1x acelerador AMD Instinct™ MI300X (192GB HBM3, Módulo OAM) 750W

    Resultados (precisão FP16):

    Modelo Parâmetros Necessário memória TOT MI300X obrigatório
    Falcon-7B 7 bilhões 15,4 GB 1 real
    LLaMA 13 bilhões 44 GB 1 real
    LLaMA 33 bilhões 72,5 GB 1 real
    Falcon-40B 40 bilhões 88 GB 1 real
    OPT 66 bilhões 145,2 GB 1 real
    GPT-3 175 bilhões 385 GB 3 calculado
    Bloom 176 bilhões 387,2 GB 3 calculado
    PaLM 340 bilhões 748 GB 4 calculado
    PaLM 540 bilhões 1188 GB 7 calculado

    As estimativas calculadas podem variar com base no tamanho final do modelo; as estimativas reais e as estimativas podem variar devido à sobrecarga real necessária e ao uso da memória do sistema além da GPU. Os fabricantes de servidores podem variar as ofertas de configuração, produzindo resultados diferentes. MI300-07

  6. As medições realizadas pela AMD Performance Labs em 11 de novembro de 2023 na GPU AMD Instinct™ MI300X (750W) projetada com tecnologia de processo FinFET do AMD CDNA™ de 3 5 nm | 6 nm com aumento de pico do clock do mecanismo de 2.100 MHz resultaram em pico teórico do TensorFloat-32 de 653,7 TFLOPS (TF32), pico de meia precisão teórica de 1.307,4 TFLOPS (FP16), pico de precisão do formato Bfloat16 (BF16) de 1.307,4 TFLOPS, pico de precisão teórica de 8 bits (FP8) de 2.614,9 TFLOPS, desempenho do ponto de flutuação INT8 de 2.614,9 TOPs. É esperado que o MI300X seja capaz de aproveitar a dispersão da estrutura de granulação fina proporcionando uma melhoria estimada de 2x na eficiência matemática, resultando em pico teórico do TensorFloat-32 (TF32) de 1.307,4 TFLOPS, pico de meia precisão teórica (FP16) de 2.614,9 TFLOPS, pico de precisão do formato Bfloat16 (BF16) de 2.614,9 TFLOPS, pico de precisão teórica de 8 bits (FP8) de 5.229,8 TFLOPS, desempenho do ponto de flutuação INT8 de 5.229,8 TOPs com dispersão. Os resultados publicados na GPU Nvidia H100 SXM (80GB) 700W resultaram em 989,4 TFLOPs de pico de TensorFloat-32 (TF32) com dispersão, 1.978,9 TFLOPS de pico de meia precisão teórica (FP16) com dispersão, 1.978,9 TFLOPS de pico teórico de precisão de formato Bfloat16 (BF16) com dispersão, 3.957,8 TFLOPS de pico teórico de precisão de 8 bits (FP8) com dispersão, 3.957,8 TOPs de pico teórico de INT8 com desempenho de ponto flutuante com dispersão. Fonte NVIDIA H100: https://resources.nvidia.com/en-us-tensor-core. MI300-17
  7. As medições realizadas pela AMD Performance Labs em 11 de novembro de 2023 na GPU AMD Instinct™ MI300X (750W) projetada com tecnologia de processo FinFET do AMD CDNA™ de 3 5 nm | 6 nm com aumento de pico do clock do mecanismo de 2.100 MHz resultaram em pico de precisão dupla teórica de 163,4 TFLOPS (Matriz FP64), pico de precisão dupla teórica de 81,7 TFLOPS (FP64), matriz de pico de precisão única teórica de 163,4 TFLOPS (Matriz FP32), pico de precisão única teórica de 163,4 TFLOPS (FP32), pico teórico do TensorFloat-32 de 653,7 TFLOPS (TF32), pico de meia precisão teórica de 1307,4 TFLOPS (FP16), pico de precisão do formato Bfloat16 (BF16) de 1307,4 TFLOPS, pico de precisão teórica de 8 bits (FP8) de 2614,9 TFLOPS, desempenho do ponto de flutuação INT8 de 2614,9 TOPs. Resultados publicados sobre a GPU NVIDIA H100 SXM (80 GB) resultaram em pico de precisão dupla teórica do tensor de 66,9 TFLOPS (FP64 Tensor), pico de precisão dupla teórica de 33,5 TFLOPS (FP64), pico de precisão única teórica de 66,9 TFLOPS (FP32), pico do TensorFloat-32 de 494,7 TFLOPS (TF32)*, pico de meia precisão do tensor de 989,4 TFLOPS (Tensor FP16), pico de meia precisão teórica de 133,8 TFLOPS (FP16), pico de precisão teórica do formato do tensor Bfloat16 de 989,4 TFLOPS (Tensor BF16), pico de precisão teórica do formato Bfloat16 de 133,8 TFLOPS (BF16), pico de precisão teórica de 8 bits de 1.978,9 TFLOPS (FP8), pico teórico do desempenho do ponto de flutuação INT8 de 1.978,9 TOPs. Fonte NVIDIA H100: https://resources.nvidia.com/en-us-tensor-core/. * As GPUs NVIDIA H100 não são compatíveis com Tensor FP32. MI300-18
  8. Cálculos conduzidos pelo AMD Performance Labs em 17 de novembro de 2023 para o acelerador AMD Instinct™ MI300X OAM de 750W (HBM3 de 192 GB), projetado com a tecnologia de processo AMD CDNA™ 3 5 nm FinFet, que resultou em capacidade de memória HBM3 de 192 GB e desempenho de largura de banda de memória de pico teórica de 5,325 TFLOPS. A interface do barramento de memória MI300X é de 8.192 bits, e a taxa de dados de memória é de 5,2 Gbps para largura de banda de memória de pico total de 5,325 TB/s (interface de barramento de memória de 8.192 bits * taxa de dados de memória de 5,2 Gbps/8). Os resultados mais altos publicados sobre o acelerador de GPU SXM NVIDIA Hopper H200 (141 GB) resultaram em capacidade de memória HBM3e de 141 GB e desempenho de largura de banda de memória GPU de 4,8 TB/s. https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446. Os resultados mais altos publicados sobre o acelerador de GPU SXM5 NVIDIA Hopper H100 (80 GB) resultaram em capacidade de memória HBM3 de 80 GB e desempenho de largura de banda de memória da GPU de 3,35 TB/s. https://resources.nvidia.com/en-us-tensor-core/nvidia-tensor-core-gpu-datasheet MI300-05A
  9. As medições realizadas pela AMD Performance Labs em 18 de novembro de 2023 na GPU AMD Instinct™ MI300X (HBM3 de 192 GB) 750W projetada com tecnologia de processo FinFET do AMD CDNA™ de 3 5 nm | 6 nm com aumento de pico do clock do mecanismo de 2.100 MHZ resultaram em pico de meia precisão teórica de 1.307,4 TFLOPS (FP16), pico de precisão teórica do formato Bfloat16 de 1.307,4 TFLOPS (BF16). É esperado que o MI300X seja capaz de aproveitar a dispersão da estrutura de granulação fina proporcionando uma melhoria estimada de 2x na eficiência matemática, resultando em pico de meia precisão teórica de 2.614,9 TFLOPS (FP16), pico de precisão teórica do formato Bfloat16 de 2.614,9 TFLOPS (BF16) e desempenho do ponto de flutuação com dispersão). Os resultados publicados sobre a GPU NVIDIA H100 SXM (HBM3 de 80GB) 700W resultaram em pico de meia precisão teórica de 1.978,9 (FP16) com dispersão, pico de precisão teórica do formato Bfloat16 de 1.978,9 TFLOPS (BF16) e desempenho do ponto de flutuação com dispersão. Fonte NVIDIA H100: https://resources.nvidia.com/en-us-tensor-core/. Os aceleradores AMD Instinct™ MI300X baseados na tecnologia AMD CDNA 3 incluem até oito links AMD Infinity Fabric fornecendo desempenho de largura de banda da taxa de transporte peer-to-peer (P2P) com pico teórico agregado de GPU de até 1.024 GB/s por placa de GPU OAM. MI300-25
  10. As medições realizadas pela AMD Performance Labs em 11 de novembro de 2023 na APU AMD Instinct™ MI300A (760W) projetada com tecnologia de processo FinFET do AMD CDNA™ de 3 5nm | 6nm com aumento de pico do clock do mecanismo de 2.100 MHz resultaram em pico de precisão dupla teórica de 122,6 TFLOPS (Matriz FP64), pico de precisão dupla teórica de 61,3 TFLOPS (FP64), matriz de pico de precisão única teórica de 122,6 TFLOPS (Matriz FP32), pico de precisão única teórica de 122,6 TFLOPS (FP32), pico teórico do TensorFloat-32 de 490,3 TFLOPS (TF32), pico de meia precisão teórica de 980,6 TFLOPS (FP16), pico de precisão do formato Bfloat16 (BF16) de 980,6 TFLOPS, pico de precisão teórica de 8 bits (FP8) de 1.961,2 TFLOPS, desempenho do ponto de flutuação INT8 de 1.961,2 TOPs. Os resultados calculados para o acelerador OAM HBM2e AMD Instinct™ MI250X (560W) de 128GB projetado com tecnologia de processo FinFET AMD CDNA™ de 2 5nm com aumento de pico do clock do mecanismo de 1.700 MHz resultaram em um pico de precisão dupla teórica 95,7 TFLOPS (Matriz FP64), pico de precisão dupla teórica de 47,9 TFLOPS (FP64), matriz de pico de precisão única teórica de 95,7 TFLOPS (Matriz FP32), pico de precisão única teórica de 47,9 TFLOPS (FP32), TF32* (N/A), pico de meia precisão teórica de 383,0 TFLOPS (FP16), pico de precisão teórica do formato Bfloat16 de 383,0 TFLOPS (BF16), FP8* (N/A), desempenho do ponto de flutuação INT8 de 383,0 TOPs. Os fabricantes de servidores podem variar as ofertas de configuração, produzindo resultados diferentes. * As GPUs da Série MI200 não suportam TF32, FP8 ou dispersão MI300-10
  11. As medições realizadas pela AMD Performance Labs em 11 de novembro de 2023 na APU AMD Instinct™ MI300A (750W) projetada com tecnologia de processo FinFET do AMD CDNA™ de 3 5 nm | 6 nm com aumento de pico do clock do mecanismo de 2.100 MHz resultaram em pico teórico do TensorFloat-32 de 490,29 TFLOPS (TF32), pico de meia precisão teórica de 980,58 TFLOPS (FP16), pico de precisão do formato Bfloat16 (BF16) de 980,58 TFLOPS, pico de precisão teórica de 8 bits (FP8) de 1.961,16 TFLOPS, desempenho do ponto de flutuação INT8 de 1.961,16 TOPs. É esperado que o MI300A seja capaz de aproveitar a dispersão da estrutura de granulação fina proporcionando uma melhoria estimada de 2x na eficiência matemática, resultando em pico teórico do TensorFloat-32 (TF32) de 980,58 TFLOPS, pico de meia precisão teórica (FP16) de 1.961,16 TFLOPS, pico de precisão do formato Bfloat16 (BF16) de 1.961,16 TFLOPS, pico de precisão teórica de 8 bits (FP8) de 3.922,33 TFLOPS, desempenho do ponto de flutuação INT8 de 3.922,33 TOPs com dispersão. Os resultados publicados na GPU Nvidia H100 SXM5 (80 GB) resultaram em 989,4 TFLOPs de pico do núcleo do tensor TensorFloat-32 (TF32) com dispersão, 1.978,9 TFLOPS de pico teórico de meia precisão (FP16) do núcleo do tensor com dispersão, 1.978,9 TFLOPS de pico teórico de precisão de formato Bfloat16 (BF16) Núcleo do Tensor com dispersão, 3.957,8 TFLOPS de pico teórico de precisão de 8 bits (FP8) Núcleo do Tensor com dispersão, 3.957,8 TOPs de pico teórico de desempenho de ponto flutuante do INT8 Núcleo do Tensor com dispersão. Fonte NVIDIA H100: https://resources.nvidia.com/en-us-tensor-core/. Os fabricantes de servidores podem variar as ofertas de configuração, produzindo resultados diferentes. MI300-21
  12. As medições realizadas pela AMD Performance Labs em 11 de novembro de 2023 na GPU AMD Instinct™ MI300A (760W) projetada com tecnologia de processo FinFET do AMD CDNA™ de 3 5 nm | 6 nm com aumento de pico do clock do mecanismo de 2.100 MHz resultaram em pico de precisão dupla teórica de 122,6 TFLOPS (Matriz FP64), pico de precisão dupla teórica de 61,3 TFLOPS (FP64), matriz de pico de precisão única teórica de 122,6 TFLOPS (Matriz FP32), pico de precisão única teórica de 122,6 TFLOPS (FP32), pico teórico do TensorFloat-32 de 490,29 TFLOPS (TF32), pico de meia precisão teórica de 980,58 TFLOPS (FP16), pico de precisão do formato Bfloat16 (BF16) de 980,58 TFLOPS, pico de precisão teórica de 8 bits (FP8) de 1961,16 TFLOPS, desempenho do ponto de flutuação INT8 de 1961,16 TOPs. Resultados publicados sobre a GPU NVIDIA H100 SXM de 700W (80 GB) resultaram em pico de precisão dupla teórica do tensor de 66,9 TFLOPS (FP64 Tensor), pico de precisão dupla teórica de 33,5 TFLOPS (FP64), pico de precisão única teórica de 66,9 TFLOPS (FP32), pico do TensorFloat-32 de 494,7 TFLOPS (TF32)*, pico de meia precisão do tensor de 989,4 TFLOPS (Tensor FP16), pico de meia precisão teórica de 133,8 TFLOPS (FP16), pico de precisão teórica do formato do tensor Bfloat16 de 989,4 TFLOPS (Tensor BF16), pico de precisão teórica do formato Bfloat16 de 133,8 TFLOPS (BF16), pico de precisão teórica de 8 bits de 1.978,9 TFLOPS (FP8), pico teórico do desempenho do ponto de flutuação INT8 de 1.978,9 TOPs. Fonte NVIDIA H100: https://resources.nvidia.com/en-us-tensor-core/. Os fabricantes de servidores podem variar as ofertas de configuração, produzindo resultados diferentes. * As GPUs NVIDIA H100 não são compatíveis com Tensor FP32. MI300-20
  13. Cálculos conduzidos pelo AMD Performance Labs em 7 de novembro de 2023 para o acelerador AMD Instinct™ MI300A APU de 760W (HBM3 de 128 GB), projetado com a tecnologia de processo AMD CDNA™ 3 5 nm FinFet, que resultou em capacidade de memória HBM3 de 128 GB e desempenho de largura de banda de memória de pico teórica de 5,325 TFLOPS. A interface do barramento de memória MI300A é de 8.192 bits (1.024 bits x 8 die) e a taxa de dados de memória é de 5,2 Gbps para largura de banda de memória total máxima de 5,325 TB/s (interface de barramento de memória de 8.192 bits * taxa de dados de memória de 5,2 Gbps/8). Os resultados mais altos publicados sobre o acelerador de GPU SXM NVIDIA Hopper H200 (141 GB) resultaram em capacidade de memória HBM3e de 141 GB e desempenho de largura de banda de memória da GPU de 4,8 TB/s. https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446. Os resultados mais altos publicados sobre o acelerador de GPU SXM NVIDIA Hopper H100 (80 GB) resultaram em capacidade de memória HBM3 de 80 GB e desempenho de largura de banda de memória da GPU de 3,35 TB/s. Https://resources.nvidia.com/en-us-tensor-core/nvidia-tensor-core-gpu-datasheet. Os fabricantes de servidores podem variar as ofertas de configuração, produzindo resultados diferentes. MI300-12