RSS

Blog de '2025' 'maio'

Geforce RTX 5060 já disponível: DLSS4 com Multi Frame Generation, Renderização Neural e Blackwell Inavations, para todos os usuários.
Geforce RTX 5060 já disponível: DLSS4 com Multi Frame Generation, Renderização Neural e Blackwell Inavations, para todos os usuários.

A nova GeForce RTX 5060 já está à venda. Modelos com clock padrão e overclock de fábrica estão disponíveis nos principais fabricantes de placas de vídeo, como ASUS, Colorful, Gainward, Galaxy, GIGABYTE, INNO3D, MSI, Palit, PNY e ZOTAC. Além disso, desktops pré-montados de integradores e fabricantes de sistemas também já podem ser adquiridos.

Se você quer adicionar uma das nossas novas placas de vídeo ao seu PC para um upgrade revolucionário ou deseja um computador pré-montado equipado com nossa tecnologia transformadora, acesse o GeForce RTX 5060 Product Finder — que será atualizado conforme os varejistas incluam seus produtos — para encontrar placas de vídeo e PCs parceiros disponíveis para compra em toda a web.

Desempenho acelerado pela arquitetura NVIDIA Blackwell RTX

As placas de vídeo GeForce RTX 5060 aprimoram seus jogos e aplicativos favoritos com ray tracing e shaders neurais, reduzem a latência do PC com o NVIDIA Reflex e aceleram significativamente as taxas de quadros usando o DLSS 4 com Multi Frame Generation.

A NVIDIA é líder mundial em gráficos e IA, e nosso objetivo com a GeForce RTX sempre foi e continua sendo avançar o estado da arte em gráficos computacionais em tempo real. Por meio de inovações em hardware e software, estamos impulsionando a indústria, permitindo que desenvolvedores criem experiências antes impossíveis, renderizem mundos imersivos com gráficos foto-realistas e ofereçam aos jogadores títulos melhores, mais realistas e mais divertidos. Alguns dos jogos mais recentes que utilizam essas tecnologias podem ser vistos em nosso artigo sobre jogos com DLSS e RTX.

O dobro do desempenho da geração anterior

As placas GeForce RTX 5060 oferecem o dobro do desempenho da geração anterior (RTX 4060) em jogos com DLSS 4 Multi Frame Generation, e um salto ainda maior para quem está atualizando de GPUs mais antigas, como a GeForce GTX 1660 ou RTX 2060.

Confira a comparação entre as RTX 5060 e RTX 4060, 3060 e 2060

Esse avanço permite que os jogadores experimentem níveis superiores de fidelidade gráfica e joguem seus títulos favoritos com controles mais responsivos. Com a RTX 5060, é possível aproveitar seus jogos preferidos a mais de 100 quadros por segundo.

Tecnologia de ponta da série GeForce RTX 50

As placas GeForce RTX 5060 contam com as mesmas inovações de hardware do restante da série RTX 50, incluindo:

  • Núcleos de shader, Tensor Cores e Ray Tracing Cores de última geração
  • Memória GDDR7 ultrarrápida para a melhor experiência em jogos
  • Codificação e decodificação de vídeo mais rápidas, com hardware líder do mercado
  • Suporte a monitores DisplayPort 2.1 UHBR20

Mais de 125 jogos e apps com DLSS 4 Multi Frame Generation

O DLSS 4 com Multi Frame Generation gera até três quadros adicionais para cada quadro renderizado tradicionalmente, trabalhando em conjunto com todas as tecnologias DLSS para multiplicar o desempenho em relação à renderização convencional. Esse ganho massivo de performance nas GPUs da série RTX 50 permite jogar com gráficos no máximo e taxas de quadros incríveis.

Lançado no final de janeiro, o DLSS 4 com Multi Frame Generation já está disponível em mais de 125 jogos e aplicativos — número que cresce semanalmente. Para ver a lista completa, acesse nosso artigo sobre jogos e apps com RTX.

Além disso, em mais de 220 jogos, é possível ativar o DLSS Super Resolution, nosso modelo de IA que melhora a qualidade de imagem.

Driver Game Ready para a RTX 5060 já disponível

O mais recente Game Ready Driver é essencial para quem adquiriu a nova GeForce RTX 5060 e inclui suporte otimizado para novos jogos, muitos deles com tecnologias DLSS e RTX.

Baixe e instale o driver pela aba Drivers do NVIDIA App ou em GeForce.com após instalar sua nova placa para aproveitar todo seu desempenho e recursos.

A GeForce RTX 5060 já está no mercado

Com o lançamento da família GeForce RTX 5060, tecnologias como DLSS 4 Multi Frame Generation, renderização neural e inovações da arquitetura Blackwell chegam a todos os jogadores. Obtenha as taxas de quadros mais altas já vistas em uma placa da classe 60, experimente gráficos com ray tracing imersivo, melhore a qualidade de imagem com modelos de IA do DLSS, torne os controles mais responsivos com NVIDIA Reflex e muito mais.

Modelos com clock padrão e overclock de fábrica já estão disponíveis nos principais fabricantes, como ASUS, Colorful, Gainward, Galaxy, GIGABYTE, INNO3D, MSI, Palit, PNY e ZOTAC, além de integradores de sistemas. Acesse o NVIDIA Marketplace Product Finder para encontrar placas de vídeo e PCs com RTX 5060 à venda em toda a web.

*Texto traduzido e adaptado do texto escrito e publicado por Andrew Burnes em 19 de maio de 2025.

** Link para o texto original: https://www.nvidia.com/en-us/geforce/news/rtx-5060-out-now/

Liberte Todo o Potencial da GPU: Sobreponha Comunicação e Computação com Triton-Distributed
Liberte Todo o Potencial da GPU: Sobreponha Comunicação e Computação com Triton-Distributed

Na computação distribuída, cargas de trabalho de IA exigem alto paralelismo e movimentação eficiente de dados. Um dos principais desafios é sobrepor eficientemente a computação com a comunicação para maximizar o desempenho. As GPUs são excelentes em processar cálculos, mas seu potencial muitas vezes não é totalmente aproveitado devido ao tempo relativamente longo de comunicação entre GPUs. Isso faz com que suas unidades de computação fiquem ociosas por longos períodos enquanto aguardam outras transferências de dados. Neste texto, mostraremos como você pode usar o framework Triton-Distributed para gerar kernels que sobrepõem modelos de comunicação, resultando em desempenho comparável a bibliotecas altamente otimizadas.

O que é o Triton-Distributed Compiler?

O Triton-Distributed é uma extensão inovadora do framework OpenAI Triton que permite a execução simultânea de computação e transferência de dados entre GPUs. Seu objetivo é transformar a forma como os desenvolvedores lidam com o equilíbrio entre desempenho e a sobrecarga de latência induzida pelo compilador. O Triton-Distributed capacita os desenvolvedores a escrever kernels que otimizam automaticamente tanto os cálculos locais quanto os padrões de comunicação entre dispositivos. Por exemplo, um único kernel do Triton-Distributed pode ajustar dinamicamente os padrões de acesso à memória para ocultar latência durante operações como all-reduce. 

O Triton-Distributed Compiler herda os pontos fortes do OpenAI Triton, um compilador conhecido por simplificar a programação de GPUs. Em CUDA/HIP, a criação de kernels otimizados exige profundo conhecimento em microarquitetura de hardware e programação de baixo nível, o que demanda ajustes manuais complexos (propensos a erros e demorados) ou o uso de bibliotecas rígidas que limitam a flexibilidade. O Triton muda essa equação, oferecendo um nível mais alto de abstração enquanto mantém flexibilidade, eficiência e produtividade. 

Ao encapsular otimizações complexas, como gerenciamento de memória compartilhada, uso de núcleos de tensor/matriz e paralelismo em nível de warp, em passes de compilação reutilizáveis, o Triton-Distributed permite que os desenvolvedores se concentrem na inovação algorítmica em vez de detalhes arquitetônicos de baixo nível. Imagine escrever um kernel de multiplicação de matrizes uma vez e alcançar desempenho comparável a bibliotecas altamente ajustadas para várias configurações de entrada em múltiplos nós de GPU. 

O Triton-Distributed visa oferecer: 

Kernels eficientes comparáveis a bibliotecas altamente otimizadas, como Distributed-GEMM, cuBLASMp e FLUX. 

Abstrações de alto nível e um design focado em produtividade, tornando a portabilidade de desempenho acessível a um público mais amplo. 

A abstração da complexidade da programação distribuída em GPUs em uma compilação acessível e extensível. 

Vamos explorar como começar com o Triton-Distributed.

Começando com o Triton-Distributed

A seguir estão os passos para instalar e usar o Triton-Distributed em GPUs AMD.

Passo 1. Instale o Triton-Distributed a partir do código-fonte: 
Consulte o Guia de Compilação para melhores práticas na compilação e configuração do TritonDistributed para GPUs AMD.

Passo 2. Como usar o Triton-Distributed:
O Triton-Distributed fornece um conjunto de primitivas de fácil uso para desenvolver kernels que sobrepõem computação e comunicação. Todas as primitivas são expostas por [triton.distributed.language], que são recursos adicionais que complementam os principais recursos do Triton, mantendo sua composição sem modificar o núcleo. 

As primitivas são divididas em conjuntos de baixo e alto nível. Enquanto as primitivas de alto nível (descritas no artigo MLSys 2025) serão lançadas no futuro, a versão atual inclui as seguintes primitivas 
de baixo nível:

Primitivas de Baixo Nível – Consulta de Contexto 

  •  rank(axis=-1, _builder=None)
  •  num_ranks(axis=-1, _builder=None)
  •  symm_at(ptr, rank, _builder=None)

Primitivas de Baixo Nível – Controle de Sinal

  • wait(barrierPtrs, numBarriers, scope: str, semantic: str, 
    _builder=None)
  • consume_token(value, token, _builder=None)
  • notify(ptr, rank, signal=1, sig_op="set", comm_scope="inter_node", 
    _builder=None)

Os usuários podem combinar a parte de comunicação com a parte de computação para projetar kernels sobrepostos. 

Teste e Reproduza o Desempenho com Triton-Distributed em AMD CDNA3

Abaixo está o script para testar e reproduzir o desempenho do ReduceScatter GEMM em um único nó:

#!/bin/bash   
set -e   
SHAPES=(   
    "8192 4096 12288"   
    "8192 4096 14336"   
    "8192 3584 14336"   
    "8192 4608 36864"   
    "8192 8192 28672"   
    "8192 8192 30720"   
)   
for shape in "${SHAPES[@]}"; do   
    read -r m n k <<< "$shape"   
    echo "Testing GEMM_RS shape: m=$m, n=$n, k=$k"   
    bash ./third_party/distributed/launch_amd.sh 
./third_party/distributed/distributed/test/amd/test_gemm_rs_intra 
_node.py ${m} ${n} ${k} --warmup 5 --iters 20   
done  

A Figura 1 abaixo mostra o aumento de desempenho ao usar o Triton-Distributed em comparação com RocmBlas+RCCL. Nos casos ajustados, observamos uma melhoria de 30% com essa abordagem. 

AllGather GEMM em Nó Único

Abaixo está o script para testar e reproduzir o desempenho do AllGather GEMM em um único nó: 

set -e   
SHAPES=(   
    "8192 4096 12288"   
    "8192 4096 14336"   
    "8192 3584 14336"   
    "8192 4608 36864"   
    "8192 8192 28672"   
    "8192 8192 30720"   
)   
for shape in "${SHAPES[@]}"; do   
    read -r m n k <<< "$shape"   
    echo "Testing AG_GEMM shape: m=$m, n=$n, k=$k"   
    bash ./third_party/distributed/launch_amd.sh 
./third_party/distributed/distributed/test/amd/test_ag_gemm_intra_node.py 
${m} ${n} ${k} --warmup 5 --iters 20   
done  

A Figura 2 abaixo mostra o aumento de desempenho ao usar o Triton-Distributed em comparação com 
RocmBlas+RCCL. Nos casos ajustados, observamos uma melhoria de 30-40% com essa abordagem. 

Resumo

O Triton-Distributed é um compilador baseado no framework Triton da OpenAI e representa um avanço na computação distribuída em GPUs. Ele aborda um dos maiores desafios em cargas de trabalho de IA: equilibrar eficientemente a computação com a comunicação entre GPUs. Ao permitir a sobreposição de computação e comunicação, o Triton-Distributed possibilita que os kernels continuem processando enquanto os dados são transferidos, maximizando assim a utilização da GPU, reduzindo ciclos ociosos e melhorando o desempenho geral do sistema. 

O Triton-Distributed herda as abstrações de alto nível do Triton, eliminando a necessidade de conhecimento profundo de hardware ou o uso de bibliotecas rígidas. Ele permite a criação de kernels distribuídos portáteis e de alto desempenho—como o Distributed-GEMM—que rivalizam com implementações em CUDA otimizadas manualmente. Ao encapsular otimizações complexas, como gerenciamento de memória compartilhada e paralelismo em nível de warp, em passes de compilação, ele capacita os desenvolvedores a focar no design algorítmico em vez de detalhes de baixo nível. 

Além disso, o Triton-Distributed traz essas capacidades para GPUs AMD, ampliando o acesso e a portabilidade de desempenho entre diferentes plataformas de hardware. Ele oferece uma solução de ponta que permite aos desenvolvedores:

  • Libertar todo o potencial do hardware AMD GPU 
  • Expandir os limites do desempenho distribuído 
  • Acelerar a inovação em sistemas de IA