Pular para o conteúdo
NVIDIA RTX 5090 supera AMD e Apple rodando modelos locais de linguagem da OpenAI
Computação
nvidia
rtx
5090
supera
amd
apple

NVIDIA RTX 5090 supera AMD e Apple rodando modelos locais de linguagem da OpenAI

Publicado em 20 de outubro de 2025 às 15:58

2 min de leitura

O Llama.cpp publicou seus próprios testes do gpt-oss-20b, mostrando que a GeForce RTX 5090 liderou com impressionantes 282 tok/s. Isso em comparação com o Mac M3 Ultra (116 tok/s) e o AMD 7900 XTX (102 tok/s).

Isso acontece porque a GeForce RTX 5090 inclui Tensor Cores integrados, projetados para acelerar tarefas de IA, maximizando o desempenho ao executar gpt-oss-20b localmente.

A medida “tok/s”, ou tokens por segundo, mede tokens, um pedaço de texto que o modelo lê ou gera em uma única etapa, e a rapidez com que eles podem ser processados.

Créditos: Github.

O Llama.cpp é um framework de código aberto que permite executar LLMs (Large Language Models) com ótimo desempenho. E a execução é especialmente boa em GPUs RTX graças às otimizações feitas em colaboração com a NVIDIA.

Para entusiastas de IA que desejam apenas usar LLMs locais com essas otimizações da NVIDIA, pode-se considerar o uso do aplicativo LM Studio, desenvolvido sobre o Llama.cpp. O programa adiciona suporte para RAG (geração aumentada por recuperação) e foi projetado para facilitar a execução e a experimentação com LLMs.

A principal vantagem é que ele retira a necessidade de lidar com ferramentas de linha de comando ou configurações técnicas complexas.

Notícias Relacionadas:

• Microsoft planeja Windows guiado pelo Copilot e baseado em conversas

• Tá de wallhack na vida real: novo capacete EagleEye traz realidade mista com selo do criador do Oculus

• Investimentos em IA vão dificultar acesso de consumidores a hardwares, alerta ADATA

Créditos: LM Studio.

Desenvolvedores e criadores que buscam maior controle e privacidade no uso de IA estão recorrendo a modelos executados localmente, como a nova família de modelos gpt-oss da OpenAI. Eles são leves e incrivelmente funcionais em hardware de usuário doméstico.

Isso significa que é possível executá-los em GPUs com apenas 16 GB de memória. Ou seja, é possível usar ampla gama de hardware, com as GPUs NVIDIA emergindo como a melhor maneira de executar esses tipos de modelos.

Fonte: Adrenaline

Leia também