SoberanIA
CIÊNCIA E PESQUISA

Levantamento inédito sobre os avanços dos LLMs em português brasileiro

LLMs em PT-BR

Quando se pensa em inteligência artificial, os mesmos nomes, das mesmas grandes empresas, ainda dominam a conversa. Porém, fora do universo anglófono, uma nova fronteira está sendo construída; e o Brasil é protagonista dessa transformação.

Em um levantamento inédito, integrantes do time técnico do SoberanIA analisaram a evolução dos Large Language Models (LLMs) desenvolvidos para o português do Brasil entre 2020 e 2025. O estudo identificou 47 modelos, e os classificou de acordo com suas arquiteturas, datasets, desempenho e eficiência energética.

Por que estudar modelos em português?

A maioria dos LLMs atuais é treinada em inglês, o que reforça vieses linguísticos e culturais e limita sua compreensão de contextos locais. Pesquisas apontam que mesmo modelos globais apresentam desempenho inferior em tarefas multilíngues, revelando o desequilíbrio entre idiomas na era da IA.

O levantamento mostra como o Brasil vem reduzindo essa lacuna, produzindo modelos que compreendem as particularidades do português, em um movimento que alia ciência, tecnologia e identidade cultural, além de fortalecer a presença do país no cenário internacional da IA.

Uma linha do tempo da inovação nacional

O estudo organiza a evolução dos modelos brasileiros em cinco fases, revelando a maturidade de uma comunidade científica que, em poucos anos, passou de adaptações de modelos estrangeiros para criações totalmente nacionais.

Entre os marcos mais significativos estão:

  • 2020–2021: consolidação de modelos baseados em BERT e T5, adaptados ao português.
  • 2022–2023: surgimento de modelos de domínio específico, como PetroBERT (petróleo e gás) e LegalBERT-pt (jurídico).
  • 2024–2025: avanço de arquiteturas mais leves e abertas, com foco em eficiência energética e aplicabilidade real.

Essa cronologia demonstra que a IA em português já é uma realidade científica sólida, com impactos diretos sobre a indústria, a pesquisa e os serviços públicos.

Algumas revelações sobre o futuro da IA brasileira

Com base nas descobertas do estudo, o cenário de pesquisa em LLMs brasileiros traz cinco grandes revelações:

1. Os modelos globais não entendem o Brasil. Mesmo os mais avançados perdem precisão quando aplicados a contextos em português, reforçando a necessidade de desenvolvimento de tecnologia local.

2. A especialização vence o tamanho. Modelos menores, treinados em domínios específicos (jurídico, médico ou financeiro), superam os gigantes multilíngues em desempenho prático.

3. A IA vai muito além dos chatbots. Grande parte dos avanços ocorre em modelos “encoder”, voltados à compreensão de texto, que são fundamentais para automação pública, análise de documentos e atendimento digital.

4. A sustentabilidade entrou em pauta. O custo ambiental do treinamento de IA se tornou um fator estratégico, impulsionando pesquisas em arquiteturas mais eficientes.

5. Uma revolução descentralizada está em curso. Em vez de concentrar esforços em poucas big techs, o Brasil vive uma explosão de iniciativas acadêmicas e open source, em um movimento genuinamente de baixo para cima, que democratiza o acesso à IA.

O Brasil como laboratório vivo de IA

Ao descrever esse ecossistema, o estudo evidencia algo essencial: a pesquisa em LLMs no Brasil não é apenas técnica; é também cultural, social e estratégica. Cada modelo representa uma tentativa de capturar as múltiplas formas de expressão do português, seus regionalismos, gírias e contextos sociais.

O ecossistema de LLMs em português do Brasil simboliza um avanço histórico rumo à consolidação de uma IA ética, eficiente e culturalmente consciente. E para além de acompanhar o ritmo do mundo, o Brasil está ajudando a definir o futuro da IA.

Essas inovações reforçam a tese central do SoberanIA: a soberania digital passa pela linguagem. Sem compreender a língua do país, uma IA jamais poderá compreender sua sociedade.

INTRODUÇÃO AO ESTUDO
MICHEL GERAISSATE, COORDENADOR DE CONTEÚDOS DIGITAIS DO PROJETO SOBERANIA
FICHA TÉCNICA DO ARTIGO CIENTÍFICO
TÍTULO
Large Languages Models in Brazilian Portuguese: A Chronological Survey
AUTORES
MARCELLUS AMADEUS, DIRETOR TÉCNICO E CONSELHEIRO DO PROJETO SOBERANIA
WILLIAN CASTAÑEDA, PESQUISADOR LÍDER DO PROJETO SOBERANIA
ANO
2025
PUBLICAÇÃO
SBC Open Lib
CIÊNCIA E PESQUISA

Confira a seguir outros estudos de colaboradores e colaboradoras do SoberanIA

LARGE LANGUAGE MODELS

A ilusão de rigor de LLMs, quando a sofisticação esconde fragilidades

Falhas metodológicas que geram riscos para a produção científica e para a governança internacional de inteligência artificial

DATASETS EM PT-BR

Jabuticaba: um marco da inovação em inteligência artificial em português

A dimensão do dataset e sua importância como infraestrutura estratégica para o desenvolvimento de modelos de linguagem