SoberanIA
CIÊNCIA E PESQUISA

Jabuticaba: um marco da inovação em inteligência artificial em português

DATASETS EM PT-BR

O desempenho de modelos de linguagem depende diretamente da qualidade e da escala dos dados em que são treinados. Para o Brasil, isso significa um desafio estratégico: como garantir que a língua, cultura e contexto brasileiros estejam devidamente representados na era da inteligência artificial?

A resposta é o Jabuticaba, um extenso dataset comercial, com mais de 139 bilhões de tokens limpos e desduplicados, distribuídos em 669 GB de dados. Uma base sólida para treinar modelos robustos, éticos e alinhados às leis e necessidades do país.

A engenharia por trás do Jabuticaba

Foi adotado um fluxo de processamento no qual cada fase atua como um filtro de qualidade: da identificação do idioma à remoção de toxicidade, da normalização ao controle de duplicidade. Esse processo assegura que os textos utilizados representem de forma fiel e responsável a língua portuguesa em toda a sua diversidade.

1. Detecção de idioma - uso de modelos como fasttext e langdetect para garantir que apenas textos em português fossem mantidos.

2. Filtragem de conteúdo - exclusão de documentos irrelevantes, duplicados ou com material inadequado, incluindo páginas de baixa qualidade ou domínios com conteúdo explícito.

3. Controle de qualidade - métricas estatísticas e heurísticas eliminaram textos incoerentes, placeholders e repetições excessivas, evitando ruído nos dados.

3. Redução de toxicidade - aplicação do modelo detoxify para remover passagens com linguagem nociva ou discriminatória.

4. Normalização - padronização dos textos para corrigir problemas de codificação, eliminar redundâncias e preparar os dados para tokenização eficiente.

5. Deduplicação avançada - técnicas como ExactSubstr e MinHash asseguraram a eliminação de documentos redundantes ou muito similares, prevenindo o overfitting.

6. Tokenização - segmentação do texto bruto em sequências de tokens individuais.

O que torna o Jabuticaba único

Pensado exclusivamente para refletir as nuances do português falado no Brasil, ele traz mais precisão, melhor desempenho em tarefas específicas e maior adequação ao contexto cultural brasileiro.

Escala: superando os dados em português do CulturaX, posiciona-se como uma das maiores bases de dados do mundo nessa língua.

Qualidade garantida: cada etapa do pipeline seguiu critérios técnicos rigorosos, garantindo solidez e precisão ao dataset.

Uso autorizado: com uma licença revisada juridicamente, permite aplicações em ambientes comerciais e institucionais.

O resultado é um dataset que não apenas rivaliza com os melhores do mundo, mas que os supera em representatividade para o português do Brasil.

Impacto científico, tecnológico e social

O Jabuticaba é um marco para a ciência brasileira e tem potencial para transformar diferentes áreas.

Ele oferece à comunidade acadêmica uma base inédita para estudos em Processamento de Linguagem Natural (PNL) e abre espaço para que o setor público desenvolva aplicações em educação, saúde, justiça e atendimento ao cidadão, utilizando modelos que realmente compreendem o português, com dados de alta qualidade e de uso autorizado.

Além disso, o Jabuticaba tem capacidade de democratizar os avanços tecnológicos em regiões de língua portuguesa historicamente menos atendidas, em especial no Brasil, onde o acesso a ferramentas de IA tem sido limitado.

A oferta de um conjunto de dados extenso e diverso, coletado a partir do uso real da língua portuguesa falada no Brasil, pode capacitar desenvolvedores e pesquisadores a criar modelos de linguagem mais inclusivos, que reflitam a rica diversidade linguística e cultural do português.

Um verdadeiro símbolo da capacidade do país de inovar, liderar e afirmar sua soberania na era digital.

INTRODUÇÃO AO ARTIGO
MICHEL GERAISSATE, COORDENADOR DE CONTEÚDOS DIGITAIS DO PROJETO SOBERANIA
FICHA TÉCNICA DO ARTIGO CIENTÍFICO
TÍTULO
Jabuticaba: The largest commercial corpus for LLMs in Portuguese
AUTORES
MARCELLUS AMADEUS, CONSELHEIRO DO PROJETO SOBERANIA
WILLIAN CASTAÑEDA, PESQUISADOR LÍDER DO PROJETO SOBERANIA
JOSÉ HOMELI, LINGUISTA LÍDER DO PROJETO SOBERANIA
RODRIGO SCOTTI, CONSELHEIRO DO PROJETO SOBERANIA
ANO
2025
PUBLICAÇÃO
SCI ELO PREPRINTS
CIÊNCIA E PESQUISA

Confira outros artigos científicos de colaboradores e colaboradoras do SoberanIA

LARGE LANGUAGE MODELS

A ilusão de rigor de LLMs, quando a sofisticação esconde fragilidades

Falhas metodológicas que geram riscos para a produção científica e para a governança internacional de inteligência artificial

FAÇA PARTE DA REDE

Acompanhe a evolução do SoberanIA

Assine a newsletter para receber atualizações do projeto que está aplicando tecnologia nacional a serviço da sociedade brasileira.

Obrigado! Sua inscrição foi recebida.
Ops! Ocorreu um erro ao enviar o formulário.