Foi adotado um fluxo de processamento no qual cada fase atua como um filtro de qualidade: da identificação do idioma à remoção de toxicidade, da normalização ao controle de duplicidade. Esse processo assegura que os textos utilizados representem de forma fiel e responsável a língua portuguesa em toda a sua diversidade.
1. Detecção de idioma - uso de modelos como fasttext e langdetect para garantir que apenas textos em português fossem mantidos.
2. Filtragem de conteúdo - exclusão de documentos irrelevantes, duplicados ou com material inadequado, incluindo páginas de baixa qualidade ou domínios com conteúdo explícito.
3. Controle de qualidade - métricas estatísticas e heurísticas eliminaram textos incoerentes, placeholders e repetições excessivas, evitando ruído nos dados.
3. Redução de toxicidade - aplicação do modelo detoxify para remover passagens com linguagem nociva ou discriminatória.
4. Normalização - padronização dos textos para corrigir problemas de codificação, eliminar redundâncias e preparar os dados para tokenização eficiente.
5. Deduplicação avançada - técnicas como ExactSubstr e MinHash asseguraram a eliminação de documentos redundantes ou muito similares, prevenindo o overfitting.
6. Tokenização - segmentação do texto bruto em sequências de tokens individuais.
Pensado exclusivamente para refletir as nuances do português falado no Brasil, ele traz mais precisão, melhor desempenho em tarefas específicas e maior adequação ao contexto cultural brasileiro.
Escala: superando os dados em português do CulturaX, posiciona-se como uma das maiores bases de dados do mundo nessa língua.
Qualidade garantida: cada etapa do pipeline seguiu critérios técnicos rigorosos, garantindo solidez e precisão ao dataset.
Uso autorizado: com uma licença revisada juridicamente, permite aplicações em ambientes comerciais e institucionais.
O resultado é um dataset que não apenas rivaliza com os melhores do mundo, mas que os supera em representatividade para o português do Brasil.
O Jabuticaba é um marco para a ciência brasileira e tem potencial para transformar diferentes áreas.
Ele oferece à comunidade acadêmica uma base inédita para estudos em Processamento de Linguagem Natural (PNL) e abre espaço para que o setor público desenvolva aplicações em educação, saúde, justiça e atendimento ao cidadão, utilizando modelos que realmente compreendem o português, com dados de alta qualidade e de uso autorizado.
Além disso, o Jabuticaba tem capacidade de democratizar os avanços tecnológicos em regiões de língua portuguesa historicamente menos atendidas, em especial no Brasil, onde o acesso a ferramentas de IA tem sido limitado.
A oferta de um conjunto de dados extenso e diverso, coletado a partir do uso real da língua portuguesa falada no Brasil, pode capacitar desenvolvedores e pesquisadores a criar modelos de linguagem mais inclusivos, que reflitam a rica diversidade linguística e cultural do português.
Um verdadeiro símbolo da capacidade do país de inovar, liderar e afirmar sua soberania na era digital.
Falhas metodológicas que geram riscos para a produção científica e para a governança internacional de inteligência artificial
Assine a newsletter para receber atualizações do projeto que está aplicando tecnologia nacional a serviço da sociedade brasileira.