Pesquisa LLML no SABIA Bem-Te-Vi

Contexto

O SABIA foi uma iniciativa estratégica de P&D para o Tribunal Superior do Trabalho. O trabalho esteve ligado à evolução da plataforma Bem-Te-Vi, com foco em melhorar análise de jurisprudência e clusterização de processos, além de testar como padrões de aprendizado contínuo poderiam se encaixar em um contexto institucional jurídico.

Não se tratava de um exercício simples de treino de modelo. O projeto investigou se técnicas de NLP em nível de pesquisa poderiam virar base confiável para ferramentas do domínio jurídico que precisavam permanecer tecnicamente robustas e juridicamente relevantes ao longo do tempo.

Meu papel

Atuei como Líder de Time de Pesquisa em IA dentro da iniciativa.
Liderei uma célula interna de pesquisa em IA em delegação de tarefas, desenho metodológico e qualidade técnica.
Conectei experimentação, restrições do domínio jurídico e documentação técnica para manter a pesquisa útil para a instituição.

Problema

O tribunal precisava de melhores formas de explorar grandes volumes de texto jurídico e agrupar processos relacionados sem reduzir o problema a rotulagem simplista. Ao mesmo tempo, a plataforma precisava de caminho para evolução contínua, em vez de um modelo estático que envelheceria rapidamente conforme as necessidades mudassem.

Isso criou um desafio em duas frentes:

construir pipelines de NLP não supervisionado para revelar estrutura útil em texto judicial
explorar como feedback de usuários poderia, no futuro, compor um ciclo de aprendizado de vida longa

Arquitetura

O trabalho combinou stack de pesquisa com tratamento de dados orientado à entrega:

pipelines ETL com Pandas e NumPy para preparação de dados judiciais
fluxos de pré-processamento, extração de atributos e análise de texto jurídico
experimentos de NLP não supervisionado com Transformers, scikit-learn e spaCy
clusterização e análise exploratória para descoberta de agrupamentos em jurisprudência e processos
suporte de visualização para interpretação técnica e discussão com stakeholders
loop LLML experimental desenhado para futuras atualizações guiadas por feedback

A decisão arquitetural central foi tratar a camada de pesquisa como algo inspecionável, documentado e reutilizável, não como experimentos isolados sem caminho de continuidade.

Desafios

Texto jurídico contém padrões sutis, ambíguos e altamente dependentes de interpretação de domínio.
Saídas não supervisionadas só são úteis quando o time consegue explicar significado e limites.
Ideias de aprendizado contínuo em IA pública exigem fronteiras experimentais claras antes de influenciar sistemas operacionais.

Solução

Organizei o trabalho em torno de um pipeline de pesquisa capaz de sair de dados judiciais brutos para saídas de clusterização interpretáveis, com estrutura suficiente para revisão técnica e discussão jurídica. Isso incluiu ETL, extração de atributos, modelagem exploratória e documentação disciplinada para sustentar relatório técnico-científico.

Em paralelo, co-desenhei um conceito de LLML que levasse a sério feedback futuro de usuários sem assumir, de forma prematura, adaptação automática em produção. Assim, o trabalho permaneceu ambicioso e tecnicamente responsável.

Impacto

Entrega de pipelines de NLP não supervisionado que viabilizaram clusterização e exploração de dados de processos jurídicos.
Iniciação e validação de fluxo protótipo LLML para adaptação futura baseada em feedback de usuários.
Contribuição para manter resultados de pesquisa tecnicamente consistentes e juridicamente relevantes por colaboração próxima com especialistas de domínio.