Contexto
O SABIA foi uma iniciativa estratégica de P&D para o Tribunal Superior do Trabalho. O trabalho esteve ligado à evolução da plataforma Bem-Te-Vi, com foco em melhorar análise de jurisprudência e clusterização de processos, além de testar como padrões de aprendizado contínuo poderiam se encaixar em um contexto institucional jurídico.
Não se tratava de um exercício simples de treino de modelo. O projeto investigou se técnicas de NLP em nível de pesquisa poderiam virar base confiável para ferramentas do domínio jurídico que precisavam permanecer tecnicamente robustas e juridicamente relevantes ao longo do tempo.
Meu papel
- Atuei como Líder de Time de Pesquisa em IA dentro da iniciativa.
- Liderei uma célula interna de pesquisa em IA em delegação de tarefas, desenho metodológico e qualidade técnica.
- Conectei experimentação, restrições do domínio jurídico e documentação técnica para manter a pesquisa útil para a instituição.
Problema
O tribunal precisava de melhores formas de explorar grandes volumes de texto jurídico e agrupar processos relacionados sem reduzir o problema a rotulagem simplista. Ao mesmo tempo, a plataforma precisava de caminho para evolução contínua, em vez de um modelo estático que envelheceria rapidamente conforme as necessidades mudassem.
Isso criou um desafio em duas frentes:
- construir pipelines de NLP não supervisionado para revelar estrutura útil em texto judicial
- explorar como feedback de usuários poderia, no futuro, compor um ciclo de aprendizado de vida longa
Arquitetura
O trabalho combinou stack de pesquisa com tratamento de dados orientado à entrega:
- pipelines ETL com Pandas e NumPy para preparação de dados judiciais
- fluxos de pré-processamento, extração de atributos e análise de texto jurídico
- experimentos de NLP não supervisionado com Transformers, scikit-learn e spaCy
- clusterização e análise exploratória para descoberta de agrupamentos em jurisprudência e processos
- suporte de visualização para interpretação técnica e discussão com stakeholders
- loop LLML experimental desenhado para futuras atualizações guiadas por feedback
A decisão arquitetural central foi tratar a camada de pesquisa como algo inspecionável, documentado e reutilizável, não como experimentos isolados sem caminho de continuidade.
Desafios
- Texto jurídico contém padrões sutis, ambíguos e altamente dependentes de interpretação de domínio.
- Saídas não supervisionadas só são úteis quando o time consegue explicar significado e limites.
- Ideias de aprendizado contínuo em IA pública exigem fronteiras experimentais claras antes de influenciar sistemas operacionais.
Solução
Organizei o trabalho em torno de um pipeline de pesquisa capaz de sair de dados judiciais brutos para saídas de clusterização interpretáveis, com estrutura suficiente para revisão técnica e discussão jurídica. Isso incluiu ETL, extração de atributos, modelagem exploratória e documentação disciplinada para sustentar relatório técnico-científico.
Em paralelo, co-desenhei um conceito de LLML que levasse a sério feedback futuro de usuários sem assumir, de forma prematura, adaptação automática em produção. Assim, o trabalho permaneceu ambicioso e tecnicamente responsável.
Impacto
- Entrega de pipelines de NLP não supervisionado que viabilizaram clusterização e exploração de dados de processos jurídicos.
- Iniciação e validação de fluxo protótipo LLML para adaptação futura baseada em feedback de usuários.
- Contribuição para manter resultados de pesquisa tecnicamente consistentes e juridicamente relevantes por colaboração próxima com especialistas de domínio.