TST

Pesquisa LLML no SABIA Bem-Te-Vi

Trabalho estratégico de P&D para o Tribunal Superior do Trabalho focado em evoluir a plataforma Bem-Te-Vi com NLP não supervisionado, fluxos de clusterização e padrões de Long Life Machine Learning para adaptação contínua.

Líder de Time de Pesquisa em IA · mai 2023 - mai 2024

Stack

  • Python
  • SQL
  • Transformers
  • scikit-learn
  • Gensim
  • spaCy
  • NLTK
  • Pandas
  • NumPy
  • Matplotlib
  • LLML

Impacto principal

Introduziu NLP não supervisionado e um loop inicial de Long Life Machine Learning para apoiar análise de jurisprudência, clusterização de processos e futura adaptação orientada por feedback dentro da plataforma Bem-Te-Vi.

Resultados

  • Pipelines funcionais de NLP não supervisionado entregues para clusterização e exploração de dados jurídicos
  • Fluxo protótipo de LLML validado para apoiar futuras atualizações orientadas por feedback
  • Colaboração fortalecida entre pesquisa em IA e stakeholders do domínio jurídico

Contexto

O SABIA foi uma iniciativa estratégica de P&D para o Tribunal Superior do Trabalho. O trabalho esteve ligado à evolução da plataforma Bem-Te-Vi, com foco em melhorar análise de jurisprudência e clusterização de processos, além de testar como padrões de aprendizado contínuo poderiam se encaixar em um contexto institucional jurídico.

Não se tratava de um exercício simples de treino de modelo. O projeto investigou se técnicas de NLP em nível de pesquisa poderiam virar base confiável para ferramentas do domínio jurídico que precisavam permanecer tecnicamente robustas e juridicamente relevantes ao longo do tempo.

Meu papel

  • Atuei como Líder de Time de Pesquisa em IA dentro da iniciativa.
  • Liderei uma célula interna de pesquisa em IA em delegação de tarefas, desenho metodológico e qualidade técnica.
  • Conectei experimentação, restrições do domínio jurídico e documentação técnica para manter a pesquisa útil para a instituição.

Problema

O tribunal precisava de melhores formas de explorar grandes volumes de texto jurídico e agrupar processos relacionados sem reduzir o problema a rotulagem simplista. Ao mesmo tempo, a plataforma precisava de caminho para evolução contínua, em vez de um modelo estático que envelheceria rapidamente conforme as necessidades mudassem.

Isso criou um desafio em duas frentes:

  • construir pipelines de NLP não supervisionado para revelar estrutura útil em texto judicial
  • explorar como feedback de usuários poderia, no futuro, compor um ciclo de aprendizado de vida longa

Arquitetura

O trabalho combinou stack de pesquisa com tratamento de dados orientado à entrega:

  • pipelines ETL com Pandas e NumPy para preparação de dados judiciais
  • fluxos de pré-processamento, extração de atributos e análise de texto jurídico
  • experimentos de NLP não supervisionado com Transformers, scikit-learn e spaCy
  • clusterização e análise exploratória para descoberta de agrupamentos em jurisprudência e processos
  • suporte de visualização para interpretação técnica e discussão com stakeholders
  • loop LLML experimental desenhado para futuras atualizações guiadas por feedback

A decisão arquitetural central foi tratar a camada de pesquisa como algo inspecionável, documentado e reutilizável, não como experimentos isolados sem caminho de continuidade.

Desafios

  • Texto jurídico contém padrões sutis, ambíguos e altamente dependentes de interpretação de domínio.
  • Saídas não supervisionadas só são úteis quando o time consegue explicar significado e limites.
  • Ideias de aprendizado contínuo em IA pública exigem fronteiras experimentais claras antes de influenciar sistemas operacionais.

Solução

Organizei o trabalho em torno de um pipeline de pesquisa capaz de sair de dados judiciais brutos para saídas de clusterização interpretáveis, com estrutura suficiente para revisão técnica e discussão jurídica. Isso incluiu ETL, extração de atributos, modelagem exploratória e documentação disciplinada para sustentar relatório técnico-científico.

Em paralelo, co-desenhei um conceito de LLML que levasse a sério feedback futuro de usuários sem assumir, de forma prematura, adaptação automática em produção. Assim, o trabalho permaneceu ambicioso e tecnicamente responsável.

Impacto

  • Entrega de pipelines de NLP não supervisionado que viabilizaram clusterização e exploração de dados de processos jurídicos.
  • Iniciação e validação de fluxo protótipo LLML para adaptação futura baseada em feedback de usuários.
  • Contribuição para manter resultados de pesquisa tecnicamente consistentes e juridicamente relevantes por colaboração próxima com especialistas de domínio.

Next step

Quer ver o contexto completo por trás deste trabalho?

A página sobre mim conecta estes estudos de caso ao restante da minha trajetória em tribunais, órgãos públicos e sistemas aplicados de IA.