Contexto
O PEDRO, Plataforma de Extração e Descoberta de Precedentes dos Tribunais, foi uma iniciativa nacional de IA desenvolvida com CNJ e PNUD para sistematizar e disponibilizar precedentes qualificados do STJ e STF.
O trabalho exigia mais que experimentação de NLP. Dependia de transformar regras de qualificação jurídica, ambiguidade de domínio e necessidades de integração institucional em um sistema técnico utilizável, com governança e credibilidade jurídica.
Meu papel
- Atuei como Cientista de Dados na iniciativa, com liderança técnica em time multidisciplinar.
- Levantei requisitos com stakeholders jurídicos e de negócio para definir regras de qualificação de precedentes e objetivos da plataforma.
- Desenvolvi APIs RESTful em Python e FastAPI para expor funcionalidades de IA e integrar aos sistemas do CNJ.
- Desenhei fluxos de aprendizado não supervisionado para clusterização e descoberta de padrões em decisões judiciais.
Problema
Descoberta de precedentes é difícil porque relevância jurídica não é uma tarefa simples de palavra-chave. O time precisava de uma forma de agrupar decisões, identificar padrões semânticos e expor essa inteligência por sistemas institucionais utilizados pelo CNJ.
O problema também era organizacional. Especialistas jurídicos precisavam de saídas defensáveis e alinhadas a regras jurisprudenciais, enquanto engenharia precisava de um fluxo rastreável, versionável e evolutivo.
Arquitetura
A plataforma combinou várias camadas:
- ingestão e pré-processamento de corpus de decisões judiciais
- pipelines de modelagem de tópicos e similaridade semântica para agrupamento de precedentes
- rastreamento de experimentos e versionamento de dados para reprodutibilidade
- serviços FastAPI para integração institucional
- ciclos compartilhados de revisão entre stakeholders jurídicos e time técnico
- análise exploratória e validação de corpus para manter o dataset jurídico utilizável
A principal decisão de desenho foi manter experimentação com governança. Isso facilitou a transição de NLP exploratório para saídas com uso institucional real, evitando virar artefato de pesquisa desconectado da operação do CNJ.
Desafios
- Categorias jurídicas são sutis e frequentemente dependem de interpretação de domínio.
- Sistemas de descoberta precisam destacar padrões úteis sem superestimar confiança.
- Entrega cross-functional só é crível quando equipes jurídicas e técnicas se alinham sobre o significado das saídas.
- Projetos institucionais de escala nacional exigem governança mais rigorosa do que um protótipo comum de P&D.
Solução
Estruturei o sistema com uma combinação de NLP não supervisionado, agrupamento semântico e APIs prontas para integração. Isso tornou o trabalho útil em dois níveis: analistas podiam explorar agrupamentos de precedentes e o time técnico conseguia manter experimentos reproduzíveis, auditáveis e governáveis.
Outra decisão central foi trabalhar de forma próxima com stakeholders jurídicos e de negócio durante definição e iteração. Isso evitou desvio para saídas tecnicamente interessantes, mas operacionalmente irrelevantes.
Impacto
- Identificação de mais de 30 categorias de precedentes por fluxos de descoberta semântica.
- Expansão da capacidade analítica do CNJ com integração de saídas de IA aos sistemas de dados judiciais.
- Fortalecimento da ponte entre equipes jurídica e técnica para alinhar a plataforma às regras jurisprudenciais, em vez de mantê-la como protótipo isolado.
Links úteis