Plataforma PEDRO de Descoberta de Precedentes

Contexto

O PEDRO, Plataforma de Extração e Descoberta de Precedentes dos Tribunais, foi uma iniciativa nacional de IA desenvolvida com CNJ e PNUD para sistematizar e disponibilizar precedentes qualificados do STJ e STF.

O trabalho exigia mais que experimentação de NLP. Dependia de transformar regras de qualificação jurídica, ambiguidade de domínio e necessidades de integração institucional em um sistema técnico utilizável, com governança e credibilidade jurídica.

Meu papel

Atuei como Cientista de Dados na iniciativa, com liderança técnica em time multidisciplinar.
Levantei requisitos com stakeholders jurídicos e de negócio para definir regras de qualificação de precedentes e objetivos da plataforma.
Desenvolvi APIs RESTful em Python e FastAPI para expor funcionalidades de IA e integrar aos sistemas do CNJ.
Desenhei fluxos de aprendizado não supervisionado para clusterização e descoberta de padrões em decisões judiciais.

Problema

Descoberta de precedentes é difícil porque relevância jurídica não é uma tarefa simples de palavra-chave. O time precisava de uma forma de agrupar decisões, identificar padrões semânticos e expor essa inteligência por sistemas institucionais utilizados pelo CNJ.

O problema também era organizacional. Especialistas jurídicos precisavam de saídas defensáveis e alinhadas a regras jurisprudenciais, enquanto engenharia precisava de um fluxo rastreável, versionável e evolutivo.

Arquitetura

A plataforma combinou várias camadas:

ingestão e pré-processamento de corpus de decisões judiciais
pipelines de modelagem de tópicos e similaridade semântica para agrupamento de precedentes
rastreamento de experimentos e versionamento de dados para reprodutibilidade
serviços FastAPI para integração institucional
ciclos compartilhados de revisão entre stakeholders jurídicos e time técnico
análise exploratória e validação de corpus para manter o dataset jurídico utilizável

A principal decisão de desenho foi manter experimentação com governança. Isso facilitou a transição de NLP exploratório para saídas com uso institucional real, evitando virar artefato de pesquisa desconectado da operação do CNJ.

Desafios

Categorias jurídicas são sutis e frequentemente dependem de interpretação de domínio.
Sistemas de descoberta precisam destacar padrões úteis sem superestimar confiança.
Entrega cross-functional só é crível quando equipes jurídicas e técnicas se alinham sobre o significado das saídas.
Projetos institucionais de escala nacional exigem governança mais rigorosa do que um protótipo comum de P&D.

Solução

Estruturei o sistema com uma combinação de NLP não supervisionado, agrupamento semântico e APIs prontas para integração. Isso tornou o trabalho útil em dois níveis: analistas podiam explorar agrupamentos de precedentes e o time técnico conseguia manter experimentos reproduzíveis, auditáveis e governáveis.

Outra decisão central foi trabalhar de forma próxima com stakeholders jurídicos e de negócio durante definição e iteração. Isso evitou desvio para saídas tecnicamente interessantes, mas operacionalmente irrelevantes.

Impacto

Identificação de mais de 30 categorias de precedentes por fluxos de descoberta semântica.
Expansão da capacidade analítica do CNJ com integração de saídas de IA aos sistemas de dados judiciais.
Fortalecimento da ponte entre equipes jurídica e técnica para alinhar a plataforma às regras jurisprudenciais, em vez de mantê-la como protótipo isolado.