CNJ / PNUD

Plataforma PEDRO de Descoberta de Precedentes

Iniciativa nacional de descoberta de precedentes para CNJ e PNUD, combinando serviços FastAPI, NLP não supervisionado, agrupamento semântico e experimentação com governança para sistematizar precedentes qualificados dos tribunais superiores.

Cientista de Dados · jul 2022 - mai 2023

Stack

  • Python
  • SQL
  • FastAPI
  • scikit-learn
  • Gensim
  • NLTK
  • spaCy
  • MLflow
  • DVC
  • SQLAlchemy
  • Pandas
  • Matplotlib

Impacto principal

Viabilizou a descoberta de mais de 30 categorias de precedentes em decisões judiciais extensas.

Resultados

  • Mais de 30 categorias de precedentes identificadas com fluxos semânticos
  • Serviços de IA integrados aos sistemas do CNJ por meio de APIs REST
  • Maior alinhamento entre especialistas jurídicos e entrega técnica

Contexto

O PEDRO, Plataforma de Extração e Descoberta de Precedentes dos Tribunais, foi uma iniciativa nacional de IA desenvolvida com CNJ e PNUD para sistematizar e disponibilizar precedentes qualificados do STJ e STF.

O trabalho exigia mais que experimentação de NLP. Dependia de transformar regras de qualificação jurídica, ambiguidade de domínio e necessidades de integração institucional em um sistema técnico utilizável, com governança e credibilidade jurídica.

Meu papel

  • Atuei como Cientista de Dados na iniciativa, com liderança técnica em time multidisciplinar.
  • Levantei requisitos com stakeholders jurídicos e de negócio para definir regras de qualificação de precedentes e objetivos da plataforma.
  • Desenvolvi APIs RESTful em Python e FastAPI para expor funcionalidades de IA e integrar aos sistemas do CNJ.
  • Desenhei fluxos de aprendizado não supervisionado para clusterização e descoberta de padrões em decisões judiciais.

Problema

Descoberta de precedentes é difícil porque relevância jurídica não é uma tarefa simples de palavra-chave. O time precisava de uma forma de agrupar decisões, identificar padrões semânticos e expor essa inteligência por sistemas institucionais utilizados pelo CNJ.

O problema também era organizacional. Especialistas jurídicos precisavam de saídas defensáveis e alinhadas a regras jurisprudenciais, enquanto engenharia precisava de um fluxo rastreável, versionável e evolutivo.

Arquitetura

A plataforma combinou várias camadas:

  • ingestão e pré-processamento de corpus de decisões judiciais
  • pipelines de modelagem de tópicos e similaridade semântica para agrupamento de precedentes
  • rastreamento de experimentos e versionamento de dados para reprodutibilidade
  • serviços FastAPI para integração institucional
  • ciclos compartilhados de revisão entre stakeholders jurídicos e time técnico
  • análise exploratória e validação de corpus para manter o dataset jurídico utilizável

A principal decisão de desenho foi manter experimentação com governança. Isso facilitou a transição de NLP exploratório para saídas com uso institucional real, evitando virar artefato de pesquisa desconectado da operação do CNJ.

Desafios

  • Categorias jurídicas são sutis e frequentemente dependem de interpretação de domínio.
  • Sistemas de descoberta precisam destacar padrões úteis sem superestimar confiança.
  • Entrega cross-functional só é crível quando equipes jurídicas e técnicas se alinham sobre o significado das saídas.
  • Projetos institucionais de escala nacional exigem governança mais rigorosa do que um protótipo comum de P&D.

Solução

Estruturei o sistema com uma combinação de NLP não supervisionado, agrupamento semântico e APIs prontas para integração. Isso tornou o trabalho útil em dois níveis: analistas podiam explorar agrupamentos de precedentes e o time técnico conseguia manter experimentos reproduzíveis, auditáveis e governáveis.

Outra decisão central foi trabalhar de forma próxima com stakeholders jurídicos e de negócio durante definição e iteração. Isso evitou desvio para saídas tecnicamente interessantes, mas operacionalmente irrelevantes.

Impacto

  • Identificação de mais de 30 categorias de precedentes por fluxos de descoberta semântica.
  • Expansão da capacidade analítica do CNJ com integração de saídas de IA aos sistemas de dados judiciais.
  • Fortalecimento da ponte entre equipes jurídica e técnica para alinhar a plataforma às regras jurisprudenciais, em vez de mantê-la como protótipo isolado.

Conteúdo relacionado

Textos que surgiram do mesmo contexto de entrega.

Conteúdo técnico

Production RAG Systems Need More Than Retrieval Demos

13 de out. de 2025

A production RAG system should be treated as a retrieval and evaluation pipeline with explicit failure modes, not as a prompt wrapper around a vector store.

  • RAG
  • Evaluation
  • Vector Search
  • Production AI
Ler post

Conteúdo técnico

LLM Evaluation in Production Starts With Explicit Failure Modes

2 de jul. de 2025

Evaluation is most useful when it reflects the failures a system can actually produce in production: missing context, wrong retrieval, incorrect tool use, unstable outputs, and unhelpful responses.

  • LLM
  • Evaluation
  • Production AI
  • Quality
Ler post

Next step

Quer ver o contexto completo por trás deste trabalho?

A página sobre mim conecta estes estudos de caso ao restante da minha trajetória em tribunais, órgãos públicos e sistemas aplicados de IA.