PGDF

Fluxos de IA Jurídico-Fiscal no OSIRIS

Entrega de IA para operações jurídico-fiscais da PGDF, cobrindo APIs em produção, modelos supervisionados e semissupervisionados, active learning e exploração inicial de LLMs em fluxos institucionais intensivos em documentos.

Cientista de Dados · mai 2023 - mai 2024

Stack

  • Python
  • SQL
  • FastAPI
  • Pytest
  • scikit-learn
  • XGBoost
  • LightGBM
  • DVC
  • MLflow
  • spaCy
  • Hugging Face Transformers
  • LangChain
  • Pandas
  • NumPy
  • Docker

Impacto principal

Introduziu fluxos de ML com governança e APIs de produção nas operações jurídico-fiscais, além de desenhar caminhos de active learning para adaptação contínua dos modelos.

Resultados

  • APIs em produção conectaram saídas dos modelos aos sistemas internos da PGDF
  • Loop de active learning desenhado para reduzir drift de modelo ao longo do tempo
  • Exploração de LLM abriu caminhos para fluxos futuros em textos fiscais

Contexto

O OSIRIS foi uma iniciativa de pesquisa e desenvolvimento para apoiar a PGDF em fluxos de execução jurídico-fiscal. O objetivo era automatizar etapas internas, melhorar eficiência e explorar onde machine learning e LLMs poderiam reduzir trabalho repetitivo em processos institucionais com grande volume documental.

Meu papel

  • Atuei como Cientista de Dados na iniciativa, traduzindo requisitos de negócio em escopo técnico.
  • Desenvolvi APIs RESTful em Python e FastAPI para conectar saídas de modelos aos sistemas da PGDF.
  • Construi e avaliei modelos supervisionados, não supervisionados e semissupervisionados para classificação fiscal e otimização de processos.
  • Desenhei fluxos de active learning e experimentação para evolução contínua dos modelos.

Problema

Operações jurídico-fiscais combinam texto complexo, procedimentos em mudança e sistemas institucionais que não toleram automação frágil. O time precisava de ML que melhorasse o fluxo interno sem virar uma ilha de pesquisa difícil de manter.

Isso exigia entrega prática de modelo, não apenas experimentação: reprodutibilidade, versionamento de dados, integração e plano para evolução do comportamento do modelo conforme o domínio mudasse.

Arquitetura

O fluxo do OSIRIS foi construído em torno de:

  • pipelines de pré-processamento e engenharia de atributos para dados jurídico-fiscais
  • experimentos supervisionados, não supervisionados e semissupervisionados
  • APIs REST para integração em produção
  • versionamento de dados e experimentos com DVC e MLflow
  • loops de active learning para manter o sistema atualizado
  • fluxos exploratórios com LLM para interpretação de textos fiscais
  • melhoria contínua de pipelines de dados e frameworks de treino

O sistema foi desenhado para sustentar necessidades imediatas de entrega e evolução futura dos modelos.

Desafios

  • Texto jurídico-fiscal muda ao longo do tempo, o que acelera a degradação de modelos estáticos.
  • Adoção em produção depende da qualidade de integração tanto quanto da qualidade do modelo.
  • Exploração de LLM em ambientes institucionais exige limite claro entre experimento útil e rollout prematuro.
  • Fluxos internos jurídico-fiscais precisam de automação explicável e sustentável no tempo.

Solução

Tratei o projeto primeiro como um problema de fluxo de trabalho. A solução combinou entrega de ML com governança, integração por API e desenho de active learning para permitir evolução sem fragilidade operacional.

Em paralelo, avaliei como LLMs poderiam apoiar interpretação de textos fiscais mantendo o trabalho ancorado em restrições reais de implantação. Isso criou uma base mais sólida para expansão futura sem superdimensionar experimentos iniciais.

Impacto

  • Implantação de APIs baseadas em modelos nos sistemas internos da PGDF.
  • Desenho de loop de active learning para melhoria contínua com menor carga de relabeling manual.
  • Abertura de caminhos práticos com LLM para análise jurídico-fiscal mantendo a entrega conectada à realidade operacional.

Next step

Quer ver o contexto completo por trás deste trabalho?

A página sobre mim conecta estes estudos de caso ao restante da minha trajetória em tribunais, órgãos públicos e sistemas aplicados de IA.