Contexto
O OSIRIS foi uma iniciativa de pesquisa e desenvolvimento para apoiar a PGDF em fluxos de execução jurídico-fiscal. O objetivo era automatizar etapas internas, melhorar eficiência e explorar onde machine learning e LLMs poderiam reduzir trabalho repetitivo em processos institucionais com grande volume documental.
Meu papel
- Atuei como Cientista de Dados na iniciativa, traduzindo requisitos de negócio em escopo técnico.
- Desenvolvi APIs RESTful em Python e FastAPI para conectar saídas de modelos aos sistemas da PGDF.
- Construi e avaliei modelos supervisionados, não supervisionados e semissupervisionados para classificação fiscal e otimização de processos.
- Desenhei fluxos de active learning e experimentação para evolução contínua dos modelos.
Problema
Operações jurídico-fiscais combinam texto complexo, procedimentos em mudança e sistemas institucionais que não toleram automação frágil. O time precisava de ML que melhorasse o fluxo interno sem virar uma ilha de pesquisa difícil de manter.
Isso exigia entrega prática de modelo, não apenas experimentação: reprodutibilidade, versionamento de dados, integração e plano para evolução do comportamento do modelo conforme o domínio mudasse.
Arquitetura
O fluxo do OSIRIS foi construído em torno de:
- pipelines de pré-processamento e engenharia de atributos para dados jurídico-fiscais
- experimentos supervisionados, não supervisionados e semissupervisionados
- APIs REST para integração em produção
- versionamento de dados e experimentos com DVC e MLflow
- loops de active learning para manter o sistema atualizado
- fluxos exploratórios com LLM para interpretação de textos fiscais
- melhoria contínua de pipelines de dados e frameworks de treino
O sistema foi desenhado para sustentar necessidades imediatas de entrega e evolução futura dos modelos.
Desafios
- Texto jurídico-fiscal muda ao longo do tempo, o que acelera a degradação de modelos estáticos.
- Adoção em produção depende da qualidade de integração tanto quanto da qualidade do modelo.
- Exploração de LLM em ambientes institucionais exige limite claro entre experimento útil e rollout prematuro.
- Fluxos internos jurídico-fiscais precisam de automação explicável e sustentável no tempo.
Solução
Tratei o projeto primeiro como um problema de fluxo de trabalho. A solução combinou entrega de ML com governança, integração por API e desenho de active learning para permitir evolução sem fragilidade operacional.
Em paralelo, avaliei como LLMs poderiam apoiar interpretação de textos fiscais mantendo o trabalho ancorado em restrições reais de implantação. Isso criou uma base mais sólida para expansão futura sem superdimensionar experimentos iniciais.
Impacto
- Implantação de APIs baseadas em modelos nos sistemas internos da PGDF.
- Desenho de loop de active learning para melhoria contínua com menor carga de relabeling manual.
- Abertura de caminhos práticos com LLM para análise jurídico-fiscal mantendo a entrega conectada à realidade operacional.