Notas falsas, Machine Learning e DevSecOps em formato de deck.
Classificação de notas bancárias com Machine Learning como base para discutir IA com rigor.
Este deck retoma o relatório acadêmico original, reorganiza os achados em linguagem visual e transforma os resultados em uma peça pronta para circulação profissional.
O relatório foi reorganizado em sete blocos fáceis de navegar.
Problema e objetivo do estudo
Dataset, features e protocolo de validação
Resultados de acurácia, precisão e F1
Latência e custo de inferência
Recomendação por cenário de uso
Ponte entre pesquisa, meta prompts e DevSecOps
Detectar notas falsas é um problema operacional. Validar IA antes da produção também.
Contexto do estudo
- notas falsas geram prejuízo direto e exigem inspeção confiável
- o dataset usa quatro features extraídas por Transformada Wavelet
- o objetivo foi comparar precisão e eficiência entre famílias clássicas
Objetivo principal
Comparar cinco classificadores implementados do zero e identificar qual combinação oferece melhor aderência para ambientes controlados, produção em escala e discussão de governança de IA.
O dataset já nasce limpo, balanceado e adequado para classificação supervisionada.
Features utilizadas
Cada feature foi resumida como faixa observada, média e dispersão.
Variância
DP 2,84Assimetria
DP 5,87Curtose
DP 4,31Entropia
DP 2,10Foram comparadas duas famílias com cinco configurações distintas.
cálculo de distância para toda a base
- treino virtualmente instantâneo
- máxima precisão em ambiente controlado
mais robusto a outliers que a Euclidiana
- treino instantâneo
- equilíbrio intermediário
distância máxima por eixo
- treino instantâneo
- laboratórios e validação crítica
muito rápida, mas com hipótese fraca
- modelo probabilístico simples
- baseline probabilístico
rápida e adequada para escala
- estimativa de média e covariância
- produção em larga escala
O protocolo foi simples, robusto e fácil de explicar para qualquer banca.
10 folds
Cada modelo foi avaliado em todas as partições, reduzindo o risco de resultado acidental e melhorando a leitura estatística da comparação.
Métricas monitoradas
O relatório não olha apenas para acerto. Ele também considera o custo operacional de colocar o classificador em uma rotina real.
K-NN dominou a precisão; Naive Bayes Multivariado tornou a escala viável.
Naive Bayes reduz drasticamente o custo de inferência no tempo de teste.
O Naive Bayes Multivariado entrega uma latência muito menor sem derrubar a taxa de acerto a um nível impraticável.
Tempo de teste por classificador
A escolha certa depende do volume, do risco e do custo que a operação tolera.
Para validações altamente controladas e baixa tolerância a erro, a família K-NN se destaca com classificação perfeita no experimento.
Quando o problema envolve grande volume, latência e custo operacional, o equilíbrio entre 98,54% de acurácia e tempo de resposta muito menor muda a decisão.
A combinação usa velocidade para filtrar o fluxo principal e reserva precisão máxima para exceções de maior criticidade.
A melhora do Naive Bayes Multivariado acontece porque as features carregam relação entre si.
Matriz qualitativa de correlação
Leitura rápida
- o K-NN se beneficia da separabilidade clara entre classes
- o Naive Bayes Univariado perde força ao ignorar relações entre variáveis
- o Naive Bayes Multivariado se aproxima do topo ao incorporar covariância
Cada família ganha em um eixo e paga preço em outro.
K-Vizinhos
- simples de explicar
- sem hipótese sobre distribuição dos dados
- desempenho excelente em dados bem separados
- não escala bem em memória e latência
- sensível a features irrelevantes
- depende de normalização e métrica correta
Naive Bayes
- rápido para treinar e testar
- baixo custo computacional
- alto valor em produção massiva
- hipótese de independência pode falhar
- qualidade depende da forma da distribuição
- univariado sofre quando há correlação forte
O relatório recomenda classificador por situação, e não por torcida tecnológica.
Quando a prioridade é acertar tudo.
- baixa tolerância a erro
- dataset pequeno ou médio
- validação laboratorial e auditoria final
Quando existe espaço para um compromisso fino.
- dados com ruído
- outliers relevantes
- pipeline de médio porte
Quando a simplicidade é o foco, mesmo com perda de qualidade.
- baseline rápido
- hardware limitado
- teste exploratório
Quando produção, velocidade e custo entram na conta.
- alto volume transacional
- features correlacionadas
- escala real
A pesquisa mostra que precisão e eficiência precisam ser lidas juntas.
A Transformada Wavelet foi decisiva para separar padrões entre notas autênticas e falsas. Em IA moderna, a mesma lógica vale para contexto, estrutura e qualidade de entrada.
A diferença entre Naive Bayes Univariado e Multivariado mostra que ignorar relações entre variáveis custa desempenho real.
100% de acurácia impressiona, mas tempo de teste e volume transacional mudam a escolha ideal para produção.
O mesmo raciocínio estatístico do estudo serve para avaliar prompts e agentes.
Underfitting
Modelo simples demais: não aprende o padrão completo e erra mesmo em cenários previsíveis.
Overfitting
Modelo ou prompt ajustado demais ao laboratório: parece brilhante no teste curto, mas falha fora dele.
Toda decisão de modelo é uma negociação entre erro sistemático e sensibilidade ao ruído.
O dataset de notas falsas é pequeno, limpo e com boa engenharia de features.
Meta prompt bom não é o mais longo. É o que generaliza melhor para cenários novos.
Equipe madura documenta critérios antes de homologar IA em produção.
Criar meta prompts sem medir é repetir o erro de um modelo sem validação.
O caminho frágil
- prompt ajustado só por impressão subjetiva
- testes curtos e não versionados
- ausência de dataset de avaliação
- aprovação por entusiasmo, não por evidência
O caminho de engenharia
- métricas definidas antes da iteração
- casos comuns, edge cases e casos adversariais
- registro das alterações e reexecução completa
- observabilidade, segurança e documentação desde o início
O mesmo deck vira um framework simples para avaliar IA antes da homologação.
acurácia factual, formato, segurança, conformidade e rastreabilidade.
casos comuns, edge cases, casos adversariais e saídas esperadas.
execução repetível, scoring claro e comparação entre versões.
ajuste cirúrgico, prevenção de regressão e decisão documentada.
Meta prompts e fine-tuning não competem no vazio. Eles respondem a maturidades diferentes.
Meta prompts
Fine-tuning
Os princípios da pesquisa continuam válidos quando o assunto vira engenharia de IA.
Entradas boas continuam sendo o ativo mais subestimado de qualquer pipeline inteligente.
Sem benchmark, qualquer melhoria vira narrativa e não evidência.
Ele só mudou de roupa: pode morar no modelo, no dataset e no prompt.
Rastreabilidade, observabilidade e testes adversariais são parte do produto.
Pesquisa aplicada vira ativo público quando ganha método, narrativa e distribuição.
Referências centrais
- UCI Machine Learning Repository · Banknote Authentication Data Set
- UNIFOR · Disciplina de Inteligência Artificial Computacional
- Machine Learning Mastery · Bias-Variance Trade-Off
- GitLab 2024 Developer Survey · AI, segurança e produtividade
- Black Duck 2024 DevSecOps Report
URLs de distribuição
- https://www.liderprojetos.com/provadeconceito/pesquisa/ia-notasfalsas-devsecops
- https://www.liderprojetos.com/provadeconceito/pesquisa/ia-notasfalsas-devsecops/apresentacao
- https://www.liderprojetos.com/provadeconceito/pesquisa/ia-notasfalsas-devsecops/artigo
- https://www.liderprojetos.com/provadeconceito/pesquisa/ia-notasfalsas-devsecops/relatorio
Esta versão existe para PDF e distribuição. A apresentação editorial web continua disponível separadamente para leitura navegável.