Prova de Conceito · Machine Learning

Classificação de Notas Bancárias com Machine Learning

Implementação de algoritmos K-Vizinhos Mais Próximos e Naive Bayes do zero, sem bibliotecas prontas, para autenticação de cédulas bancárias por Transformada Wavelet.

Mateus Gomes · UNIFOR · Novembro 2025 · UCI Machine Learning Repository

100%

Acurácia K-NN

Euclidiana & Chebyshev

98,54%

Acurácia NB

Naive Bayes Multivariado

140×

Mais rápido

NB vs K-NN em tempo de teste

1.372

Amostras

762 autênticas · 610 falsas

O Projeto

Objetivo

Implementar algoritmos de classificação supervisionada do zero, sem utilizar bibliotecas prontas como scikit-learn ou pandas, para resolver o problema de autenticação de notas bancárias. O desafio foi demonstrar compreensão profunda dos algoritmos através da implementação manual de cada detalhe matemático e computacional.

Dataset

• Fonte: UCI Machine Learning Repository · Banknote Authentication . O conjunto é limpo, balanceado e adequado para comparação didática entre famílias clássicas de classificação.
• Amostras: 1.372 notas bancárias digitalizadas
• Distribuição: 762 autênticas, 610 falsas
• Features: 4 coeficientes da Transformada Wavelet (Variância, Assimetria, Curtose, Entropia)

Algoritmos Implementados

K-Vizinhos Mais Próximos (K-NN)

Algoritmo baseado em instâncias que classifica novos exemplos com base na classe majoritária entre seus K vizinhos mais próximos no espaço de features.

• Distância Euclidiana → 100% acurácia
• Distância Manhattan → 99,93% acurácia
• Distância Chebyshev → 100% acurácia

Naive Bayes

Classificador probabilístico baseado no Teorema de Bayes, assumindo independência condicional entre features — premissa relaxada na variante multivariada com matriz de covariância.

• Univariado (independência total) → 83,97% acurácia
• Multivariado com Σ covariância → 98,54% acurácia

Resultados Detalhados

Classificador	Acurácia	Precisão	F1-Score	Tempo (s)
K-NN (Euclidiana)	100.00%	100.00%	100.00%	0.2247
K-NN (Manhattan)	99.93%	99.84%	99.93%	0.1670
K-NN (Chebyshev)	100.00%	100.00%	100.00%	0.1846
Naive Bayes Univariado	83.97%	78.90%	82.93%	0.0009
Naive Bayes Multivariado	98.54%	98.20%	98.43%	0.0016

K-NN (Euclidiana) 100.00%

Precisão

100.00%

F1-Score

100.00%

Tempo (s)

0.2247

K-NN (Manhattan) 99.93%

Precisão

99.84%

F1-Score

99.93%

Tempo (s)

0.1670

K-NN (Chebyshev) 100.00%

Precisão

100.00%

F1-Score

100.00%

Tempo (s)

0.1846

Naive Bayes Univariado 83.97%

Precisão

78.90%

F1-Score

82.93%

Tempo (s)

0.0009

Naive Bayes Multivariado 98.54%

Precisão

98.20%

F1-Score

98.43%

Tempo (s)

0.0016

Acurácia — Comparativo Visual

K-NN (Euclidiana) 100.00%

K-NN (Manhattan) 99.93%

K-NN (Chebyshev) 100.00%

Naive Bayes Univariado 83.97%

Naive Bayes Multivariado 98.54%

Leitura imediata

O experimento mostra dois tipos de vitória: a vitória da precisão absoluta e a vitória do custo operacional sustentável.

100%

Máxima precisão

K-NN ainda faz sentido quando volume é baixo e erro custa muito caro — duas métricas de distância no topo.

140×

Velocidade de produção

Naive Bayes Multivariado: 98,54% de acurácia com tempo 140 vezes menor. Para escala, a escolha é clara.

Principais Descobertas

Importância das Features

A Transformada Wavelet foi crucial para extrair padrões discriminativos. Dados de qualidade definem o teto de performance — nenhum algoritmo compensa features ruins.

Trade-off Clássico

Precisão máxima (K-NN 100%) vs. Eficiência (Naive Bayes 140× mais rápido). A escolha depende do contexto — volume de dados, custo do erro e latência aceitável.

Correlações Importam

Naive Bayes Multivariado (98,54%) supera Univariado (83,97%) em 14 pontos percentuais ao capturar correlações entre features com a matriz de covariância completa.

Da Classificação de Notas aos Meta Prompts Modernos

Uma pergunta antes de continuar

Se espera-se que um avião tenha 99% de precisão para efetuar um voo com segurança, você viajaria num avião cujo sistema de funcionamento está a 95% de precisão? Você assumiria esse risco de 5%?

Parece pouco. Mas em um voo de 200 passageiros, 5% de falha significa que, em média, 10 pessoas seriam afetadas por uma falha sistêmica. Em um sistema bancário que processa 1 milhão de transações por dia, os mesmos 5% representam 50.000 erros — fraudes não detectadas ou clientes legítimos bloqueados. É aqui que acurácia deixa de ser um número e vira consequência.

O Princípio Universal: Medição é Essencial

Assim como alcançamos 100% de acurácia através de validação cruzada rigorosa, a engenharia de prompts modernos deve ser baseada em dados. Muitos desenvolvedores focam apenas em "criar" prompts complexos, esquecendo de medir sua precisão em cenários variados. Isso gera overfitting: o prompt funciona para um caso, mas falha em produção.

Caso real — NASA Space Apps Challenge · Fortaleza · BS Design

Em uma edição do NASA Space Apps Challenge em Fortaleza, uma equipe apresentou um projeto de análise de solos férteis via imagens de satélite. A apresentação era promissora — até o momento em que um dos jurados fez a seguinte pergunta:

"Como vocês farão o estudo do solo se a NASA fornece dados de imageamento de apenas até 5 metros de profundidade?"

A resposta de um dos membros foi apenas: "com IA".

Essa resposta revela um padrão que se repete em muitos projetos: o uso de "IA" como resposta mágica para lacunas que deveriam ser preenchidas por matemática, física ou conhecimento de domínio. Um algoritmo bem fundamentado — seja de interpolação geoestatística, aprendizado por transferência ou fusão de sensores — teria demonstrado que a equipe compreendia os limites do dado e sabia como contorná-los com rigor. Sem profundidade matemática, não há resposta inteligente — só jargão.

Framework para Medir Precisão de Meta Prompts

01 Definir Métricas: Acurácia factual, adesão a formatos, ausência de alucinações.
02 Criar Dataset de Teste: Casos comuns (80%), edge cases (15%), exemplos adversariais (5%).
03 Avaliação Sistemática: Automação de testes, LLM-as-a-Judge, cálculo de precisão/recall.
04 Iteração Baseada em Dados: Ajuste apenas onde as métricas indicam falha.

Meta Prompts vs. Fine-tuning: ROI

Meta prompts oferecem melhor ROI inicial para prototipagem rápida. No entanto, para tarefas críticas, específicas e de alto volume (como a classificação de notas), o fine-tuning ou modelos clássicos (K-NN, Naive Bayes) vencem a longo prazo devido à precisão, eficiência e controle.

A lição: transformar a engenharia de prompts de uma "arte baseada em intuição" para uma "ciência baseada em dados".

Recursos Disponíveis

Acesse todos os materiais produzidos nesta pesquisa.

Apresentação Completa

20 slides com toda a análise, resultados e conexões com meta prompts modernos.

Visualizar

Código-Fonte

Implementação completa dos 5 algoritmos em Python puro, sem bibliotecas prontas.

Acessar

Relatório Técnico

Documentação detalhada com fundamentação teórica e análise crítica dos resultados.

Baixar

Todos os artigos Próximo

Baixar PDF Editorial

O Projeto

Objetivo

Dataset

Algoritmos Implementados

K-Vizinhos Mais Próximos (K-NN)

Naive Bayes

Resultados Detalhados

Principais Descobertas

Importância das Features

Trade-off Clássico

Correlações Importam

Da Classificação de Notas aos Meta Prompts Modernos

O Princípio Universal: Medição é Essencial

Framework para Medir Precisão de Meta Prompts

Meta Prompts vs. Fine-tuning: ROI

Recursos Disponíveis

Apresentação Completa

Código-Fonte

Relatório Técnico

10% OFF na The Coffee Beira Mar

Receba insights da Líder Projetos