Detecção 2026-06-02 8 min de leitura

Como saber se uma música foi feita por IA

O Suno, o Udio e o Stable Audio produzem faixas que enganam o ouvido humano em segundos — mas deixam pistas espectrais que detectores forenses identificam com 97%+ de precisão. Aqui estão os 7 sinais técnicos mais delatores em 2026.

Por que detectar música IA virou prioridade

Em janeiro de 2025 o Spotify removeu 75 milhões de faixas spam, a maioria geradas por IA. O TikTok criou em 2024 a categoria "AI-generated content" com alcance algorítmico reduzido. YouTube exige label "Created with AI" desde 2024. Em 2026, ser identificado como IA puro tem consequência prática: monetização menor, alcance cortado, risco de remoção.

Pra artistas independentes, criadores de conteúdo e produtores que usam IA como ferramenta, saber se uma faixa será detectada virou parte do fluxo de produção — exatamente como se faz mixagem antes de mandar pra mastering.

Sinal 1 — Brickwall espectral em 14-16 kHz

Modelos de geração IA quase sempre usam um filtro passa-baixas brusco entre 14 kHz e 16 kHz pra economizar custo computacional. Numa música gravada em estúdio com microfone de condensador, o espectro decai gradualmente até 22 kHz. No Suno e Udio, ele despenca verticalmente após 14 kHz — assinatura visível mesmo a olho nu num espectrograma.

Detectores forenses medem o rolloff acima de 14 kHz e calculam a inclinação da queda. Inclinações superiores a 60 dB/oitava são quase certeza de IA.

Sinal 2 — Watermarks invisíveis embutidos

Desde 2024, a maioria das ferramentas comerciais de geração IA embute watermarks inaudíveis no arquivo gerado. O Suno usa o SunoMark (sequência de fase periódica em bandas específicas). O Stability AI usa StableAudioMark (modulação em sub-Hz no canal lateral).

Esses marcadores não são removidos por compressão MP3, normalização ou re-codificação simples. Detectores forenses fazem análise de auto-correlação no canal mid-side e identificam o padrão em segundos.

Sinal 3 — Flatness espectral muito alta

Música gravada por humanos tem variação dinâmica entre as bandas espectrais — o vocal ressoa em 200-3000 Hz, a guitarra tem corpo em 1-4 kHz, o bumbo em 60-200 Hz. Cada instrumento ocupa seu lugar.

Em música IA, o modelo "preenche" todo o espectro de forma estatisticamente uniforme. A flatness espectral (Wiener entropy) fica anormalmente alta — geralmente entre 0.15 e 0.30, contra 0.05-0.12 em material humano.

Sinal 4 — Microflutter de F0 ausente

A voz humana nunca fica estável em uma frequência fundamental (F0). Mesmo numa nota sustentada, o F0 flutua em ±3-15 cents por segundo (microflutter natural). Vibrato é uma versão amplificada disso (±20-50 cents).

Em vocais gerados por IA, o F0 fica estranhamente rígido: variação inferior a ±1 cent quando deveria haver vibrato. Detectores medem a derivada do F0 ao longo do tempo e identificam quando o padrão é mecânico demais.

Sinal 5 — HNR (Harmonic-to-Noise Ratio) artificial

Vocais humanos têm HNR entre 15 e 25 dB em sílabas tônicas — um equilíbrio entre componente harmônica (corda vocal) e ruído (sopro, sibilância). Cantores treinados chegam a 28 dB no fortissimo.

IA tende a gerar HNR excessivo: 30-40 dB em sílabas inteiras, sem o ruído natural de respiração. Quando há "respiração", ela é sintetizada estatisticamente — o detector reconhece pela falta de modulação espectral característica do trato vocal humano.

Sinal 6 — Subharmônicos com pouca energia

Vocais humanos masculinos geram subharmônicos (componentes em frequências sub-fundamentais) através do mecanismo M1/M2 da laringe — esp. em notas baixas com peito. Mulheres têm menos, mas ainda presente acima dos 200 Hz.

IA quase sempre falha em sintetizar subharmônicos com energia realista. Análise espectral abaixo do F0 mostra "vazio" anormal — sinal forte de geração algorítmica.

Sinal 7 — Embedding fingerprint via redes pré-treinadas

A linha final de defesa: redes neurais treinadas em milhões de faixas humanas (MERT, CLAP, EnCodec). O áudio é convertido em embedding 768-1024-dimensional, comparado com clusters conhecidos de IA vs humano via classificadores como LightGBM ou XGBoost.

O modelo MERT v3 atual atinge F1 de 0.979 e AUC de 0.997 em hold-out de 18 mil faixas. Significa que, de cada 100 IAs, identifica 98 sem falso positivo significativo.

Como testar sua música agora

O HUMANIZE combina os 7 sinais em uma única análise. Faz upload de MP3, WAV, FLAC ou M4A. Em 3 a 15 segundos retorna o veredito Played-by-Human (PbH) com confiança 70-99%, ou identifica como IA, ou Mix (faixa híbrida).

Se sua faixa der IA e você quer distribuir comercialmente, considere processar pelo pipeline de humanização — adiciona elementos humanos (pitch sub-percentual, time-stretch leve, masterização forense) que melhoram a aderência estética e desviam do fingerprint algorítmico.

Teste sua música agora

Detector Played-by-Human gratuito + masterização profissional. Resultado em 3-15 segundos. Sem cadastro.

Testar grátis