Extinderea timpului audio și scalarea înălțimii - Audio time stretching and pitch scaling

Intinderea timpului este procesul de modificare a vitezei sau a duratei unui semnal audio fără a-i afecta tonul . Scalarea pitch-ului este opusul: procesul de schimbare a tonului fără a afecta viteza. Pitch shift este scalarea tonului implementată într-o unitate de efecte și destinată spectacolului live. Controlul pasului este un proces mai simplu care afectează simultan tonul și viteza prin încetinirea sau accelerarea înregistrării.

Aceste procese sunt adesea folosite pentru a se potrivi cu tonurile și tempo-urile a două clipuri preînregistrate pentru amestecare atunci când clipurile nu pot fi reformate sau resamplate. Prelungirea timpului este adesea utilizată pentru a ajusta reclamele radio și sunetul reclamelor TV pentru a se potrivi exact în cele 30 sau 60 de secunde disponibile. Poate fi folosit pentru a conforma materialul mai lung cu un interval de timp desemnat, cum ar fi o transmisie de 1 oră.

Resamplarea

Cel mai simplu mod de a schimba durata sau tonul unei înregistrări audio este de a modifica viteza de redare. Pentru o înregistrare audio digitală , acest lucru poate fi realizat prin conversia ratei de eșantionare . Din păcate, frecvențele înregistrării sunt întotdeauna scalate la același raport cu viteza, transpunând înălțimea sau înălțimea percepută în proces. Încetinirea înregistrării pentru a crește durata reduce, de asemenea, tonul, accelerarea acestuia pentru o durată mai scurtă ridică, de asemenea, tonul, creând efectul Chipmunk . Astfel, cele două efecte nu pot fi separate atunci când se utilizează această metodă. O piesă de tambur care nu conține instrumente înălțate poate fi convertită în mod moderat pentru a regla tempo-ul fără efecte adverse, dar o piesă în ton nu poate.

Domeniul de frecventa

Faza vocoder

O modalitate de a întinde lungimea unui semnal fără a afecta tonul este de a construi un vocoder de fază după Flanagan, Golden și Portnoff.

Pași de bază:

  1. calculați relația instantanee de frecvență / amplitudine a semnalului utilizând STFT , care este transformata Fourier discretă a unui bloc scurt de eșantioane suprapuse și cu ferestre ușoare;
  2. aplicați o anumită procesare pentru magnitudinile și fazele transformatei Fourier (cum ar fi eșantionarea blocurilor FFT); și
  3. efectuați o STFT inversă luând transforma Fourier inversă pe fiecare bucată și adăugând bucățile de formă de undă rezultate, numite și suprapunere și adăugare (OLA).

Vocoderul de fază tratează bine componentele sinusoidale , dar implementările timpurii au introdus un frotiu considerabil pe formele de undă tranzitorii („beat”) la toate ratele de compresie / expansiune care nu sunt întregi, ceea ce face ca rezultatele să fie faze și difuze. Îmbunătățirile recente permit rezultate de calitate mai bune la toate rapoartele de compresie / expansiune, dar rămâne un efect de pătare reziduală.

Tehnica vocoderului de fază poate fi, de asemenea, utilizată pentru a efectua schimbarea tonului, corarea, manipularea timbrului, armonizarea și alte modificări neobișnuite, toate acestea putând fi schimbate în funcție de timp.

Analiză sinusoidală / sistem de sinteză (bazat pe McAulay și Quatieri 1988 , p. 161)

Modelare spectrală sinusoidală

O altă metodă pentru întinderea timpului se bazează pe un model spectral al semnalului. În această metodă, vârfurile sunt identificate în cadre folosind STFT- ul semnalului, iar „urmele” sinusoidale sunt create prin conectarea vârfurilor în cadrele adiacente. Urmările sunt apoi resintetizate la o nouă scară de timp. Această metodă poate produce rezultate bune atât pe materialul polifonic, cât și pe cel percutant, mai ales atunci când semnalul este separat în sub-benzi. Cu toate acestea, această metodă este mai solicitantă din punct de vedere al calculului decât alte metode.

Modelarea unui sunet monofonic ca observație de-a lungul unei spirale a unei funcții cu un domeniu cilindru

Domeniul timpului

SOLA

Rabiner și Schafer, în 1978, au lansat o soluție alternativă care funcționează în domeniul timpului : încercarea de a găsi perioada (sau echivalentul frecvenței fundamentale ) a unei secțiuni date a undei utilizând un algoritm de detectare a înălțimii (de obicei vârful autocorelației semnalului , sau uneori procesare cepstral ) și se decolorează încrucișat o perioadă în alta.

Aceasta se numește scalarea armonică a domeniului de timp sau metoda de suprapunere-adăugare sincronizată (SOLA) și funcționează oarecum mai repede decât vocoderul de fază pe mașinile mai lente, dar eșuează când autocorelația estimează greșit perioada unui semnal cu armonici complicate (cum ar fi piesele orchestrale) ).

Adobe Audition (anterior Cool Edit Pro) pare să rezolve acest lucru căutând perioada cea mai apropiată de o perioadă centrală pe care utilizatorul o specifică, care ar trebui să fie un multiplu întreg al tempo-ului și între 30 Hz și cea mai mică frecvență a basului.

Aceasta este mult mai limitată în domeniul de aplicare decât procesarea bazată pe vocoder de fază, dar poate fi mult mai puțin intensă în procesor, pentru aplicații în timp real. Oferă cele mai coerente rezultate pentru sunete cu un singur ton, cum ar fi înregistrări vocale sau cu instrumente muzicale monofonice.

Pachetele comerciale de procesare audio de ultimă generație fie combină cele două tehnici (de exemplu prin separarea semnalului în forme de undă sinusoidale și tranzitorii), fie utilizează alte tehnici bazate pe transformarea de undă , sau procesarea rețelei neuronale artificiale, producând întinderea timpului de cea mai înaltă calitate.

Abordare bazată pe cadre

Abordare bazată pe cadre a multor proceduri TSM

Pentru a păstra tonul semnalului audio atunci când se întinde sau comprimă durata acestuia, multe proceduri de modificare a scalei de timp (TSM) urmează o abordare bazată pe cadre. Având în vedere un semnal audio original în timp discret, primul pas al acestei strategii este împărțirea semnalului în cadre scurte de analiză de lungime fixă. Cadrele de analiză sunt distanțate de un număr fix de eșantioane, numite analize de dimensiuni mari . Pentru a realiza modificarea efectivă a scării de timp, cadrele de analiză sunt apoi mutate temporar pentru a avea o sinteză de hopsize . Această relocare a cadrului are ca rezultat o modificare a duratei semnalului cu un factor de întindere de . Cu toate acestea, simpla suprapunere a cadrelor de analiză nemodificate duce în mod obișnuit la artefacte nedorite, cum ar fi discontinuități de fază sau fluctuații de amplitudine. Pentru a preveni aceste tipuri de artefacte, cadrele de analiză sunt adaptate pentru a forma cadre de sinteză , înainte de reconstrucția semnalului de ieșire modificat la scară de timp.

Strategia modului de derivare a cadrelor de sinteză din cadrele de analiză este o diferență cheie între diferitele proceduri TSM.

Viteza de auz și vorbirea rapidă

Pentru cazul specific al vorbirii, întinderea timpului poate fi efectuată folosind PSOLA .

Deși s-ar putea aștepta accelerarea pentru a reduce înțelegerea, Herb Friedman spune că „Experimentele au arătat că creierul funcționează cel mai eficient dacă rata informației prin urechi - prin vorbire - este rata de citire„ medie ”, care este de aproximativ 200-300 wpm (cuvinte pe minut), totuși rata medie de vorbire este de aproximativ 100-150 wpm. "

Accelerarea sunetului este văzută ca echivalentul citirii vitezei .

Scalarea pitch-ului

Schimbarea tonalității ( scalarea frecvenței ) este oferită pe Eventide Harmonizer
Schimbarea frecvenței oferită de Bode Frequency Shifter nu păstrează raportul de frecvență și armonia.

Aceste tehnici pot fi, de asemenea, utilizate pentru a transpune un eșantion audio, menținând constant viteza sau durata. Acest lucru poate fi realizat prin întinderea timpului și apoi eșantionarea înapoi la lungimea inițială. Alternativ, frecvența sinusoidelor într-un model sinusoidal poate fi modificată direct, iar semnalul reconstruit la scara de timp adecvată.

Transpunerea poate fi numită scalare a frecvenței sau deplasare a înălțimii , în funcție de perspectivă.

De exemplu, s-ar putea muta tonul fiecărei note în sus cu o cincime perfectă, menținând ritmul la fel. Se poate vedea această transpunere ca „pitch shifting”, „shifting” fiecare notă în sus cu 7 taste pe o tastatură de pian, sau adăugând o cantitate fixă ​​pe scara Mel , sau adăugând o cantitate fixă ​​în spațiul de pitch linear . Se poate vedea aceeași transpunere ca „scalarea frecvenței”, „scalarea” (multiplicarea) frecvenței fiecărei note cu 3/2.

Transpunerea muzicală păstrează raporturile frecvențelor armonice care determină timbrul sunetului , spre deosebire de schimbarea frecvenței efectuată prin modulația amplitudinii , care adaugă un decalaj de frecvență fix la frecvența fiecărei note. (În teorie s-ar putea efectua o scalare literală a înălțimii în care este scalată locația spațiului muzical [o notă mai mare ar fi deplasată la un interval mai mare în spațiul liniar al tonului decât o notă inferioară], dar acest lucru este extrem de neobișnuit și nu muzical. )

Procesarea domeniului de timp funcționează mult mai bine aici, deoarece pătarea este mai puțin vizibilă, dar scalarea eșantioanelor vocale distorsionează formanții într-un fel de Alvin și efectul de tip Chipmunks , care poate fi de dorit sau nedorit. Un proces care păstrează formanții și caracterul unei voci implică analiza semnalului cu un vocoder de canal sau vocoder LPC plus oricare dintre mai mulți algoritmi de detectare a tonurilor și apoi resintetizarea acestuia la o frecvență fundamentală diferită.

O descriere detaliată a tehnicilor de înregistrare analogice mai vechi pentru schimbarea tonului poate fi găsită în intrarea Alvin și Chipmunks .

În software-ul pentru consumatori

Timestretch-ul audio corectat pe tonalitate se găsește în fiecare browser web modern ca parte a standardului HTML pentru redarea media. Controale similare sunt omniprezente în aplicații și cadre media precum GStreamer și Unity .

Vezi si

Referințe

  1. ^ https://web.archive.org/web/20080527184101/http://www.tvtechnology.com/features/audio_notes/f_audionotes.shtml
  2. ^ „Vorbire variabilă” . www.atarimagazines.com .
  3. ^ Jont B. Allen (iunie 1977). „Analiză spectrală de scurtă durată, sinteză și modificare prin transformată Fourier discretă”. Tranzacții IEEE privind acustica, vorbirea și procesarea semnalului . ASSP-25 (3): 235–238.
  4. ^ McAulay, RJ; Quatieri, TF (1988), „Speech Processing Based on a Sinusoidal Model” (PDF) , The Lincoln Laboratory Journal , 1 (2): 153–167, arhivat din original (PDF) în 2012-05-21 , recuperat 2014 -09-07
  5. ^ David Malah (aprilie 1979). „Algoritmi de domeniu timp pentru reducerea lățimii de bandă armonice și scalarea în timp a semnalelor de vorbire”. Tranzacții IEEE privind acustica, vorbirea și procesarea semnalului . ASSP-27 (2): 121–133.
  6. ^ Jonathan Driedger și Meinard Müller (2016). „O revizuire a modificării la scară de timp a semnalelor muzicale” . Științe aplicate . 6 (2): 57. doi : 10.3390 / app6020057 .
  7. ^ Variable Speech , Creative Computing Vol. 9, nr. 7 / iulie 1983 / p. 122
  8. ^ „Ascultați podcast-uri în jumătate din timp” .
  9. ^ https://web.archive.org/web/20060902102443/http://cid.lib.byu.edu/?p=128
  10. ^ "HTMLMediaElement.playbackRate - API-uri web" . MDN . Adus la 1 septembrie 2021 .

linkuri externe