Digitálne kódovanie zvuku Redukcia dát

Od uvedenia zvukového kompaktného disku (CD) a príchodu pásky pre digitálny zvuk (DAT) sa digitálna technológia stáva čoraz populárnejšou v audio sektore. CD aj DAT používajú ako základný proces digitalizácie Pulse Code Modulation (PCM). Táto technológia prevádza pôvodný analógový zvukový signál do digitálneho sveta prostredníctvom vzorkovania, kvantovania a kódovania. Pretože PCM nepoužíva redukciu dát, je dosiahnutá vynikajúca kvalita zvuku - kupuje sa však za cenu vysokých pamäťových nárokov. V PCM môže disk CD obsahovať maximálne 80 minút zvukových údajov.

Prečo znižovať zvukové údaje?

Najmä vysoké požiadavky na pamäť PCM spôsobili, že priame použitie tejto technológie v digitálnych rádiových alebo multimediálnych systémoch bolo neefektívne, časovo náročné alebo nemožné. Tieto systémy vyžadujú radikálne zoštíhlenie zvukových signálov. Dôvodom sú nedostatočné prenosové kapacity vo vysielaní, obmedzená prenosová rýchlosť dnešných zbernicových systémov (PCI, IDE, SCSI) a predovšetkým stále nedostatok úložného priestoru. Nielen nedostatok miesta na pevnom disku, hlavná pamäť v dnešných počítačových systémoch ponúka aj nedostatočné rezervy na to, aby umožnila rozumnú prácu so zvukovými dátami PCM. Ak si myslíte, že 6-minútové hudobné dielo v PCM vyžaduje až 60 MB pamäte (súbor WAV), je ľahké si predstaviť, že prenos tohto diela napríklad cez internet je všetko, len nie výnosné, nehovoriac o klasických dielach trvajúcich niekoľko hodín . Výsledkom by bola extrémne dlhá doba sťahovania.

Na druhej strane má digitálna technológia oproti analógovej technológii neprekonateľné výhody. Veľmi dobrá kvalita zvuku, odolnosť proti rušeniu a relatívne ľahká technická správa boli dostatočnými dôvodmi na to, aby rôzne výskumné inštitúcie v posledných rokoch čoraz viac vyvíjali metódy, ktoré umožňujú zníženie požiadaviek na ukladanie digitálnych zvukových signálov, a tým aj ich využitie v nových oblastiach, ako je digitálne vysielanie. Primárnym cieľom bolo zachovať kvalitu zvuku s použitím CD ako referencie. Výsledkom je celá séria kodekov, z ktorých niektoré šetria značné množstvo dát. Momentálne je pravdepodobne najznámejší kodek MP3 vyvinutý spoločnosťou Motion Pictures Expert Group (MPEG), ktorý je rozšírený na internete, ale známe sú aj techniky digitálneho kódovania zvuku MPEG 2, AC-3, ATRAC a ďalšie.

Množstvo pamäte vyžadované digitálnym zvukovým signálom je primárne určené bitovou rýchlosťou a vzorkovacou rýchlosťou. Počas kódovania signálu je možné upraviť oba parametre. Nasledujúca časť skúma účinky zmeny vzorkovacej rýchlosti a bitovej rýchlosti pri spracovaní signálov.

Požiadavky na úložisko v závislosti od vzorkovania a bitovej rýchlosti

Aby bolo možné previesť analógový signál na jeho digitálny ekvivalent, je potrebné vzorkovať pôvodnú funkciu. Proces vzorkovania je tiež známy ako vzorkovanie. Presné vzťahy medzi vzorkovaním, kvantovaním a kódovaním nájdete v našom článku „Ukladanie digitálnych údajov a výroba zvukového kompaktného disku“ v technologickej oblasti na našej domovskej stránke http://www.burosch.de.

Druhou možnosťou kódovania digitálnych zvukových údajov s malými požiadavkami na pamäť je použitie nízkej bitovej rýchlosti. Vzorkovanie a kvantovanie vytvárajú diskrétne hodnoty pôvodného analógového signálu. Zatiaľ čo vzorkovanie diskretizuje originál v časovej doméne, kvantizácia obmedzuje hodnoty napätia namerané v časoch vzorkovania na pevný počet hodnôt. Ak sa hodnota napätia meria vzorkovaním v určitom časovom okamihu, táto hodnota napätia sa počas kvantovania zaokrúhli na najbližšiu dostupnú hodnotu. Ak je možné zaokrúhliť iba niekoľko hodnôt, výsledkom je iba niekoľko rôznych digitálnych hodnôt na opísanie pôvodnej analógovej funkcie. Na binárne kódovanie týchto hodnôt stačí niekoľko bitov.

Pôvodná funkcia je však iba nedostatočne aproximovaná niekoľkými kvantizačnými hodnotami. Kvôli silnému zaokrúhľovaniu nameraných hodnôt napätia dochádza k zaokrúhľovacím chybám, ktoré je možné počuť pri pasážach jemnej hudby. Hluky, ktoré sa vyskytujú, sú tiež známe ako kvantovací šum. Existujú však široké frekvenčné rozsahy, ktoré je možné bezpečne uložiť s menším počtom údajov. Tieto oblasti sú primárne určené citlivosťou ľudského ucha. Viac sa dozviete v nasledujúcej časti.

Ľudský sluch - prístup ku kompresii zvukových dát

Lekárske a fyzikálne vyšetrenia ľudského ucha a spracovanie hluku v mozgu preukázali, že načúvací prístroj má svoje vlastné percepčné vlastnosti. Za určitých okolností mozog zvuky nezaregistruje alebo ich zaznamená iba čiastočne. Mnoho zo signálnych zložiek, ktoré sú prítomné v akustickom signáli, človek ani nevníma. Výskumom týchto problémov sa zaoberá takzvaná psychoakustika. Vo vnímaní ľudského ucha boli doteraz objavené nasledujúce deficity:

Percepčný rozsah sluchu:
Vlny môžu byť emitované na širokom rozsahu frekvencií. Ľudské ucho však dokáže vnímať iba malú časť tohto frekvenčného rozsahu, zvukový frekvenčný rozsah. Ľudia môžu teoreticky počuť zvuky s frekvenciami medzi 20 Hz a 20 kHz. V praxi sa však ukázalo, že citlivosť ucha smerom k nízkym a vysokým frekvenciám značne klesá. Na obrázku vyššie je amplitúda, t. J. Akustický tlak, vynesená proti frekvencii. Merania preukázali, že všetky signály, ktoré sú úplne pod prahom pokojového sluchu (červená čiara), sú nepočuteľné. Amplitúda týchto tónov (zelené vrcholy na obrázku) je príliš nízka, takže ich hlasitosť je príliš nízka na to, aby ich bolo možné vnímať. Je zaujímavé vidieť, že prah tichého sluchu nie je konštantný pri určitej hodnote amplitúdy, ale mení sa s frekvenciou. Veľmi nízke tóny (menej ako 50 Hz) je možné počuť iba z veľmi vysokých amplitúd, rovnako ako tóny nad 15 kHz. Je tiež potrebné poznamenať, že nie každý má rovnaký prah tichého sluchu. Deti počujú vysoké frekvencie oveľa lepšie ako starí ľudia.
Maskovanie:
Ďalším nedostatkom ľudského načúvacieho prístroja je neschopnosť rozlišovať medzi tónmi veľmi podobnej frekvencie a veľmi rozdielnej hlasitosti, ktoré sa vyskytujú súčasne. Tento efekt sa tiež nazýva sluchové maskovanie alebo nemecké súčasné maskovanie. Signál s vysokou amplitúdou (tmavomodrý na obrázku vyššie), tiež známy ako maskovanie, zakrýva tichšie signály, ktoré majú podobnú frekvenciu. Na obrázku sú to všetky signály, ktoré sú v oblasti zvýraznenej žltou farbou. Ako príklad sú zobrazené niektoré tyrkysové vrcholy. Žltá oblasť je ohraničená oranžovo zafarbeným individuálnym maskovacím prahom maskovača. Individuálny prah maskovania a prah tichého sluchu je možné kombinovať tak, aby vytvorili takzvaný globálny prah maskovania. Všetky signály, ktoré sú pod globálnym prahom maskovania, sú preto nepočuteľné. V praxi sluchové maskovanie neznamená nič iné, ako to, že hlasné hudobné signály zakrývajú tiché časti a robia ich nepočuteľnými.
K ďalšiemu efektu maskovania dôjde, keď dva tóny nasledujú za sebou vo veľmi krátkom čase. Z týchto dvoch tónov je vnímaný iba ten s vyššou amplitúdou, teda väčšou hlasitosťou. Je zaujímavé, že aj keď sa jemný zvuk dostane najskôr do ucha, v mozgu je zaregistrovaný iba hlasný signál prichádzajúci neskôr. Tento druhý dôležitý maskovací efekt sa nazýva aj v technickom žargóne časové maskovanie (časové maskovanie).
Deficity pri lokalizácii nízkych frekvencií:
Zatiaľ čo ľudské ucho dokáže v miestnosti dobre lokalizovať pôvod tónov stredných a vysokých frekvencií, problémy nastávajú v oblasti nižších frekvencií. Mozog počíta polohu zdroja zvuku z rozdielov v čase prechodu signálu medzi ľavým a pravým uchom. Ak je zdroj zvuku vpravo, vlny emitované týmto zdrojom sú vnímané skôr pravým uchom ako ľavým. Pôvod tónov sa potom počíta z časového intervalu medzi vnímaním ľavého a pravého ucha. Zvukové signály s veľmi nízkou frekvenciou však majú veľmi dlhé vlnové dĺžky, čo znemožňuje jasnú lokalizáciu. Preto neexistuje prakticky žiadny tonálny rozdiel medzi zdrojom mono zvuku pre nízkofrekvenčné signály a zdrojom stereofónneho zvuku pre zvuky s veľmi nízkou frekvenciou. Toto je tiež známe ako spoločný stereofónny efekt. Používa sa napríklad pri konštrukcii satelitných systémov subwooferov a je tiež východiskovým bodom pre kompresiu zvuku v oblasti nízkych tónov.

Ľudské ucho preto môže vnímať celú sériu kmitočtových rozsahov iba nedostatočne alebo vôbec. V elektrotechnike sa oblasť digitálneho spracovania signálu zaoberá (digitálne spracovanie signálu, DSP), okrem iného, s matematickými procesmi, ktoré v kombinácii s psychoakustickým modelom načúvacieho prístroja vedú k redukcii údajov. Takéto procesy sa nazývajú termín psychoakustické kódovanie alebo percepčné kódovanie zhrnuté.

Matematické metódy na redukciu údajov:

Matematické metódy na redukciu dát, ktorým sa venuje táto časť, majú za cieľ buď odstrániť nadbytočnosť z dát, ktoré sa majú komprimovať, t. J. Usporiadať opakujúce sa časti tak, aby ich bolo treba uložiť iba raz, alebo odstrániť údaje, ktoré sú podľa psychoakustického modelu nadbytočné zásadne v bezstratových a stratových technikách. Je potrebné spomenúť, že bezstratové techniky vedú iba za určitých podmienok k redukcii údajov. Zisk kompresie pomocou týchto metód je často dosť obmedzený. Výhodou bezstratových techník je jednoznačne to, že nemenia kvalitu originálu.

Najprv je však potrebné určiť, ako často sa jednotlivé symboly v dátovom reťazci vyskytujú. Jednou z možností je kódovanie jednotlivých údajov podľa danej frekvenčnej štatistiky. Napríklad nemecký text by sa dal kódovať pomocou tejto metódy, ak je zrejmé, ako často sa jednotlivé písmená vyskytujú v priemere v nemeckom jazyku. Problém tohto typu určovania frekvencií spočíva v tom, že v praxi existujú štatistické odchýlky od výskytu očakávaného. To môže viesť k ziskovému kódovaniu, ak množstvo údajov zostáva pred a po procese kódovania konštantné, alebo v extrémnych prípadoch (nesprávna štatistika) vedie algoritmus dokonca k situácii, keď sa po kódovaní zvýšila požiadavka na pamäť. Tento spôsob určovania frekvencie jednotlivých symbolov je úplne nemožný pre kódovanie neznámych informácií, ktoré sú napríklad prítomné v zvukových signáloch. Tu sa treba vydať inou cestou.

Výhodou rozdelenia do jednotlivých frekvenčných pásiem je, že metódy kompresie dát môžu útočiť efektívnejšie. Ak by sa mal celý frekvenčný rozsah redukovať dátami v jednej dávke, mohla by byť kompresia čo najvyššia bez zvukových strát, ako je to možné v kritických rozsahoch (najmä frekvencie medzi 2 kHz a 5 kHz). To by však znamenalo, že by bolo treba uložiť menej vnímateľné frekvenčné segmenty (viac ako 15 kHz a menej ako 50 Hz) s vyššími požiadavkami na pamäť, ako je skutočne potrebné. Z tohto dôvodu je frekvenčný rozsah rozdelený na jednotlivé sekcie a až potom je každý jednotlivý rozsah komprimovaný a kódovaný, aby sa zabezpečila maximálna účinnosť.

Dekodér pre subpásmové kódovanie (pozri obrázok nižšie) má veľmi podobnú štruktúru ako kódovač. Najskôr prichádzajúci bitový tok (Y (n)) prechádza demultiplexorom, ktorý rozkladá dátový reťazec na jednotlivé čiastkové pásma. Potom prebehne fáza dekódovania. V nasledujúcom interpolačnom filtri sú vzorky, ktoré boli vypočítané preč, čiastočne obnovené predtým, ako banka syntetického filtra vytvorí výstupný signál Z (n) z čiastkových pásiem sčítaním.