Tuesday, October 22, 2013

DIGITAL AUDIO CODING

Sistem pendenganran manusia terdiri dari telinga dan otak. Proses masuknya audio terjadi dalam dua cara, yaitu fisiologis dan psikologis. Telinga terdiri dari tiga komponen fisiologis:
1.     Telinga luar, mengarahkan suara melalui saluran telinga menuju gendang telinga
2.    Telinga tengah merubah gelombang tekanan suara menjadi gerakan mekanis pada tiga tulang kecil / ossicles (palu, landasan, dan sanggurdi)
3.    Telinga bagian dalam / rumah koklea, merupakan struktur berbentuk spiral yang digunakan untuk pendengan manusia

HUMAN PSYCHOACOUSTICS

Suara manusia melibatkansifat – sifat psikologis, sebagai contoh telinga manusia merespon secara subyektif terhadap peningkatan volume. Pendengaran manusia memiliki range sekitar 110 desbibe (dB). Selain itu, telinga merespon perubahan volume yang terjadi, sebagai contoh ketika suara bass dapat didengar secara jelas dalam suatu pembicaraan ketika terjadi peningkatan volume / sekitar 60 dB. Berdasarkan sifat – sifat tersebut, terdapat beberapa bagian dari human psychoacoustics:
a.       Hearing sensitivity
Koklea yang terdapat pada telinga manusia dapat mendengar pada kisaran frekuensi 20 Hz – 20 kHz. Selain itu resolusi frekuensi yang dimiliki oleh telinga ktia akan menurun seiring dengan naiknya frekuensi. Oleh karena hal tesebut kita dapat menentukan batas minimum yang dapat didengar, di mana dideteksi sebagai noise oleh pendengar. Dengan mengetahui sensitivitas pada sistem pendengaran, kita memiliki keuntungan khususnya dalam hal kuantitas suara. Sebagai contoh pengambilan kuantitas suara pada proses kompresi data.
b.      Frequency masking
Berdasarkan persepsi pada telinga manusia, perbedaan channel frekuensi dapat saling menginterferensi satu dengan yang lain. Sebagai contoh misalnya kita memainkan beberapa nada pada frekeuensi tertentu pada saat yang bersamaan. Berdasarkan hasil observasi, suara yang paling keras akan membelokkan ambang suara yang lain sesuai dengan logaritma frekuensi dalam satuan kHz dan menjadikan suara terpelan (masked sound) yang tadinya terdengar menjadi tidak terdengar.Efek seperti ini yang disebut dengan frequency masking.


c.       Temporal masking
Tertimpanya suara lemah oleh suara yang lebih keras tidak hanya terjadi apabila suara yang lebih lemah muncul setelah suara yang lebih keras terdengar, tetapi suara lemah yang ada sebelum suara keras juga akan tertutupi oleh suara yang lebih keras. Kedua kondisi ini yang disebut post- ­dan pre-temporal masking.

SUBBAND SIGNAL PROCESSING & POLYPHASE FILTER IMPLEMENTATION
Karena adanya sifat frequency masking pada pendengaran manusia, representasi terbaik untuk mendengarkan diperoleh dengan menggunakan subband atau merubahfilter-bank. Dalam menganalisis masking, bitrate harus disiapkan dan diproses ke dalam frame yang telah ditentukan sinyal audio. Setiap bagianframe code suara mengandung code audio utama, tetapi pada beberapa bagian:
1.      Puncak level di setiap frekuensi subband
2.      Puncak masking di setiap subband
3.      Jumlah bit untuk setiap sampel di setiap subband
Encoder mengambil frame dan audio untuk memisahkannya menjadi beberapa subband dengan tidak terjadi overlap menggunakan filter bank yang mencakup seluruh rentang frekuensi suara.Encoderakan merepesentasikan kuantitas contohsubband, format data,beserta informasi tambahan menjadi code bitstream. Sedangkan, decoder berfungsi untuk membalikkan operasi dari encoder dan mengembalikan kuantitas dan pemadatan bitstream ke frame audio sample.

MPEG-1 AUDIO LAYERS
MPEG-1 (Moving Picture Expert Group) merupakan algoritma kompresi audio yang digunakan sebagai standar internasional pertama  untuk kompresi digital dari high-fidelity audio, diadopsi oleh ISO/IEC PADA AKHIR 1992. Terdapat 3 layer kompresi pada MPEG-1, yaitu:
1.       Layer 1Memiliki kompleksitas paling rendah dan bitrate tertinggi, antara 32-224 kbps per channel dengan target bitrate 192 kbps per channel. Digunakan pada Philip’ Digital Compact Cassette (DCC).
2.       Layer 2Memiliki kompleksitas menengah dan ditargetkan untuk bitrate dengan sekitar 128 kbps per channel.Digunakan pada sinkronisasi penyimpanan video dan audio sekuen pada CD-ROM, full-motion pada CD interkatif (CD-I), permainan multimedia, VCDs, dan DVDs.
3.       Layer 3Memiliki kompleksitas tertinggi dan menawarkan kualitas audio terbaik, terutama untuk bitrate sekitar 64 kbps per channel, biasanya dinamakan dengan format MP3.
Polyphase Implementation of MPEG-1 Filter Bank
Flow diagram dari ISO MPEG-1 audiostandard filter bank:
MPEG-1 Audio Psychoacoustics
Mengambil keuntungan dari sistem pendengaran manusia yang bergantung pada karakteristik frekuensi dikarenakan adanya masking threshold (untuk frequency masking / temporan masking) pada setiap frekuensi yang diberikan bergantung pada energy sinyal yang terbatas pada frekuensi – frekuensi tersebut untuk mendapatkan kompresi yang paling efisien.
Signal-To-Mask Ratios (SMRs) merupakan rasio dari kekuatan sinyal jangka pendek di setiap subband untuk layer 3 dan ambang masking minimum untuk subband tersebut. Setelah melakukan pemetaan frekuensi berdasarkan Fast Fourier Transform (FFT) terdapat beberapa langkah yang diperlukan untuk melakukan psychoacoustics:
1.      Menggrupkan nilai spectral sesuai dengan critical bandwith
2.      Memisahkan nilai spectral menjadi komponen tonal dan non-tonal berdasarkan puncak spectrum daya audio
3.      Memisahkan berdasarkan komponen tonal dan non-tonal, secara empiris akan menentukan fungsi masking untuk menentukan ambang masking  di seluruh audio yang ada di spectrum
4.      Mengatur batas bawah kemampuan mendengar suara secara empiris menentukan ambang masking mutlak
5.      Mencari ambang untuk setiap masking
6.      Menghitung rasio SMR dan memasukkan nilai yang didapat ke dalam bit (noise) pada alokasi encoder.
Layer3 Audio Bit Allocations
Inner (rate) iteration loop for MP3 rate control:



  Outer (noise and distortion) iteration loop for MP3 rate control:
Perulangan inner dan outer loop akan berakhir ketika terdapat beberapa kondisi berikut:
1.      Tidak adanya  faktor skala subbandayang melebihi distorsi yang diperbolehkan
2.    Iterasi yang terjadi berikutnya akan menyebabkan pengerasan pada subband lain sehingga melebihi nilai yang diperbolehkan
3.      Iterasi selanjutnya akan menyebabkan semua faktor skala subband diperkuat
DOLBY AC3 AUDIO CODEC
Untuk mendapatkan hasil audio yang bersifat superior codingpada multichannel surround sound untuk dapat dimanfaatkan sebagai HDTV tetapi membutuhkan data rate yang sama seperti yang digunakan dalam sistem suara stereo, maka Dolby Inc. mengusulkan dan mengembangkan teknologi AC3 untuk DVD, HDTCV, home theatre system, dan sebagainya.Codec  audio AC3 mengikuti rekomendasi yang dibuat oleh masyarakat untuk SMPTE dengan target bitrate 320 kbps yang diharapkan mampu memberikan kualitas suara  dengan format 70 mm surround-sound yang digunakan pada film sejak 1979. AC3 juga meggunakan psychoacoustic untuk menutupi signal audio yang tidak terdengar.
 Bit Allocation in AC3
Dalam penerapannya, AC3 menggunakan metode backward adaptive.Metode ini bekerja denganmerubah informasi alokasi bit dari codec audio data tanpa menrubah informasi dari encoder. Proses encoding pada AC3 terdiri atas 6 langkah, yaitu:
a.     Melakukan transformasi dari 512 blok yang overlap menjadi sekuen – sekuen frequency-coefficient blok. Masing – masing frekeuensi direpresentasikan sebagai eksponen dan mantisa.
b.      Set dari eksponen di-encode menjadi representasi kasar dari sebuah sinyal spectrum, spectral envelope.
c.       Spectral envelope digunakan untuk mendeteriminasi banyaknya bit yang akan digunakan untuk meng-encode masing – masing mantisa.
d.      Mantisa kemudian dikuantisasi berdasarkan alokasi bit.
e.       Spectral envelope dan mantisa akan dikuantisasi menjadi 6 blok (256 x 6 - 1536) yang akan diformat menjadi AC3 frame.
f.        AC3 bitstream (32 – 640 kbps) merupakan sekuen dari AC3 frame.
Filter Bank
Alokasi bit dapat terjadi pada suatu transformasi berbagi koefisien pada alokasi yang sama atau pada level individu, koefisien yang berdekatan tetapi menerima alokasi yang berbeda.
Spectral Envelope
Setiap koefisien transformasi dikodekan ke dalam bentuk eksponen dan mantisa. Hal tersebut memungkinkan terjadinya dynamic range sementara mantisa sendiri dikodekan dengan presisi terbatas hal ini akan menyebabkan terjadinya kuantisasi noise.Satu set kode eksponen yang direpresentasikan dalam bentuk sinyal spectrum secara keseluruhan akan disebut sebagai spectral envelope.Spectral envelope dikirim setiap 6 blok sekali denganaudio (32 ms), dimana rata – rata data yang dibutuhkan kurang dari 0.39 bit per eksponen.
Coupling
Meskipun teknik pengodean yang dimiliki oleh AC3 sudah sangat kuat, ketika kode tersebut diperasikan pada bitrate yang sangat rendah akan terdapat sebuah kondisi di mana kode akan berjalan di luar dari bit. Ketika kondisi seperti ini terjadi, maka akan dilakukan sebuah teknik coupling.Coupling mengambil keuntungan dari adanya fakta akan sifat telinga manusia yang tidak mampu mendekteksi secara independen adanya sinyal berfrekuensi tinggi dari dua arah yang sangat erat di dalam frekuensi. Ketika kode AC3 mengalami kekurangan bit, maka channel akan secara selektif digabungkan dengan frekuensi tinggi tersebut. Frekuensi yang telah mengalami penggabungkan disebut sebagai coupling frequency.
MPEG-2 ADVANCE AUDIO CODING (AAC)
Pengembangan teknologi dalam pengodean audio dimulai dengan pembuatan audio baru berkualitas 64 kbps per mono channel. Beberapa pendekatan modular yang dgunakan:
1.      Filter bank
2.      Temporal Noise ShapingMerupakan teknik frekuensi domain yang beroperasi pada koefisien spectral yang dihasilkan dari analisis filter bank yang diterkapkan hanya ketika terjadi serangan pre-echos.Teknik ini dibuat untuk menerapkan prediksi linear pada frekuensi secara sementara terhadap sinyal impulsive yang sebagian besar terdiri dari beberapa komponen sinusoidal dalam frekuensi domain.
3.      Prediction / Prediksi
4.      MS StereoMemungkinkan untuk terjadinya peralihan middle atau side stereo secara subband tidak secara keseluruhan frame seperti pada MP3.
5.      Quatization / KuantisasiDengan memungkinkan adanya control yang lebih baik pada resolusi kuantisasi, bitrate yang dihasilkan dapat digunakan lebih efiesien.
6.      Huffman codingMenggunakan variable length codeword  untuk mengurang redundan pada faktor skala dan kuantitas spektrum data. Satu faktor skala Huffman codebook dan 11 spektrum Hufmann codebook digunakan di dalam MPEG-2 AAC.
7.      Bitstream FormatDigunakan untuk menyimpan redudansi serendah mungkin.
MPEG-2 sistem AAC menawarkan hasil dua arah yang berbeda antara kualitas dan kompleksitas. Hal ini dibuat dengan tiga tujuan, yaitu main profile, low complexity (kompleksitas rendah), dan scalable sample rate profil. AAC memberikan kinerja yang baik untuk setiap codec, memiliki kecepatan bit lebih besar dari 64 kbps untuk audio stereo. Secara khusus, pada 96 kbps audio stereo sebanding dengan kualitas MPEG-1 layer 2 (192 kbps) dan MP3 di 128 kbps.
MPEG-4 AAC (HE-AAC)
Merupakan standar audio coding yang paling efisien saat ini. MPEG-4 AAC 30% lebih efisien dari MPEG-2 AAC. Encoder ini dimanfaatkan pada penggunaan internet, mobile, dan broadcast dengan target utntuk kualitasencoding menengah dengan kecepatan 24 kbps perchannel atau lebih tinggi.
 Spectral Band Replication (SBR)
SBR menawarkan adanya peningkatan kinerja bitrate dari audio rendah dan speech codec dengan lebih baik dengan meningkatkan bandwith audio pada bitrate tertentu atau meningkatkan efisiensi pengadean pada tingkat kualitas yang diberikan.
MPEG-4 HE AAC v2
Menggabungkan HE-AAC (AAC +) dengan sebuah parametric stereo (PS) sebuah teknik untuk audio yang memiliki bitrate sangat rendah sperti 32 kbps untuk sebuah input stereo.Teknik PS mentransmisikan satu channel mono gabungan ditambah dengan 2-3 kbps informasi dan mencapai hampir 50% lebih baik apabila digunakan untuk internet, mobile, penyiaran, dan domain lainnya dengan penggunaan sumber daya terbatas. 3 jenis parameter yang dapat digunakan di dalam sistem PS untuk menggambarkan citra stereo diantaranya:


  1.  Interchannel Intensity Difference (IID), untuk menggembarkan perbedaan intensitas  antar channel.
  2. Interchannel Cross – Correlation (ICC), meggambarkan korelasi silang atau koherensi antar channel. Koherensi diukur sebagai korelasi silang maksimum untuk fungsi waktu / fase.
  3.  Interchannel Phase Difference (IPD), menjelaskan perbedaan fase antar channel.
MINDMAP


1 comment:

  1. mba, fontnya perbaikin donk. sakit mata bacanya fontnya gak sesuai. sarahku sih pakai font yang standart aja. yang pentingkan kontentnya bukan fontnya.

    ReplyDelete