1. Telinga
luar, mengarahkan suara melalui saluran telinga menuju gendang telinga
2. Telinga
tengah merubah gelombang tekanan suara menjadi gerakan mekanis pada tiga tulang
kecil / ossicles (palu, landasan, dan
sanggurdi)
3. Telinga
bagian dalam / rumah koklea, merupakan struktur berbentuk spiral yang digunakan
untuk pendengan manusia
HUMAN
PSYCHOACOUSTICS
Suara manusia melibatkansifat –
sifat psikologis, sebagai contoh telinga manusia merespon secara subyektif
terhadap peningkatan volume. Pendengaran
manusia memiliki range sekitar 110
desbibe (dB). Selain itu, telinga merespon perubahan volume yang terjadi, sebagai contoh ketika suara bass dapat
didengar secara jelas dalam suatu pembicaraan ketika terjadi peningkatan volume / sekitar 60 dB. Berdasarkan
sifat – sifat tersebut, terdapat beberapa bagian dari human psychoacoustics:
a. Hearing sensitivity
Koklea
yang terdapat pada telinga manusia dapat mendengar pada kisaran frekuensi 20 Hz
– 20 kHz. Selain itu resolusi frekuensi yang dimiliki oleh telinga ktia akan
menurun seiring dengan naiknya frekuensi. Oleh karena hal tesebut kita dapat
menentukan batas minimum yang dapat didengar, di mana dideteksi sebagai noise oleh pendengar. Dengan mengetahui
sensitivitas pada sistem pendengaran, kita memiliki keuntungan khususnya dalam
hal kuantitas suara. Sebagai contoh pengambilan kuantitas suara pada proses
kompresi data.
b. Frequency masking
Berdasarkan
persepsi pada telinga manusia, perbedaan channel
frekuensi dapat saling menginterferensi satu dengan yang lain. Sebagai
contoh misalnya kita memainkan beberapa nada pada frekeuensi tertentu pada saat
yang bersamaan. Berdasarkan hasil observasi, suara yang paling keras akan
membelokkan ambang suara yang lain sesuai dengan logaritma frekuensi dalam
satuan kHz dan menjadikan suara terpelan (masked
sound) yang tadinya terdengar menjadi tidak terdengar.Efek seperti ini yang
disebut dengan frequency masking.
c. Temporal masking
Tertimpanya
suara lemah oleh suara yang lebih keras tidak hanya terjadi apabila suara yang
lebih lemah muncul setelah suara yang lebih keras terdengar, tetapi suara lemah
yang ada sebelum suara keras juga akan tertutupi oleh suara yang lebih keras.
Kedua kondisi ini yang disebut post- dan
pre-temporal masking.
SUBBAND
SIGNAL PROCESSING & POLYPHASE FILTER IMPLEMENTATION
Karena
adanya sifat frequency masking pada
pendengaran manusia, representasi terbaik untuk mendengarkan diperoleh dengan
menggunakan subband atau merubahfilter-bank. Dalam menganalisis masking, bitrate harus disiapkan dan diproses
ke dalam frame yang telah ditentukan
sinyal audio. Setiap bagianframe code
suara
mengandung code audio utama, tetapi pada beberapa
bagian:
1.
Puncak level di setiap frekuensi
subband
2.
Puncak masking
di setiap subband
3.
Jumlah bit untuk setiap sampel di setiap subband
Encoder mengambil frame dan audio untuk memisahkannya menjadi beberapa subband dengan tidak terjadi overlap
menggunakan filter bank yang mencakup
seluruh rentang frekuensi suara.Encoderakan merepesentasikan kuantitas contohsubband, format data,beserta informasi tambahan menjadi code bitstream. Sedangkan, decoder berfungsi
untuk membalikkan operasi dari encoder dan mengembalikan kuantitas dan
pemadatan bitstream ke frame audio sample.
MPEG-1 AUDIO LAYERS
MPEG-1 (Moving Picture Expert Group)
merupakan algoritma kompresi audio yang
digunakan sebagai standar internasional
pertama untuk kompresi digital dari high-fidelity audio, diadopsi oleh
ISO/IEC PADA AKHIR 1992. Terdapat 3 layer
kompresi pada MPEG-1, yaitu:
1. Layer 1Memiliki kompleksitas
paling rendah dan bitrate tertinggi,
antara 32-224 kbps per channel dengan
target bitrate 192 kbps per channel.
Digunakan pada Philip’ Digital Compact
Cassette (DCC).
2. Layer 2Memiliki kompleksitas
menengah dan ditargetkan untuk bitrate
dengan sekitar 128 kbps per channel.Digunakan pada sinkronisasi
penyimpanan video dan audio sekuen pada CD-ROM, full-motion pada CD interkatif (CD-I),
permainan multimedia, VCDs, dan DVDs.
3. Layer 3Memiliki kompleksitas
tertinggi dan menawarkan kualitas audio terbaik, terutama untuk bitrate sekitar
64 kbps per channel, biasanya dinamakan dengan format MP3.
Polyphase Implementation of MPEG-1 Filter
Bank
Flow diagram dari
ISO MPEG-1 audiostandard filter bank:
MPEG-1
Audio Psychoacoustics
Mengambil keuntungan dari
sistem pendengaran manusia yang bergantung pada karakteristik frekuensi
dikarenakan adanya masking threshold (untuk
frequency masking / temporan masking)
pada setiap frekuensi yang diberikan bergantung pada energy sinyal yang
terbatas pada frekuensi – frekuensi tersebut untuk mendapatkan kompresi yang
paling efisien.
Signal-To-Mask
Ratios (SMRs) merupakan rasio dari kekuatan sinyal jangka pendek di
setiap subband untuk layer 3 dan ambang masking minimum untuk subband
tersebut. Setelah melakukan pemetaan frekuensi berdasarkan Fast Fourier Transform (FFT) terdapat
beberapa langkah yang diperlukan untuk melakukan psychoacoustics:
1.
Menggrupkan nilai spectral sesuai dengan critical bandwith
2.
Memisahkan nilai spectral menjadi komponen tonal
dan non-tonal berdasarkan puncak spectrum daya audio
3.
Memisahkan berdasarkan komponen tonal dan
non-tonal, secara empiris akan menentukan fungsi masking untuk menentukan ambang masking
di seluruh audio yang ada di spectrum
4.
Mengatur batas bawah kemampuan mendengar suara
secara empiris menentukan ambang masking mutlak
5.
Mencari ambang untuk setiap masking
6.
Menghitung rasio SMR dan memasukkan nilai yang
didapat ke dalam bit (noise) pada
alokasi encoder.
Layer3
Audio Bit Allocations
Inner
(rate) iteration loop for MP3 rate control:
Outer
(noise and distortion) iteration loop for MP3 rate control:
Perulangan inner dan outer loop akan
berakhir ketika terdapat beberapa kondisi berikut:
1. Tidak adanya faktor skala subbandayang melebihi distorsi yang diperbolehkan
2. Iterasi yang terjadi berikutnya akan menyebabkan pengerasan pada subband lain sehingga melebihi nilai yang diperbolehkan
3. Iterasi selanjutnya akan menyebabkan semua faktor skala subband diperkuat
DOLBY AC3 AUDIO CODEC
Untuk
mendapatkan hasil audio yang bersifat
superior codingpada multichannel surround sound untuk dapat
dimanfaatkan sebagai HDTV tetapi membutuhkan data rate yang sama seperti yang digunakan dalam sistem suara stereo, maka Dolby Inc. mengusulkan dan
mengembangkan teknologi AC3 untuk DVD, HDTCV, home theatre system, dan sebagainya.Codec audio AC3 mengikuti
rekomendasi yang dibuat oleh masyarakat untuk SMPTE dengan target bitrate 320 kbps yang diharapkan mampu
memberikan kualitas suara dengan format 70 mm surround-sound yang digunakan pada film
sejak 1979. AC3 juga meggunakan psychoacoustic untuk menutupi signal audio yang tidak terdengar.
Bit Allocation in AC3
Dalam
penerapannya, AC3 menggunakan metode backward adaptive.Metode ini
bekerja denganmerubah informasi alokasi bit
dari codec audio data tanpa menrubah informasi dari encoder. Proses
encoding pada AC3 terdiri atas 6
langkah, yaitu:
a. Melakukan transformasi dari 512 blok yang overlap menjadi sekuen – sekuen frequency-coefficient blok. Masing –
masing frekeuensi direpresentasikan sebagai eksponen dan mantisa.
b.
Set dari eksponen di-encode menjadi representasi kasar dari sebuah sinyal spectrum, spectral envelope.
c.
Spectral
envelope digunakan untuk mendeteriminasi banyaknya bit yang akan digunakan
untuk meng-encode masing – masing
mantisa.
d.
Mantisa kemudian dikuantisasi berdasarkan
alokasi bit.
e.
Spectral
envelope dan mantisa akan dikuantisasi menjadi 6 blok (256 x 6 -
1536) yang akan diformat menjadi AC3 frame.
f.
AC3 bitstream
(32 – 640 kbps) merupakan sekuen dari AC3 frame.
Filter Bank
Alokasi bit dapat terjadi pada suatu transformasi
berbagi koefisien pada alokasi yang sama
atau pada level individu, koefisien yang berdekatan tetapi menerima alokasi yang berbeda.
Spectral Envelope
Setiap
koefisien transformasi dikodekan ke dalam bentuk eksponen dan mantisa. Hal
tersebut memungkinkan terjadinya dynamic
range sementara mantisa sendiri dikodekan dengan presisi terbatas hal ini
akan menyebabkan terjadinya kuantisasi noise.Satu
set kode eksponen yang
direpresentasikan dalam bentuk sinyal spectrum secara keseluruhan akan disebut
sebagai spectral envelope.Spectral
envelope dikirim setiap 6 blok sekali
denganaudio (32 ms),
dimana rata
– rata data yang dibutuhkan kurang
dari 0.39 bit per eksponen.
Coupling
Meskipun
teknik pengodean yang dimiliki oleh AC3 sudah sangat kuat, ketika kode tersebut
diperasikan pada bitrate yang sangat
rendah akan terdapat sebuah kondisi di mana kode akan berjalan di luar dari
bit. Ketika kondisi seperti ini terjadi, maka akan dilakukan sebuah teknik coupling.Coupling mengambil keuntungan
dari adanya fakta akan sifat telinga manusia yang tidak mampu mendekteksi
secara independen adanya sinyal berfrekuensi tinggi dari dua arah yang sangat
erat di dalam frekuensi. Ketika kode AC3 mengalami kekurangan bit, maka channel akan secara selektif digabungkan
dengan frekuensi tinggi tersebut. Frekuensi yang telah mengalami penggabungkan
disebut sebagai coupling frequency.
MPEG-2 ADVANCE
AUDIO CODING (AAC)
Pengembangan
teknologi dalam pengodean audio dimulai
dengan pembuatan audio baru berkualitas 64 kbps per mono channel. Beberapa
pendekatan modular yang dgunakan:
1.
Filter
bank
2.
Temporal Noise
ShapingMerupakan teknik frekuensi domain yang beroperasi pada
koefisien spectral yang dihasilkan dari analisis filter bank yang diterkapkan hanya ketika terjadi serangan pre-echos.Teknik ini dibuat untuk
menerapkan prediksi linear pada frekuensi secara sementara terhadap sinyal impulsive
yang sebagian besar terdiri dari beberapa komponen sinusoidal dalam frekuensi
domain.
3.
Prediction / Prediksi
4.
MS StereoMemungkinkan untuk terjadinya peralihan middle atau side stereo secara
subband tidak secara keseluruhan frame seperti pada MP3.
5.
Quatization / KuantisasiDengan memungkinkan adanya control yang lebih baik pada
resolusi kuantisasi, bitrate yang
dihasilkan dapat digunakan lebih efiesien.
6.
Huffman
codingMenggunakan variable
length codeword untuk mengurang redundan pada faktor skala dan kuantitas
spektrum data. Satu faktor skala Huffman codebook dan 11 spektrum Hufmann codebook digunakan di dalam MPEG-2 AAC.
7.
Bitstream FormatDigunakan untuk menyimpan redudansi serendah mungkin.
MPEG-2
sistem AAC menawarkan hasil dua arah yang berbeda antara kualitas dan
kompleksitas. Hal ini dibuat dengan tiga tujuan, yaitu main profile, low complexity (kompleksitas rendah), dan scalable sample rate profil. AAC
memberikan kinerja yang baik untuk setiap codec, memiliki kecepatan bit lebih
besar dari 64 kbps untuk audio stereo. Secara
khusus, pada 96 kbps audio stereo sebanding
dengan kualitas MPEG-1 layer 2 (192
kbps) dan MP3 di 128 kbps.
MPEG-4 AAC (HE-AAC)
Merupakan standar audio coding yang paling efisien saat
ini. MPEG-4 AAC 30% lebih efisien dari MPEG-2 AAC. Encoder ini dimanfaatkan pada penggunaan internet, mobile, dan broadcast dengan target utntuk kualitasencoding menengah dengan kecepatan 24 kbps perchannel atau lebih tinggi.
Spectral Band Replication (SBR)
SBR
menawarkan adanya peningkatan kinerja bitrate
dari audio rendah dan speech codec dengan
lebih baik dengan meningkatkan bandwith
audio pada bitrate tertentu atau
meningkatkan efisiensi pengadean pada tingkat kualitas yang diberikan.
MPEG-4 HE AAC v2
Menggabungkan
HE-AAC (AAC +) dengan sebuah parametric
stereo (PS) sebuah teknik untuk audio
yang memiliki bitrate sangat
rendah sperti 32 kbps untuk sebuah input
stereo.Teknik PS mentransmisikan satu channel
mono gabungan ditambah dengan 2-3 kbps informasi dan mencapai hampir 50%
lebih baik apabila digunakan untuk internet, mobile, penyiaran, dan domain lainnya dengan penggunaan sumber daya
terbatas. 3 jenis parameter yang dapat digunakan di dalam sistem PS untuk
menggambarkan citra stereo diantaranya:
- Interchannel Intensity Difference (IID), untuk menggembarkan perbedaan intensitas antar channel.
- Interchannel Cross – Correlation (ICC), meggambarkan korelasi silang atau koherensi antar channel. Koherensi diukur sebagai korelasi silang maksimum untuk fungsi waktu / fase.
- Interchannel Phase Difference (IPD), menjelaskan perbedaan fase antar channel.
mba, fontnya perbaikin donk. sakit mata bacanya fontnya gak sesuai. sarahku sih pakai font yang standart aja. yang pentingkan kontentnya bukan fontnya.
ReplyDelete