Lossy audio compression - 六種壓縮格式於 128 kbps 的比較

討論MP3、WAV、MIDI、WMA甚至其他數位音訊的播放、製作、轉換等。

版主: DearHoney

Vboy
神人
文章: 443
註冊時間: 2001-01-16 08:00
來自: 台北
聯繫:

Lossy audio compression - 六種壓縮格式於 128 kbps 的比較

文章 Vboy »

原文在:http://blog.trevoryu.net/post/1/20

這個測試是由 Roberto Amorim 所主持,邀請自願者參加針對 lossy audio compression 於 128 kbps 品質的雙盲聆聽試驗,於 2004 年 5 月進行。Roberto 過去也主持了其它 128 kbps、64 kbps、AAC 及 MP3 等的比較,在他的網站上都可以找到。可以說是目前網路上少數較為嚴謹的聆聽測試。

受測的格式、encoder 及其參數分別為:

* MP3, LAME encoder 3.96, -V5 --athaa-sensitivity 1
* AAC, Apple iTunes 4.2, 128 kbps
* OGG, Ogg Vorbis aoTuV tuning b2, -q 4.35
* MPC, Musepack 1.14b, --quality 4.15 --xlevel
* ATRAC3, Sony ATRAC3, 132 kbps
* WMA, Microsoft WMA9 Std, 128 kbps VBR

上列 encoder 及最佳參數選擇皆根據老手玩家們的經驗而定下。

音樂樣本包含古典、easy listening、拉丁、電子舞曲、人聲、靈魂、金屬、鋼琴獨奏、交響、Celtic、流行、new wave、民謠、龐克、福音、搖滾等共十八個。

每個音樂樣本所採用的評分數量自 12 到 27 人不等。

圖檔

整體評分結果,Vorbis aoTuV 與 Musepack 最為優秀,第二集團為iTunes AAC 和 LAME MP3,第三是 WMA Standard,最後是 ATRAC3。

與前次的 128 kbps 測試比較起來,LAME MP3 又改進了不少,並追上iTunes AAC。Ogg Vorbis 經 Ayumi 等人的調整後進步相當多,成為目前表現最優秀的 encoder 之一。WMA Standard 仍輸給 LAME MP3。而 Sony 用在 MD 的 ATRAC3 表現不佳。

雖然樣本數不算太多,仍具有參考價值。位居前兩名的 Ogg Vorbis 和 Musepack 都是 open source,而且持續進步當中。已發展五年的 LAME,目前也是 open source;屬於上一代格式的 MP3 還能持續發展,也值得肯定。與封閉專利格式相比,open source 在這方面的表現確實精采。

就普及性而言,短期內 MP3 應會維持領先的地位,尤其是在硬體播放器方面。而線上音樂販售的規模正擴大當中,其中所使用到的 AAC、WMA、ATRAC 等也有提高普及性的可能。

就自用來講,只要播放器有支援,Ogg Vorbis 和 Musepack 會是更好的選擇。

- Roberto's "Multiformat at 128kbps public listening test"
- RareWares - LAME MP3、Mpeg 4、Musepack、AAC、Ogg Vorbis、無失真聲音壓縮等程式下載

播放器建議
- Foobar2000 (Win32)
- XMMS (Linux / Unix)
- VLC (Win32 / Mac OS X / BeOS / Linux / Unix...)
最後由 Vboy 於 2006-09-09 18:26 編輯,總共編輯了 1 次。
Vboy
神人
文章: 443
註冊時間: 2001-01-16 08:00
來自: 台北
聯繫:

文章 Vboy »

剛剛才發現網友AZeL先前已貼過原討論連接 在此順便補上  :o
http://www.rjamorim.com/test/multiforma ... sults.html
Vboy
神人
文章: 443
註冊時間: 2001-01-16 08:00
來自: 台北
聯繫:

文章 Vboy »

頭像
巨熊
神人
文章: 2741
註冊時間: 2001-04-17 08:00
來自: 臥熊崗
聯繫:

文章 巨熊 »

這個測試, 表面看起來很專業, 但深入去看總覺得在設計上不是太好.

測試雖說是128kbps, 可是一些是CBR, 另一些卻是VBR. Bitrate高出128kbps的, 就說那是VBR的好處. 這好像說不通吧. 細看各格式的編碼設定, 雖說是優化, 但那肯定是把更多的不安定因素加進去. 就這類測試而言, 把過多不安定因素加進去本來就是大忌.

雖說最佳參數選擇皆根據老手玩家們的經驗, 可是那真的是最佳嗎? 因為別人告訴你那是最佳參數, 那你就相信那是最佳參數嗎? 如果測試的大前提是平均128kbps的話, 別的CODEC不談, LAME的話用-q0 --abr 128不是更好嗎? 再看OGG, 那並不是一般版本的OGGENC. 為何不導入原版OGGENC配以最簡單的-b128參數去進行比較, 以證實改版的優越性呢?

這是我的個人意見, 熟悉各種CODEC使用的大家, 希望也一起來討論一下.
Silky
大師
文章: 82
註冊時間: 2001-01-09 08:00
來自: Phantasmagoria

文章 Silky »

巨熊 寫:這個測試, 表面看起來很專業, 但深入去看總覺得在設計上不是太好.

測試雖說是128kbps, 可是一些是CBR, 另一些卻是VBR. Bitrate高出128kbps的, 就說那是VBR的好處. 這好像說不通吧. 細看各格式的編碼設定, 雖說是優化, 但那肯定是把更多的不安定因素加進去. 就這類測試而言, 把過多不安定因素加進去本來就是大忌.
有些使用 VBR 是因為沒有 CBR 模式可以用。
有些流量比較高是因為沒有 128kbps 可以用,例如 ATRAC3,只有 132kbps 可以選。
Lame 用 VBR 模式的表現比較好,用 CBR 綁手綁腳,我想可以不用比了 :p
其他能用 VBR 就用 VBR,我想取表現最好的模式來比較,比較實用,也比較有意義。
裡面用 CBR 的,我想只有 iTune,而 iTune 128kbps 是壓 AAC,AAC 的 CBR 模式,實際上等於 VBR 模式,AAC 的位元儲存槽比 MP3 大非常多,而且沒有 MP3 的限制,所以它的 CBR 實際等於 VBR。
關於這方面的疑慮,CBR/VBR 的爭議,我記得在開始測試之前,Hydrogenaudio 上就已經有一番討論,最後做這個決定,是有它的道理的。
雖說最佳參數選擇皆根據老手玩家們的經驗, 可是那真的是最佳嗎? 因為別人告訴你那是最佳參數, 那你就相信那是最佳參數嗎? 如果測試的大前提是平均128kbps的話, 別的CODEC不談, LAME的話用-q0 --abr 128不是更好嗎?
那些參數是經過長時間許多次的測試和試驗,由許\多不是「一般人」的狂熱份子,經過多次反覆的實驗,並且由 lame 的開發者自己提供意見,最後決定的參數。
我想 lame 的開發者的建議,不可能提供不好的參數砸自己的腳,多位測試者對 lame 壓縮原理的瞭解,對使用的參數實際上是做了什麼,會對程式造成什麼影響,都有一番深入的研究,經過眾人深刻的體驗,最後決定的這個參數,自有其道理。
至於為什麼不用 ABR,這個以前也已經討論過了,因為 ABR 不如 VBR。
再看OGG, 那並不是一般版本的OGGENC. 為何不導入原版OGGENC配以最簡單的-b128參數去進行比較, 以證實改版的優越性呢?
因為原本的 OGG Vorbis 對決其他改版的 Vorbis,這個測試,之前就已經在 Hydrogenaudio 的 OGG 板上如火如荼地做過了,最後從眾家改版之中脫穎而出,公認音質最好的,就是 aoTuV,所以這次多種格式的對決,OGG Vorbis 便推派最好的 aoTuv 出來參戰 :p
頭像
巨熊
神人
文章: 2741
註冊時間: 2001-04-17 08:00
來自: 臥熊崗
聯繫:

文章 巨熊 »

簡單作了一個測試...

http://hk.geocities.com/hk_giantbear/rmaa/lame_128.htm

這是以下兩個不同設定的比較:

-q0 --abr 128
-q0 -V5 --athaa-sensitivity 1

雖說客觀數據並不可以絕對地判定主觀聆聽的感受, 但從圖表看那所謂最佳設定真的比較差. 有趣地, 由數據到圖表, 它卻更接近OGG的表現, 特別是那高的出奇的IMD水平.
頭像
巨熊
神人
文章: 2741
註冊時間: 2001-04-17 08:00
來自: 臥熊崗
聯繫:

文章 巨熊 »

再看原版OGG跟aoTuV版...

-b128下的測試
http://hk.geocities.com/hk_giantbear/rm ... r128_1.htm

那個所謂最佳的-b2 -q 4.35
http://hk.geocities.com/hk_giantbear/rm ... r128_2.htm

aoTuV版在頻響方面沒有原版那麼激進, 應該是加了Low Pass Filter的結果. 我想, 如何不用那Low Pass Filter, OGG的聲音聽起來可能會有Ringing Noise.

我沒看完所有有關的討論. 無論如何, 那是128kbps的測試. 任何一方勝出也好, 在其他Bit rate下的表現又是另一回事了.
bennetng
神人
文章: 665
註冊時間: 2001-05-07 08:00
來自: 香港
聯繫:

文章 bennetng »

rmaa 不適合用來測失真壓縮的品質啊~ rmaa 的作者自己也是這樣說
http://forum.rightmark.org/topic.cgi?id=4:521

我自己通常是以一些無 reverb 的敲擊樂 sample 去耳測起落的速度 (好像叫 pre echo?) 專注於 hi-hat 這類高頻特多的音色去聽高頻的失真, 另外就是反轉立體聲波形的其中一個聲道(即所謂的人聲消除法)去聽 stereo encoding 的品質 (很多壓縮格式在這時聽起來都會有不少「泡沫狀」的刮耳怪聲)... 當然不乏 ABX, 只是 ABX 很易令耳朵疲勞, 通常都是頭四五次全中但後來就開始失準了...
Silky
大師
文章: 82
註冊時間: 2001-01-09 08:00
來自: Phantasmagoria

文章 Silky »

用 RMAA 測試失真壓縮法的音質好壞,沒有太大的意義。
因為這跟 RMAA 用來測試的目標、用途不同。
RMAA 是測單純的原始訊號,經過聲音系統的播放、處理之後,會造成多少失真。理想的狀況,失真越少越好,和原始訊號越相近越好。

失真壓縮法則是擺明了會有失真,重點是這個失真是怎麼一個失真法。它要求的不是「數值上」的失真越小越好,而是「聽覺上」「認知上」「人耳感知上」,聽起來失真會最小的,那才是最好。\r
所以圖形測出來難看,不代表它聽起來會有明顯失真,因為對於這些失真的「安排」,是根據「人類聽覺心理模型」來做判斷,決定各個地方可以允許多少的失真,而這個失真是不會被人耳所察覺的。\r

由於心理聲學模型是針對音樂、自然聲音訊號而設計的,在單純的測試訊號輸入下測試圖形難看,不代表在音樂訊號的輸入下,失真就會比較明顯。
所以用 RMAA 來測試失真壓縮法,從圖形上我們是看不出什麼結果的,圖形上顯示有很大的 IMD 失真,可是那些失真很有可能心理聲學模型判斷可以允許的雜訊,因為遮蔽效應的作用,實際上我們是聽不到那些雜訊的。\r

目前最好的測試方法,還是用耳朵去聽,做 ABX Test。
我想在 128kbps 的流量,大部分的曲子,aoTuV 勝出的幅度很明顯,隨便壓幾首歌,做 ABX Test,我想您會得到和那個測試一樣的結論。
頭像
巨熊
神人
文章: 2741
註冊時間: 2001-04-17 08:00
來自: 臥熊崗
聯繫:

文章 巨熊 »

以前在大學的時候, 我也是研究影音壓縮技術的, 用聆聽測試的重要性我非常清楚. 因此我很清楚的說"客觀數據並不可以絕對地判定主觀聆聽的感受". 如果你沒有留意我這樣說, 那我再次在此強調好了.

不過反過來說, 請不要以為客觀數據沒有考慮聽覺心理就完全不管用. 在評定此類壓縮技術, 客觀數據也有一定的參考價值. 在設計壓縮的演算法及微調參數上, 本來就需要反覆比較聆聽測試及客觀數據的. 因此, 我們不能因為聽覺心理的關係而否定客觀數據的參考價值.
回覆文章