有人知道EncSpot這個軟體嗎?

討論MP3、WAV、MIDI、WMA甚至其他數位音訊的播放、製作、轉換等。

版主: DearHoney

TMNEXT
神人
文章: 271
註冊時間: 2002-01-02 08:00
來自: 人畜同樂促進會

文章 TMNEXT »

<!-- BBCode Quote Start --><FONT COLOR=GREEN>
<!-- BBCode Quote Start --><FONT COLOR=GREEN>
有很大的不同,補 0 的話是
原來 00000001 --> 0000000100000000
擴展兩倍 x2 的話是 00000001 --> 0000000000000010
音量差 14 倍
</FONT><!-- BBCode Quote End -->
?_? ?_?
前面說的8bit -> 9bit
擴展2倍不是剛好跟補零一樣?
1 -> 2 00000001 -> 000000010
2 -> 4 00000010 -> 000000100
</FONT><!-- BBCode Quote End -->
確實是一樣的 ^^;
我人老了,神智不清 :P
TMNEXT
神人
文章: 271
註冊時間: 2002-01-02 08:00
來自: 人畜同樂促進會

文章 TMNEXT »

把那天偷懶沒寫的部分寫完...

MP3x 的圖形示範說明
壓縮的 wav 檔是 EBU SQAM test tone 27,著名的 pre-echo 殺手 "castanets" :P
這個 wav 檔有非常多變態的 attack 波形,是各種 encoder 最痛恨的那一種壓縮對象 :P
Lame CBR 128kbps 壓縮,所有參數都是預設值,移動到第 37 個 frame = 第 0.97 秒
畫面
圖檔
最上面那行顯示的是 frame header information,紅色的字體代表 "on"
js 所在的這個欄位會顯示幾種情況: mono, joint-stereo, stereo,代表這個 frame 是以哪一種聲道模式壓縮。如果是 joint-stereo(js),還會顯示是 mid-side stereo,還是 intensity stereo。(ms 和 is 的意義,請參照 LukeLo 大大的「漫談數位音樂」一文)
mdb 代表 main data begin,告訴 decoder 往前移動多少 bytes 才是這個 frame 真正 data 的起始位置。後面兩個數字則是 壓縮這個 frame 的 MDCT 係數所花費的 bit 數/壓縮這個 frame 之前 Bit Resevior 的大小

第一個視窗是原始 PCM 的波形,平常是顯示左或右聲道,上面我切換為顯示 mid-channel,下面是 side-channel
圖檔
最左和最右邊的黃色的線之間包含的是這個 frame 壓縮的 1152 個 sample。中間的黃色的線再把這個 frame 切成兩半,分為兩個 granule,各 576 個 sample。granule0 和 granule1 分別做 MDCT 轉換,對應下面的兩個 MDCT 視窗。可以看到圖中右邊的 granule1 有一個音量急遽上升的 attack 波形,所以 Lame 把這個 granule 再切成三個 short block(多出兩條黃線切成三等分),各 192 個 sample,分別做 MDCT 轉換。
視窗底部的藍色和綠色的線,代表 psy-model FFT window 的長度,分別對應下面的左右兩個 FFT 視窗。前面說 ISO 是用 1024 個 sample 的 FFT window size,Lame 則是用 768 個 sample 的 window size。(這是有原因的,因為 768 個 sample 的長度對於計算一個參數叫做 perceptual entropy 會比較準確。由 perceptual entropy 這個參數 psy-model 可以知道這個波形發生了 attack,告知 MDCT 做 window switch。768 個 sample 的長度較短,越少距離 granule 中心越遠 sample 會被扯進來干擾計算,對於 pe 的計算判斷會較準確。當然有一好沒兩好,FFT window size 越小,頻率的解析度就越不精確,遮蔽計算的效果越差。凡事都是對立需要妥協的,這是不管在那個領域都會成立的真理 :P

第二個視窗是壓縮之後,synthesis filter bank 還原回來的 PCM 波形(播放時候的 PCM 波形)。
下面是 ISO 的 psy-model 壓出來的結果
圖檔
可以看到 ISO 的 psy-model 漏掉了這個 attack,沒有做 MDCT 的 window switch(沒有切成三個短的 short block,看黃色的線)。事實上 ISO 的 psy-model 是慢了一步,在下一個 granule 才換成 short block。(因為 1024 個 FFT window size 的關係?)
所以可以看到右邊的 granule1 大音量開始的前面,波形多出了一堆雜訊,這個就是我們之前常常說的 pre-echo :)

第三個視窗是 MDCT 的係數,左邊的 MDCT0(start) 代表用的是中介窗 start(從 long block 換到 short block 不是立刻轉換,中間會經過幾中介的 window,照這樣的順序:normal--> start--> short--> end--> normal),右邊則是 MDCT1(short),代表使用 short block。
切換為顯示量化之後的 MDCT 結果
圖檔
第三個視窗是 FFT 的頻譜,各個顏色的意思上次有說過,後面那些數字 pe 是 perceptual entropy,其他的不知道 :P

最後一個視窗是 SFB,scale = Scalefac_scale, preflag = pre-emphasis flag, ggain = global gain
各個 bar 為 Scale factor band,一開始的 scale factor 都是 0,然後有放大的 band 長條圖會變長。

QuickTime 6.0 可以壓 MPEG4 AAC,用的是 Dolby AAC 的引擎(改自目前世界上最頂尖(?)的 FhG professional AAC Codec,速度比較快,音質稍微差一點,類似 MP3Enc 和 FastEnc 的差別)。psy-tel AAC 的開發者 Ivan 用這首 castanets 測試,結果發現 QT6.0 AAC 的 psy-model 會漏掉幾個 attack 沒有切換為 short block(而 FhG 的 AACdemo 2.2、LiquidAudio AAC 則正常)。不過也有人持反論,認為這幾個 attack 相隔距離太近,pre-echo 瑕疵可以利用前一個 attack 的 post-masking 遮蔽掉。也許有興趣的人可以試試看,看看 pre-echo 到底聽不聽得到 :)
JamesT
神人
文章: 1347
註冊時間: 2001-01-04 08:00

文章 JamesT »

哇咧......二零零二年七月的文章, 我竟然從沒看過, 今天是看到站務區裡面一篇[推薦]功能的討論才連到這裡來的......我真是太混了~ 我對不起社會大眾啊~ XD
Shade 
初學者
文章: 7
註冊時間: 2002-10-18 16:31
來自: Alice's room

文章 Shade  »

好複雜<一般人沒有必要知道這麼詳細吧? :-.-:
我想討論區還是多一點實用性的討論對大家比較有幫助。

--
雖然我這樣回好像怪怪的,不過還是不得不說一下 :P
望大大海涵 ^^;
頭像
kouyoumin
神人
文章: 1612
註冊時間: 2001-01-05 08:00
來自: 中正紀念堂
聯繫:

文章 kouyoumin »

話說某愛分身大大好久沒出現了
是不是又換成了新ID :roll:
節約用電 - VIA EPIA CN運作中
JamesT
神人
文章: 1347
註冊時間: 2001-01-04 08:00

文章 JamesT »

kouyoumin......你這樣太明顯了啦......XD XD
beyond
大師
文章: 53
註冊時間: 2002-10-13 10:13

文章 beyond »

哪裡可以下載EncSpot這個軟體?
Thanks!
德國大香腸
初學者
文章: 44
註冊時間: 2004-07-21 11:38

文章 德國大香腸 »

TMNEXT 寫:
如果是單聲道模式,128kbps 相當於 dual channel 模式的 256kbps(因為單聲道需要壓縮的資料少一半,等於兩倍於雙聲道模式的有效流量。dual channel 左右聲道各只有 64kbps 的流量)。

所以相對於 dual channel,單聲道模式的有效 bitrate = 實際 bitrate * 2
但是相對於 joint stereo 模式,有效 bitrate = 實際 bitrate * 1.85
為什麼單聲道模式隨著比較者的不同
有效bitrate的算法會不一樣呢?
TMNEXT
神人
文章: 271
註冊時間: 2002-01-02 08:00
來自: 人畜同樂促進會

文章 TMNEXT »

德國大香腸 寫: 為什麼單聲道模式隨著比較者的不同
有效bitrate的算法會不一樣呢?
因為不同的立體聲壓縮模式,壓縮的效率不同,所以給予不同的乘數。

Dual Channel 256kbps,每個聲道的流量只有 128kbps,所以每個聲道的實際有效流量,和單聲道 128kbps 相同。
故得出 Mono 128*2 = Dual Channel 256

Mono 128kbps 的音質,用 Dual Channel 模式壓縮的話,需要 256kbps 的流量,壓出來音質才相等。

Joint Stereo 模式沒有固定給那個聲道多少流量,而是動態的調節分配,這種壓縮模式的壓縮效率比較高,所以可以用比較低的流量,達到 Dual Channel 256kbps 相同的音質。
故得出 Mono 128*1.85 = Joint Stereo 236.8kbps

Mono 128kbps 的音質,用 Joint Stereo 模式壓縮的話,只需要 236.8kbps,就可以達到相同水準的音質。

當然,以上這些數據乘數,只是 EncSpot 的作者的大略推算,並不是真的很精確的倍率,並不是真的 JS 模式就是 Mono 的 1.85 倍,這個只是概略的計算方式,用來「顯示」、「反應」不同壓縮模式下,因為不同壓縮效率,所產生的音質差異。
頭像
argentala
大師
文章: 90
註冊時間: 2001-10-13 08:00

文章 argentala »

提供一點點訊息....
官方網站 目前出到2.0 並有需付費的pro版
http://www.guerillasoft.co.uk/

剛剛測了自己常聽的歌,自己壓的當然沒問題,
但有些是國內買不到,抓來聽的...結果很多都顯示是 xing (old)... 真是怕怕><
不過1997年左右也的確只有xing跟mp3enc等少數壓mp3的軟體...

不知道2.0版的準確率提昇了多少...
回覆文章