User:Fischer Yeh/梅爾頻譜

您所提交的草稿仍需改善。在2023年12月9日由94rain (留言)审阅。

维基百科不是发表原创研究或创新理念的场所，您可以尝试从以下多个方面改善：

来源：条目应当有着与条目主题直接相关且直接支持条目信息的第二手的可靠来源的支持。无法找到可靠来源的内容会被视作原创研究。
内容：条目不应该包含有对已发表材料的新式分析和总结，如若这些分析与总结产生了原始来源中并未明确的立场。
语调：撰写条目应该使用正式、客观、第三人称的语调，并尽可能让受教育程度不同的读者看懂。条目内容不应该含有大量的术语、影射、暗语，也不应该使用“我”或“你”等非第三人称代词，除非是在引用他人的原文。

如果您确实发表原创研究，请到维基百科的姊妹项目维基学院。

如果您想继续改善您的草稿再提交，请单击窗口顶部的“编辑”选项。
如果您尚未解决上面列出的问题而直接提交，您的草稿将再次被拒绝并可能被删除。
如果您需要其它的帮助，请在建立條目專題的詢問桌询问或者使用即时通讯软件向我们经验丰富的编辑寻求即时帮助。
在提交被接受之前，请不要删除審核的评论或此通知。

如何改善您的草稿

Wikipedia:參與貢獻 – 如何编辑维基百科的基本概述。
Help:Wiki標記式語言 – 如何使用标记语言
Help:如何引用来源 – 如何引用参考文献
Wikipedia:改進條目 – 如何改进您的条目
Wikipedia:更优秀条目写作指南 – 如何进一步改善您的条目
Wikipedia:可供查證 – 确保您的条目引用了可靠的第三方来源
来源搜索：「"梅爾頻譜"」——Google：网页、新闻、学术、图书、图片；百度：网页、新闻、学术、图片；知网工具书；JSTOR；维基百科图书馆Report

在2023年12月9日由94rain (留言)审阅。 · 最后由94rain于5個月前编辑。通知作者

再次提交	请注意，如果问题未得到解决，草稿将再次被拒绝。

您所提交的草稿仍需改善。在2023年11月4日由Reke (留言)审阅。

草稿中虽然列出了一些參考文獻，但因為沒有文內引註而使來源仍然不明。参见Help:如何引用来源了解如何添加脚注。

如何改善您的草稿

Wikipedia:參與貢獻 – 如何编辑维基百科的基本概述。
Help:Wiki標記式語言 – 如何使用标记语言
Help:如何引用来源 – 如何引用参考文献
Wikipedia:改進條目 – 如何改进您的条目
Wikipedia:更优秀条目写作指南 – 如何进一步改善您的条目
Wikipedia:可供查證 – 确保您的条目引用了可靠的第三方来源
来源搜索：「"梅爾頻譜"」——Google：网页、新闻、学术、图书、图片；百度：网页、新闻、学术、图片；知网工具书；JSTOR；维基百科图书馆Report

在2023年11月4日由Reke (留言)审阅。 ·

点评：大部分来源都是arxiv，文档和medium博客也非可靠来源，可能不适合维基百科，可以帮忙导入到维基学院继续编辑。及时雨 ^留言 2023年12月9日 (六) 09:02 (UTC)

梅爾頻譜(Mel spectrogram)是一種時頻分析的方式，特別運用在聲音訊號的分析上，包括語音識別、聲音分類、音樂分析等，有助於提取和理解聲音的特徵和結構。梅爾頻譜通常經過以下流程計算而得^[1]^[2]：

計算訊號的短時距傅立葉變換
取絕對值後得到時頻譜(Spectrogram)
創建梅爾濾波器組
將時頻譜與梅爾濾波器組進行矩陣乘法

聲學起源[编辑]

梅爾頻譜的設計起源，可以以兩種人耳的聲學性質來概述: 人耳對於不同頻率的感度，以及人耳對於頻率距離的聽感。

人耳對於不同頻率的感度[编辑]

根據Fletcher, H. 與 Munson, W. A. 在1933年提出的研究^[3]，他們發現人耳對於不同頻率的感知程度並不相同。人耳在低頻時很容易分辨微小的頻率變化，擁有較高的頻率解析度，在高頻時則相反。因此，要擷取出好的聲音特徵，應該要在低頻有較好的解析度。

人耳對於頻率距離的聽感[编辑]

人耳對於頻率距離的聽感可以用現代音樂中的十二平均律來解釋。十二平均律是一種音樂調音系統，將八度音程分成12個等分，每個等分稱為半音，也就是大眾所接受的音的距離。在這個系統中，兩個相鄰的半音之間的頻率比率約為2^(1/12)，一個八度之間的頻率剛好是2倍。由此可知，人耳對於音高的距離並不是線性的頻率關係，而是對數的頻率關係。

而梅爾濾波器組就是能反應以上兩點的設計方式。

梅爾濾波器組[编辑]

梅爾濾波器組(Mel filter bank)是一種在音訊處理中廣泛應用的工具，主要用於特徵提取，以模擬人耳對聲音的感知方式。它的名稱來自 "Mel"尺度，這是一種模擬人類聽覺感知的頻率刻度。梅爾濾波器組通常由一組重疊的三角形或梯形濾波器構成。每個濾波器代表了Mel尺度中的一個頻帶，這些濾波器的中心頻率按照Mel尺度的非線性分佈排列，以更好地模擬人耳對不同音高的感知。^[2]這樣的設計，讓梅爾頻譜每個頻率索引之間的距離對應到實際頻率成對數關係，且頻率越高，三角形的面積越大，模擬了人耳對不同頻率聲音的感度。

梅爾濾波器組通常並不是直接套用在訊號上的濾波器，而是使用在訊號短時距傅立葉變換後的結果，與短時距傅立葉變換的頻譜做矩陣相乘，將頻率上的資訊壓縮並產生梅爾頻譜。
實作中，要建構一組梅爾濾波器組，通常會需要以下幾項參數^[4]：

n_mels: 梅爾濾波器的數量，也就是總共有幾個三角濾波器來涵蓋指定的頻率範圍，會影響輸出的維度
fmin & fmax: 梅爾濾波器組要涵蓋的頻率範圍
sr: 原始訊號的取樣率
n_fft: 計算快速傅立葉變換的取樣數

特性[编辑]

因為梅爾頻譜是短時距傅立葉變換(STFT)額外處理後的產生的特徵，接下來許多特性討論會與STFT有關^[5]^[4]。

維度變化[编辑]

假設在計算STFT後，所產生的矩陣維度是(n_frame, n_fft)

n_frame：代表在時間軸上總共有多少幀(frame)，主要分析的訊號長度跟STFT時窗(window)的跳步大小(hop length or hop size)有關。同樣訊號長度下，跳步大小越大，n_frame越小。可以簡單理解成time-axis
n_fft：代表頻率上的頻率成分，通常情況下與STFT時窗口大小與傅立葉轉換的取樣數相同，為了達到快速傅立葉變換演算法的最佳效能，n_fft通常是2的整數次方(512、1024...)

則梅爾濾波器組(Mel filter bank)會是一個(n_fft, n_mels)的矩陣，將兩者做矩陣乘法後，得到的梅爾頻譜維度為(n_frame, n_mels)

對稱性[编辑]

在實數訊號的STFT中，在頻率上會有對稱的現象(詳見短時距傅立葉變換)，而由於梅爾濾波器組是針對實數訊號設計的濾波器組，其僅考慮正頻率的成分，計算出的梅爾頻譜就只包含n_fft/2的頻率成分，就不會在頻率上有對稱的現象。

不可逆性[编辑]

STFT是藉由給訊號加窗後做FFT得到的，兩者都是可逆操作，因此通常情況下STFT被當作一種可逆操作。但是要畫出時頻譜，或是得到能夠比較與分析的特徵時，會將STFT計算出的複數數值取絕對值，意即捨棄STFT中的相位成分(phase)，而這個操作是不可逆的。而在梅爾頻譜中，還使用了彼此會重疊的三角濾波器，這項操作同樣也是不可逆的。結論來說，STFT是可逆操作，其時頻譜及梅爾頻譜都是不可逆操作。雖然梅爾頻譜本身是不可逆的但可以透過Griffin-Lim演算法或是深度學習中的Vocoder嘗試還原原本的訊號。

壓縮特徵[编辑]

從上面三點可以看出，梅爾頻譜是STFT的濃縮版本，它壓縮了以下三點：

捨棄相位資訊，將複數變為實數
頻率維度，將n_fft個頻率成分壓縮到n_mels維
負頻率，假設訊號是實數訊號，忽略負頻率

它需要比STFT更進一步的運算，得到更小維度的特徵，但又可以很好的保存頻率分佈的特性，以進行特徵分析與學習。

分貝數值[编辑]

計算出的梅爾頻譜繼承STFT的線性刻度，由於人耳對於聲音大小的感知是對數尺度(常見聲音單位為dB)，要將梅爾頻譜取對數尺度後，才能對應到人耳感知，進一步作為聲音特徵或是畫出梅爾時頻譜。^[2]在數位音訊中，通常設定0dB為最大數值，因此取dB尺度後的梅爾頻譜數值會是負的。^[6]

應用[编辑]

梅爾頻率倒譜係數[编辑]

利用梅爾頻譜進一步計算得到梅爾頻率倒譜係數(MFCC)，可作為音訊特徵。

音訊時頻譜[编辑]

視覺化一段音訊，比起短時距傅立葉變換(STFT)所產生的時頻譜，由於梅爾頻譜的頻率軸是對數尺度，可以更好的看出音訊中音高的資訊。

時頻分析[编辑]

同短時距傅立葉變換，可作為一種時頻特徵，了解訊號在時間與頻率上的能量變化。

深度學習[编辑]

可用於深度學習領域，將梅爾頻譜像是影像一樣讓卷積神經網路學習，進而達成音訊分析或是音訊合成等任務。在有些模型架構中，還會將梅爾頻譜視為其音訊的Embedding Space，來進行分群或是生成任務。^[7]^[8]

參考資料[编辑]

^ Leland Roberts. Understanding the Mel Spectrogram. medium. [2023-11-25].
^ ^2.0 ^2.1 ^2.2 Dalya Gartzman. Getting to Know the Mel Spectrogram. medium.
^ Fletcher, H. Munson, W. A. Loudness, its definition, measurement and calculation..
^ ^4.0 ^4.1 librosa. librosa.filters.mel.
^ librosa. librosa.stft. librosa. [2023-11-25].
^ dBFS. en.wikipedia. [2023-11-25].
^ Kundan Kumar; et al. MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis. arxiv. [2023-11-25].
^ Minz Won; et al. Evaluation of CNN-based Automatic Music Tagging Models. arxiv. [2023-11-25].

外部連結[编辑]

Category:使用创建条目精灵建立的页面

[1] Leland Roberts. Understanding the Mel Spectrogram. medium. [2023-11-25].

[good_site-2] 2.0 ^2.1 ^2.2 Dalya Gartzman. Getting to Know the Mel Spectrogram. medium.

[3] Fletcher, H. Munson, W. A. Loudness, its definition, measurement and calculation..

[librosa_mel-4] 4.0 ^4.1 librosa. librosa.filters.mel.

[5] rosa. librosa.stft. librosa. [2023-11-25].

[6] BFS. en.wikipedia. [2023-11-25].

[7] Kundan Kumar; et al. MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis. arxiv. [2023-11-25].

[8] Minz Won; et al. Evaluation of CNN-based Automatic Music Tagging Models. arxiv. [2023-11-25].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]