語音文檔檢索

本頁使用了標題或全文手工轉換
維基百科,自由的百科全書

語音文檔檢索是針對以聲音形式存在的文檔的信息檢索。其基本定義為:是給定一個檢索以及一定數量的語音文檔,返回與檢索需求關係最為接近的文檔集合。從狹義上說,檢索需求指的是一些檢索詞或短語,而相關性指的是語音內容與檢索需求的關係。從廣義上說,檢索需求還包括說話人,說話風格等高層次的信息。

最基本的語音文檔檢索系統有以下三個主要任務:

  • 對語音文檔進行切析與識別,提取出語音中內容信息。
  • 對於識別結果建立索引。
  • 根據用戶的檢索需求,返回語音文檔。

語音文檔檢索需要從語音中提取信息,而提取信息的方法包括使用語音識別引擎或藉助人工標註。在網絡環境下,根據語音文件所在網頁周圍的文字信息也可以很好的輔助檢索。

若使用語音識別進行內容分析,需要解決的問題包括語音/非語音的判決Voice Activity Detection VAD,語音背景噪聲消除,說話人信息的識別,及語音識別的準確性問題。

參考文獻[編輯]

外部連結[編輯]

[1] Google 語音索引