音频样本库(语音文本)

时间:2020-03-06 14:49:22  来源:igfitidea点击:

对于我们当前正在进行的项目,我们需要一个使用多种不同语言的口语库。

似乎有两种选择:母语使用者的文字转语音或者"真实"录音。由于质量对我们很重要,因此我们正在考虑走后一条道路。

为了为我们的应用程序创建原型,我们正在寻找包含尽可能多的不同语言单词的库。为了使我们对方法的质量有所了解,此库不应由合成语音组成。

我们知道任何可用/可访问的库吗?

解决方案

一位同事刚刚发现了这个基于社区的库,虽然不错,但规模很小:

Forvo.com

我刚刚在Audacity维基上找到了它:VoxForge。从他们的网站:

VoxForge was set up to collect transcribed speech for use with Free and  Open Source Speech Recognition Engines (on Linux, Windows and Mac). 
  
  We will make available all submitted audio files under the GPL license, and then 'compile' them into acoustic models for use with Open Source speech recognition engines such as Sphinx, ISIP, Julius and HTK (note: HTK has distribution restrictions).

还有老式收音机,虽然不确定这是我们所追求的口语。

我的猜测是,我们不会在仅包含单个单词的地方找到一个库。无论我们发现什么,都将不得不在编辑器(如Pro Tools或者Cool Edit)中打开音频并将其切成单个单词。

我们最好创建一份每种语言所需的所有单词的列表,然后在录音时找到说母语的人阅读这些单词,这样可能会更好。我们可以让他们慢慢阅读,这样我们就可以轻松地切碎每个单词。