如何开始语音转文字?

时间:2020-03-05 18:40:26  来源:igfitidea点击:

我真的对语音到文本算法感兴趣,但是我不确定从哪里开始研究它们。一堆搜索使我想到了这一点,但这是从1996年开始的,我可以肯定的是,自那时以来一直有所改进。

对此类内容有任何经验的人是否对阅读/源代码有任何建议?或者只是关于我是否想进入编写语音识别程序世界的一般性建议(有时,如果我们对域知之甚少,则很难知道要搜索什么)。

编辑:我想做一些跨平台的事情,但目前我将针对linux。

编辑2:感谢csmba的深思熟虑的答复。目前,我主要感兴趣的是能够创建允许自动化或者通过语音执行不同命令的应用程序。因此,有限的可识别命令可以串在一起。一个例子是一个音乐播放器,它接受了诸如"播放Squarepusher的专辑Hello Everything之类的命令"之类的命令,或者是一个应用程序启动器,该应用程序启动器允许用户创建语音快捷方式来启动特定的应用程序。

我意识到这是一个非常大的问题,而且我现在还没有达到实现整个​​识别引擎所需的知识水平,尽管这样做的技术使我着迷,这是我想要的自己去做。我很可能最终会花一两本关于该主题的书,然后在业余时间学习/玩"简单"的实现。

解决方案

回答

我们定位到哪个平台?如果用于Windows,则可以使用Microsoft Speech API。

回答

如果我们是该领域的新手,我绝对会建议我们读一两本书。我没有该领域的经验,所以我无法提出建议。如果我们仍在上大学(或者仍保持紧密联系),则应确定是否有任何教授可以提出建议。

我们链接的调查也可能是很好的资源。我敢肯定,自1996年以来已经取得了一些进步,但基本面不太可能发生根本变化。如果调查表写得好,那将非常值得我们花时间阅读它。

回答

对于OS X,请查看以下内容:OS X Speech Technologies

对于Windows,请检查以下内容:Microsoft Speech API

回答

我曾经使用过IBM的ViaVoice产品。它具有良好的ASR(自动语音识别)引擎和良好的文本转语音引擎。

网站不是很好,但这是嵌入式版本http://www-01.ibm.com/software/voice/support/的链接

但是,它与平台无关,并且一切都通过使用vxml的MVC体系结构(用于语音目的)来实现。

回答

这是一个巨大的问题,我不知道该如何开始...所以让我尝试给我们正确的"术语",以便我们完善自己的任务:

首先,要了解语音识别是一门复杂而多样的主题,它具有许多不同的应用。人们倾向于将这个域映射到他们想到的第一件事(通常是计算机理解我们在IVR系统中所说的话)。因此,首先让我们将概念分为以下主要类别:

人与机器:用于理解人在说什么的应用程序,但是人知道他在和机器说话,语法非常有限。例子是

  • 电脑自动化
  • 专业化:例如使某些控件自动化的飞行员(噪音很大)
  • IVR(交互式语音响应)系统(例如Google-411),或者当我们致电银行时,另一端的计算机说"说'服务'以获得客户服务"

人与人(自发讲话):这是一个更大,更复杂的问题。在这里,我们还可以将其分解为不同的应用:

  • 呼叫中心:座席与客户之间的对话,电话质量,压缩
  • 情报:2个或者更多个人之间的无线电/电话/实时对话

现在,语音转文字并不是我们应该关心的。我们关心的是解决问题。使用不同的技术来解决不同的问题。在此处查看其中一些概述。总而言之,其他方法是语音转录,LVCSR和直接方法。

另外,我们是否有兴趣成为该技术背后的PHd?我们将需要一个涉及信号处理的硕士课程,并且可能需要一个最先进的PHd。在这种情况下,我们将在开发实际语音引擎的公司工作。像Nuance和IBM这样的公司都是大公司,但是Phillips和其他初创公司也存在。

另一方面,如果我们想成为一个实施应用程序的人,那么我们将不在引擎上工作,而是在构建使用引擎的应用程序。我认为是游戏行业的一个很好的类比:
我们是在开发图形引擎(如Cry引擎),还是在开发数百款游戏之一,而所有游戏都使用同一图形引擎?

不要误会我的意思,在IBM / Nuance之外,还有很多工作可以提高搜索质量。引擎通常是非常开放的,并且需要进行很多算法调整,从而极大地影响性能。每个业务应用程序都有不同的约束条件和成本/收益功能,因此我们可以进行多年的实验以构建更好的基于语音识别的应用程序。

还有一件事:通常,我们还希望拥有良好的统计背景,而我们想要成为堆栈中较低的背景。

At this point in time, I'm mainly interested in being able to create applications that allow automation

好,我们正在这里汇聚...那么我们对"语音转文字"毫无兴趣。流行语将我们带到完整转录的世界,而我们无需去那里。我们应该关注一些更人机交互的技术,例如语音XML和IVR系统中使用的技术(Nuance是那里最大的参与者)