如何在音频文件/流中搜索内容?

时间:2020-03-05 18:42:17  来源:igfitidea点击:

我一直想知道存在着多少种不同的搜索技术,用于搜索文本,搜索图像甚至视频。

但是,我从未遇到过在音频文件中搜索内容的解决方案。

例如:让我们假设我已经以mp3,wav和ogg文件的形式下载了大约200个播客到我的PC。它们都被通用地命名为podcast1.mp3,podcast2.mp3等。因此,如果不真正听到它们,就不可能知道内容是什么。可以说,我有兴趣找出播客谈论的"游戏编程"。我希望结果显示为:

  • Podcast1.mp3-时间索引3个结果-0:16:21、0:43:45、1:12:31
  • Podcast21.ogg-1个时间索引的结果-0:12:01

所以我的问题是:

  • 一个人怎么能解决这个问题呢?
  • 是否开发了合适​​的算法来执行类似的操作?

在我脑海中浮现的一个想法是,可以使用一个"语音到文本"软件来获取每个音频文件的文字记录以及时间索引,然后解析该文字记录以获取输出。

我当时将其视为我的业余爱好项目之一。
谢谢!

解决方案

回答

如果要在音频流中搜索文本(即正在说的内容),则必须使用某种语音识别算法对其进行处理,然后将文本存储为与文件关联的元数据。对于视频,我们还可以对视频中的文本进行文本识别。 Evernote已经对图像文件中的文本执行了此操作,但是据我所知,它不支持音频。

使用音频搜索音频时,可能会有类似的事情。我不知道这些算法的详细信息,但我猜它们涉及某种频率分析。 Shazam正在使用这种技术来基于音频剪辑识别歌曲。

以下是一些可能有用的Wikipedia文章:

  • 语音识别
  • 快速傅立叶变换
  • 频率分析(频谱)
  • 光学字符识别(OCR)