如何在音频文件/流中搜索内容？-IGI

时间：2020-03-05 18:42:17 　来源:igfitidea点击:

我一直想知道存在着多少种不同的搜索技术，用于搜索文本，搜索图像甚至视频。

但是，我从未遇到过在音频文件中搜索内容的解决方案。

例如：让我们假设我已经以mp3，wav和ogg文件的形式下载了大约200个播客到我的PC。它们都被通用地命名为podcast1.mp3，podcast2.mp3等。因此，如果不真正听到它们，就不可能知道内容是什么。可以说，我有兴趣找出播客谈论的"游戏编程"。我希望结果显示为：

所以我的问题是：

在我脑海中浮现的一个想法是，可以使用一个"语音到文本"软件来获取每个音频文件的文字记录以及时间索引，然后解析该文字记录以获取输出。

我当时将其视为我的业余爱好项目之一。
谢谢！

解决方案

如果要在音频流中搜索文本(即正在说的内容)，则必须使用某种语音识别算法对其进行处理，然后将文本存储为与文件关联的元数据。对于视频，我们还可以对视频中的文本进行文本识别。 Evernote已经对图像文件中的文本执行了此操作，但是据我所知，它不支持音频。

使用音频搜索音频时，可能会有类似的事情。我不知道这些算法的详细信息，但我猜它们涉及某种频率分析。 Shazam正在使用这种技术来基于音频剪辑识别歌曲。

以下是一些可能有用的Wikipedia文章：