能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么

时间：2023-06-02 阅读：1142

大型语言模型（LLM）正在改变每个行业的用户期望。然而，建立以人类语音为中心的生成式人工智能产品仍然很困难，因为音频文件对大型语言模型构成了挑战。

是的，处理长音频的问题是语音识别领域一直以来的难点之一。传统的语音识别系统通常使用窄带语音频率（8 kHz），因此在处理长音频时需要将其分割成多个短语音段进行识别。但这种方法会带来一些问题，比如断句不准确、上下文信息缺失等。

基于 LLM 的语音识别模型可以一定程度上解决这个问题。由于 LLM 可以学习长文本之间的关系，因此可以直接处理长音频并在模型内部进行对齐。但是，如何将长音频有效地输入到模型中仍然是一个挑战。

LeMUR 是一个很好的尝试，通过将长音频分别拆分成多个小片段，然后对每个小片段进行短时语音特征提取，并将特征序列输入到 LLM 中进行处理，以便处理长音频文件。与传统的分段方式相比，这种方式可以更充分地利用音频文件中的上下文信息，提高语音识别的准确度和连续性，同时也可以更好地应对长音频文件的处理问题。

当然，这种方式也需要一定的硬件和软件支持，如高性能 GPU、大内存、高效的分布式训练算法等。在实际应用中，还需要根据具体情况对模型进行优化和调整，才能达到最佳效果。

试用地址：https://www.assemblyai.com/playground/v2/source

LeMUR 是 Leveraging Large Language Models to Understand Recognized Speech（利用大型语言模型来理解识别的语音）的缩写，是将强大的 LLM 应用于转录的语音的新框架。只需一行代码（通过 AssemblyAI 的 Python SDK），LeMUR 就能快速处理长达 10 小时的音频内容的转录，有效地将其转化为约 15 万个 token。相比之下，现成的、普通的 LLM 只能在其上下文窗口的限制范围内容纳最多 8K 或约 45 分钟的转录音频。