Mozilla以创新和实验而闻名的团队已将OpenAI的Whisper自动语音识别系统集成到他们的llamafile项目中。该项目旨在以单文件可执行文件的形式提供本地硬件友好的大型语言模型。本地运行转录软件的能力可以让注重隐私、希望转录敏感音频的用户受益。
对于那些不熟悉llamafile项目的人来说,MozillaOcho团队正在努力通过结合llama.cpp和CosmopolitanLibc(两者都使用C/C++编程语言)来消除LLM安装的复杂性。Llamafile使用llama.cpp提供的Meta的LLaMA模型的推理,并将其与CosmopolitanLibc的一次构建随处运行的C转换相结合。CosmopolitanLibc还消除了在Linux、Mac和Windows机器上运行C时对解释器或虚拟机的需求。
Mozilla的HuggingFace简介中详细介绍了llamafile项目的最新成员Whisperfile。根据他们的页面,“Whisperfile是OpenAIWhisper的高性能实现,由MozillaOcho作为llamafile项目的一部分创建,基于GeorgiGerganov等人编写的whisper.cpp软件。”对于该项目,团队将模型所需的所有权重打包到“whisperfiles”中,这些文件保留了CosmopolitanLibc中的功能,使模型可以在大多数系统上运行。
团队GitHub个人资料上的“Whisperfile入门”文档详细介绍了一个简单的安装过程,仅包含三个步骤。用户下载模型、构建软件并运行程序后,可以从三种不同的模型中进行选择,开始转录音频。这些模型大小不一,转录过程中的速度与准确性成正比。此外,Whisperfile可以使用多语言模型和“--translate”标志将不同的语言翻译成英语。