Whisper是一款先进的语音转文字工具,由OpenAI开发。它使用了深度学习技术,能够将音频内容准确地转换成文字。Whisper的开发旨在提供一个高效、准确的语音识别服务,支持多种语言(尤其是针对英语音频),使其能够在不同的应用场景中发挥重要作用。
核心功能
- 多语言支持:Whisper支持多种语言的识别,包括但不限于英语、中文、西班牙语等,这使得它能够服务于全球用户。
- 高准确率:利用最新的深度学习模型,Whisper在语音识别的准确性上表现出色,即使在背景噪音较多的环境中也能保持高准确率。
- 实时转写:提供实时语音转写功能,使用户能够在讲话的同时看到文本输出,非常适合会议记录、讲座笔记等应用场景。
使用说明
whisper无需网络即可使用,下载解压汉化版,直接运行即可,在「模型路径」选择下载的的模型,点击“确定”。模型存放路径没有要求,导入到软件就行。
选择要转换成文字的音频以及语言,点击「抄写」按钮,即可完成转换。
如需实时转写,可以点击「音频捕获」,选择输入设备以及要保存的文件位置和文件名即可。
Whisper的使用很依赖于所使用的模型,合适的模型会增加转写的正确率。
就中文而言,Whisper各模型对比
- tiny 是没有做断句的,或者说,直接根据停顿断句
- base 已经开始根据逻辑断句,但会出语法错误
- small 已经很少语法错误,但断句水平却直线下降,很奇怪
- medium 不仅能够完美的断句,还能判断语气
以下我使用tiny和medium两种不同模型转换的效果,音频是我使用VPot FREE-免费文字转语音软件转换的音频文件。
最后
发现medium模型的分享很容易失效,所以这里就不再分享了,只分享tiny模型让大家先体验一下。
whisper对英语的识别相对