原创Skill STT 格式转换大模型字幕

🎙️实现本地化语音转写

发表于2023-10-22

字数总计:428阅读时长:1分钟阅读量:

Skill STT 格式转换大模型字幕

🎙️实现本地化语音转写

宝昌2023-10-22

剪辑工作上时常有将录制内容输出文字稿的需求，于是研究了下 OpenAI 公司的 Whisper 并搭载 GGML 模型来实现本地化音频转文字与实时录制转写。相比于讯飞听见、网易见外等在线 STT 平台，在提升制作效率的同时，保障数据传输的安全性☂️

准备部分

这里采用的是由 Const-me 提供的 Whisper 客户端
首先下载并保存 Whisper 程序主体解压至本地

引用站外地址

获取WhisperDesktop.zip

fxhub.cn
下载并保存 GGML 模型文件

引用站外地址

获取ggml-medium.bin

fxhub.cn
运行 WhisperDesktop 目录内的 WhisperDesktop.exe
弹出程序窗口后，点击 Model Path 右侧 … 选择已保存的 ggml-medium.bin 文件

一、音频转文字

在 Language 内选择文件内的语言（Chinese）
分别在下面两个路径地址框后方选择需转换的文件和输出数据文件的位置
在 Output Format 选择输出数据类型：
点击 Transcribe 开始转换，等候弹窗提示完成即可

二、实时录制转写

点击底部 Audio Capture 切换模式
选择 Capture Device 录制设备
勾选 Save to text file 并输出文字文件位置
点击 Capture 开始转换
此时可以开始对着麦克风发言
弹出的窗口内将展示已转换的内容（支持多语种混淆转译）
发言完毕后点击原窗口 Stop 即可结束录制
文件将保存在此前设置的位置！Enjoy~

🌟 One more thing
此外推荐个更易上手的 Whisper 客户端 —— Memo

引用站外地址

测试资格需自行申请

store.memo.ac

宝昌

BaoChn

原创 🎙️实现本地化语音转写

助力发电

您的支持是我前进的动力

赞赏码

赞赏者名单

因为你们的支持让我意识到写作的价值🙏

本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自宝秘基地！

STT1 格式转换1 大模型1 字幕1

评论

匿名评论隐私政策

✅ 你无需删除空行，直接评论以获取最佳展示效果