This content introduces a free, open-source AI tool, Whisper C Translate 2, integrated with Google Colaboratory, that allows users to quickly and accurately convert audio and video files into text, SRT, VTT, and JSON formats with just a few lines of code.
Key Points
Mind Map
Expand करने के लिए click करें
पूरा interactive mind map देखने के लिए click करें
只需要两行代码
就能将任何语音文件
转换为TxT文本文件
SRT VTT字幕文件
JSON等文本传输文件
这是我目前发现最快速
最简便的语音转文字的应用方式了
一个小时的语音文件
只需几分钟就能处理完成
它支持英语和其他96种语言
即使背景有很多噪音
它也能正常工作
如果你的口音很重
它也能搞定
最棒的是它完全免费
而且还是开源的
我们会用一个叫
Whisper C Translate 2的AI工具
Whisper是由OpenAI公司开发的
就是开发了超级火热的
Chat GPT的OpenAI
其实我在之前的影片中
介绍过Whisper AI
但是今天介绍的是它的升级版
叫做Whisper C Translate 2
它对Whisper AI做了升级
让语音转文字的速度更快 更准
使用起来也更加简单
在这里
我们需要的东西
只是一个谷歌账号
和两行简单的代码
首先
在谷歌首页
打开谷歌云盘
Google Drive
点击左上方的新建按钮
下拉找到更多
这时会打开Google Workspace应用市场
Google Workspace应用市场里面
提供了很多可以和我们常用的
例如谷歌邮箱
谷歌云盘
谷歌表格
谷歌文档等谷歌应用
互相配合辅助的工具应用
这里面涵盖了从文档处理
图像
声音处理
数据分析
代码辅助等各种各样的应用
而我们需要的应用叫做
Google Colaboratory是一个
完全免费的Python程序运行应用
我们通过浏览器就能免费使用
Google提供的高算力GPU和TPU
无需任何环境配置
那么现在我们需要搜索安装这个应用程序
点击搜索应用
输入Google Colaboratory
然后点击列表中第一个搜索结果
点击安装
点击继续
它可能会要求你用谷歌账户登录
安装完成后
点击完成并关闭市场窗口
在Google云盘的首页重新点击新建按钮
在更多选项下
我们就能看到这个应用了
打开应用后
我们先对文档命名
这有助于我们以后反复使用
我们可以命名为语音转文字
目前的AI应用在本地运行
都需要较高算力的GPU
而Colab则免费为我们提供了这个应用环境
点击Runtime运行时
Colab中的Runtime代表一个计算实例
它包含了一台虚拟机
并且可以分配一定的计算资源
如CPU GPU或TPU
用户可以选择不同类型的运行时
在这里
我们将类型选为Python 3
硬件加速选为T4 GPU
完成后
在右上方
我们可以看到连接T4的字样
点击连接
连接成功后
我们能看到这台云计算机的参数
其中包括GPU
内存
硬盘这些信息
至此
我们第一步工作就已经完成了
第二步
我们写入代码
首先
我们要在Colab中安装
Whisper C Translate 2这个应用
第一行代码就是下载安装Whisper C Translate 2
OpenAI的Whisper是一个通用的语音识别模型
它可以将音频文件转换成文本
它是基于一个大规模的多语言和多任务的监督数据及训练的
能够处理不同的口音
背景噪音
和专业术语
它也是一个多任务模型
可以进行多语言语音识别
语音翻译
而C Translate 2
则是一个为Transformer模型优化的快速推理引擎
它将原始Whisper的推理速度提高了4倍
这也是我将其称之为当前最快速的语音转文字应用的原因
点击旁边的运行代码按钮
开始安装我们需要的应用
安装完成后
点击旁边的文件夹选项
在这里拖入我们想要转录的视频文件或音频文件
也可以通过上传的方式导入文件
文件上传完成后
会出现在文件夹里
我们可以对文件做重新命名
删除等操作
在上传文件时
一定要注意看左下角的上传进度条
完整的转一圈
才表示文件被完整的上传了上去
下一步的文件转录工作才能顺利完成
所以
对于一些比较大的文件
还需要我们耐心等待一下
文件上传完成后
这时我们点击添加代码按钮
写入第二行代码
这行代码的作用是
对我们上传的文件做语音转文字的执行操作
要注意的是
中间的文件名称和文件后缀
一定要和我们上传的文件保持一致
包括标点符号和空格
任何标点符号的错误
都会导致代码运行失败
代码后面的medium指的是模型大小
OpenAI提供了5个模型
其中模型越大
处理的速度越快
我个人倾向于medium模型
这个模型既能保证质量
又能保证速度
不过因为我们使用了
谷歌提供的高速GPU硬件
如果对转写质量要求非常精确
则可以使用Whisper V3
这是目前Whisper最新
且功能最强大的版本
Whisper V3对非英语语言的处理能力
得到了极大的增强提高
要使用这个最新的模型
我们只需要在执行第二行代码时
将medium模型更改为large-V3即可
配置完成后
点击执行代码就OK了
由于我们使用了
Colab提供的高速GPU
一般十几分钟的语音文档
在1到3分钟就能处理完成
点击文件夹旁边的文件刷新按钮
我们的转写文件就能显示了
其中包括了字幕文件
SRT VTT格式和Tex文本格式
TSV表格文本
因为我们使用的是
Colab提供的免费算力
Colab为了节省资源
在一定时间后
会自动删除我们生成的文件
所以建议当转写完成后
尽快下载我们需要的文本文件
以上就是使用Colab
做语音转文字的全过程了
视频MP4文件的转写过程
是完全一样的
另外
如果我们想将中文
或其他语言的语音文件
直接翻译为英文
也是可以做到的
Whisper是一个集合了
多语言语音识别
语音翻译和语言识别
多种功能的AI模型
在使用第二行代码时
我们只需要给后面加上
TaskTranslate命令
这个命令可以把默认的
转写命令更改为翻译命令
这段代码我也会贴在
视频下方的描述栏当中
最后
需要注意的是
当我们后面要反复使用
这个语音文件转文字文档时
只需要进入谷歌云盘
双击打开该文档
运行即可
不需要再次填入代码
最后
我们再次强调一下
使用过程中的注意事项
1
在使用代码时
一定要注意标点符号和空格
任何标点符号的错误
都会导致代码运行失败
2
在上传转写文件时
一定要注意看左下角的
上传进度条
完整的转一圈
才表示文件完整被上传了
3
由于我们使用的是
Colab提供的免费算力
在转写完成后
尽快下载生成的文件
否则会被自动删除
4
首次使用后
可以直接在谷歌云盘中
打开文档重复使用
无需重新添加代码
5
Whisper并没有区分
简体和繁体
只有中文一个识别选项
可以通过Initial Prompt命令
解决这个问题
例如
如果希望输出简体中文
就直接使用简体中文输入
这是一段简体中文普通话
如果希望输出繁体中文
就直接使用繁体中文输入
这是一段繁体中文国语
Initial Prompt命令的本质
就是给转写任务
提供一个背景条件
告诉AI转写语音的背景是什么
当然
我们还可以根据语音内容
定义为
这是一段科技演讲
或者产品发布会等等
这样能够帮助AI转写的结果
更加准确
6
Task Translate
只能将转录内容
统一翻译为英文一种语言
如果要将英文语音翻译为中文
则最好使用Chat GPT
毕竟Chat GPT的文本翻译功能
是最专业的
当前Chat GPT增加的新模型
GPT 4.1支持的上下文窗口为100万
意味着一次性可以处理
几十万字的文本
而它的输出窗口则达到了3万
意味着一次性可以输出
至少2万多个汉字
所以对于常规的翻译任务
直接拖入Chat GPT
是最简单的解决方案
对于如何将英文翻译成
非常准确的中文
我推荐使用AI专业人士
宝玉老师提供的命令模板
命令十分简单
只有一句话
请尊重原意的前提下
保持原有格式不变
用中文重写下面的内容
视频当中提到的所有代码
我会放在视频下方的描述栏中
需要的朋友请查看使用
希望今天的视频内容
对您的工作生活有所帮助
我是老张
我们下期再见
Video के उस moment पर जाने के लिए कोई भी text या timestamp click करें
Share करें:
ज्यादातर transcripts 5 सेकंड से कम में तैयार
एक Click में Copy125+ भाषाएंContent Search करेंTimestamps पर जाएं
YouTube URL Paste करें
कोई भी YouTube video link डालें और पूरा transcript पाएं
Transcript निकालें
ज्यादातर transcripts 5 सेकंड से कम में तैयार
हमारा Chrome Extension लें
YouTube छोड़े बिना transcript तुरंत पाएं। हमारा Chrome extension install करें और watch page पर ही किसी भी video का transcript one-click में access करें।