0:00 只需要两行代码
0:01 就能将任何语音文件
0:02 转换为TxT文本文件
0:04 SRT VTT字幕文件
0:06 JSON等文本传输文件
0:08 这是我目前发现最快速
0:10 最简便的语音转文字的应用方式了
0:12 一个小时的语音文件
0:14 只需几分钟就能处理完成
0:16 它支持英语和其他96种语言
0:18 即使背景有很多噪音
0:20 它也能正常工作
0:21 如果你的口音很重
0:23 它也能搞定
0:24 最棒的是它完全免费
0:26 而且还是开源的
0:27 我们会用一个叫
0:28 Whisper C Translate 2的AI工具
0:30 Whisper是由OpenAI公司开发的
0:32 就是开发了超级火热的
0:34 Chat GPT的OpenAI
0:35 其实我在之前的影片中
0:37 介绍过Whisper AI
0:38 但是今天介绍的是它的升级版
0:41 叫做Whisper C Translate 2
0:43 它对Whisper AI做了升级
0:44 让语音转文字的速度更快 更准
0:47 使用起来也更加简单
0:48 在这里
0:49 我们需要的东西
0:50 只是一个谷歌账号
0:51 和两行简单的代码
0:52 首先
0:53 在谷歌首页
0:54 打开谷歌云盘
0:55 Google Drive
0:56 点击左上方的新建按钮
0:58 下拉找到更多
1:00 这时会打开Google Workspace应用市场
1:03 Google Workspace应用市场里面
1:04 提供了很多可以和我们常用的
1:06 例如谷歌邮箱
1:07 谷歌云盘
1:08 谷歌表格
1:09 谷歌文档等谷歌应用
1:11 互相配合辅助的工具应用
1:12 这里面涵盖了从文档处理
1:14 图像
1:15 声音处理
1:16 数据分析
1:17 代码辅助等各种各样的应用
1:19 而我们需要的应用叫做
1:22 Google Colaboratory是一个
1:23 完全免费的Python程序运行应用
1:25 我们通过浏览器就能免费使用
1:27 Google提供的高算力GPU和TPU
1:30 无需任何环境配置
1:32 那么现在我们需要搜索安装这个应用程序
1:35 点击搜索应用
1:36 输入Google Colaboratory
1:38 然后点击列表中第一个搜索结果
1:40 点击安装
1:41 点击继续
1:42 它可能会要求你用谷歌账户登录
1:45 安装完成后
1:46 点击完成并关闭市场窗口
1:48 在Google云盘的首页重新点击新建按钮
1:51 在更多选项下
1:52 我们就能看到这个应用了
1:54 打开应用后
1:54 我们先对文档命名
1:56 这有助于我们以后反复使用
1:58 我们可以命名为语音转文字
2:00 目前的AI应用在本地运行
2:02 都需要较高算力的GPU
2:04 而Colab则免费为我们提供了这个应用环境
2:07 点击Runtime运行时
2:09 Colab中的Runtime代表一个计算实例
2:11 它包含了一台虚拟机
2:13 并且可以分配一定的计算资源
2:15 如CPU GPU或TPU
2:17 用户可以选择不同类型的运行时
2:19 在这里
2:20 我们将类型选为Python 3
2:22 硬件加速选为T4 GPU
2:24 完成后
2:25 在右上方
2:26 我们可以看到连接T4的字样
2:28 点击连接
2:29 连接成功后
2:30 我们能看到这台云计算机的参数
2:32 其中包括GPU
2:33 内存
2:34 硬盘这些信息
2:36 至此
2:36 我们第一步工作就已经完成了
2:38 第二步
2:39 我们写入代码
2:40 首先
2:41 我们要在Colab中安装
2:43 Whisper C Translate 2这个应用
2:44 第一行代码就是下载安装Whisper C Translate 2
2:48 OpenAI的Whisper是一个通用的语音识别模型
2:51 它可以将音频文件转换成文本
2:53 它是基于一个大规模的多语言和多任务的监督数据及训练的
2:57 能够处理不同的口音
2:59 背景噪音
3:00 和专业术语
3:01 它也是一个多任务模型
3:03 可以进行多语言语音识别
3:05 语音翻译
3:06 而C Translate 2
3:07 则是一个为Transformer模型优化的快速推理引擎
3:11 它将原始Whisper的推理速度提高了4倍
3:14 这也是我将其称之为当前最快速的语音转文字应用的原因
3:18 点击旁边的运行代码按钮
3:20 开始安装我们需要的应用
3:21 安装完成后
3:22 点击旁边的文件夹选项
3:24 在这里拖入我们想要转录的视频文件或音频文件
3:28 也可以通过上传的方式导入文件
3:31 文件上传完成后
3:32 会出现在文件夹里
3:34 我们可以对文件做重新命名
3:36 删除等操作
3:38 在上传文件时
3:39 一定要注意看左下角的上传进度条
3:42 完整的转一圈
3:43 才表示文件被完整的上传了上去
3:46 下一步的文件转录工作才能顺利完成
3:48 所以
3:49 对于一些比较大的文件
3:51 还需要我们耐心等待一下
3:52 文件上传完成后
3:54 这时我们点击添加代码按钮
3:56 写入第二行代码
3:57 这行代码的作用是
3:59 对我们上传的文件做语音转文字的执行操作
4:02 要注意的是
4:03 中间的文件名称和文件后缀
4:05 一定要和我们上传的文件保持一致
4:08 包括标点符号和空格
4:09 任何标点符号的错误
4:11 都会导致代码运行失败
4:12 代码后面的medium指的是模型大小
4:15 OpenAI提供了5个模型
4:17 其中模型越大
4:18 处理的速度越快
4:19 我个人倾向于medium模型
4:21 这个模型既能保证质量
4:23 又能保证速度
4:24 不过因为我们使用了
4:25 谷歌提供的高速GPU硬件
4:27 如果对转写质量要求非常精确
4:29 则可以使用Whisper V3
4:31 这是目前Whisper最新
4:33 且功能最强大的版本
4:34 Whisper V3对非英语语言的处理能力
4:37 得到了极大的增强提高
4:39 要使用这个最新的模型
4:41 我们只需要在执行第二行代码时
4:43 将medium模型更改为large-V3即可
4:46 配置完成后
4:47 点击执行代码就OK了
4:49 由于我们使用了
4:50 Colab提供的高速GPU
4:52 一般十几分钟的语音文档
4:53 在1到3分钟就能处理完成
4:55 点击文件夹旁边的文件刷新按钮
4:58 我们的转写文件就能显示了
5:00 其中包括了字幕文件
5:01 SRT VTT格式和Tex文本格式
5:04 TSV表格文本
5:05 因为我们使用的是
5:06 Colab提供的免费算力
5:08 Colab为了节省资源
5:10 在一定时间后
5:11 会自动删除我们生成的文件
5:13 所以建议当转写完成后
5:15 尽快下载我们需要的文本文件
5:17 以上就是使用Colab
5:18 做语音转文字的全过程了
5:20 视频MP4文件的转写过程
5:22 是完全一样的
5:23 另外
5:24 如果我们想将中文
5:25 或其他语言的语音文件
5:27 直接翻译为英文
5:28 也是可以做到的
5:29 Whisper是一个集合了
5:30 多语言语音识别
5:32 语音翻译和语言识别
5:34 多种功能的AI模型
5:35 在使用第二行代码时
5:37 我们只需要给后面加上
5:38 TaskTranslate命令
5:40 这个命令可以把默认的
5:42 转写命令更改为翻译命令
5:44 这段代码我也会贴在
5:45 视频下方的描述栏当中
5:47 最后
5:47 需要注意的是
5:48 当我们后面要反复使用
5:50 这个语音文件转文字文档时
5:52 只需要进入谷歌云盘
5:54 双击打开该文档
5:56 运行即可
5:57 不需要再次填入代码
5:58 最后
5:59 我们再次强调一下
6:00 使用过程中的注意事项
6:02 1
6:03 在使用代码时
6:04 一定要注意标点符号和空格
6:07 任何标点符号的错误
6:08 都会导致代码运行失败
6:10 2
6:11 在上传转写文件时
6:12 一定要注意看左下角的
6:14 上传进度条
6:15 完整的转一圈
6:17 才表示文件完整被上传了
6:19 3
6:20 由于我们使用的是
6:21 Colab提供的免费算力
6:22 在转写完成后
6:24 尽快下载生成的文件
6:25 否则会被自动删除
6:27 4
6:28 首次使用后
6:29 可以直接在谷歌云盘中
6:31 打开文档重复使用
6:32 无需重新添加代码
6:34 5
6:35 Whisper并没有区分
6:37 简体和繁体
6:38 只有中文一个识别选项
6:40 可以通过Initial Prompt命令
6:42 解决这个问题
6:43 例如
6:44 如果希望输出简体中文
6:45 就直接使用简体中文输入
6:47 这是一段简体中文普通话
6:50 如果希望输出繁体中文
6:51 就直接使用繁体中文输入
6:53 这是一段繁体中文国语
6:55 Initial Prompt命令的本质
6:57 就是给转写任务
6:58 提供一个背景条件
7:00 告诉AI转写语音的背景是什么
7:03 当然
7:03 我们还可以根据语音内容
7:05 定义为
7:06 这是一段科技演讲
7:07 或者产品发布会等等
7:09 这样能够帮助AI转写的结果
7:11 更加准确
7:12 6
7:12 Task Translate
7:13 只能将转录内容
7:14 统一翻译为英文一种语言
7:16 如果要将英文语音翻译为中文
7:18 则最好使用Chat GPT
7:20 毕竟Chat GPT的文本翻译功能
7:22 是最专业的
7:23 当前Chat GPT增加的新模型
7:25 GPT 4.1支持的上下文窗口为100万
7:28 意味着一次性可以处理
7:29 几十万字的文本
7:31 而它的输出窗口则达到了3万
7:33 意味着一次性可以输出
7:35 至少2万多个汉字
7:36 所以对于常规的翻译任务
7:38 直接拖入Chat GPT
7:39 是最简单的解决方案
7:41 对于如何将英文翻译成
7:43 非常准确的中文
7:44 我推荐使用AI专业人士
7:46 宝玉老师提供的命令模板
7:48 命令十分简单
7:49 只有一句话
7:58 请尊重原意的前提下
8:00 保持原有格式不变
8:02 用中文重写下面的内容
8:04 视频当中提到的所有代码
8:06 我会放在视频下方的描述栏中
8:08 需要的朋友请查看使用
8:10 希望今天的视频内容
8:11 对您的工作生活有所帮助
8:13 我是老张
8:14 我们下期再见