YouTube文字起こし：
【最快AI语音转文字】"1小时音频几分钟搞定！"“永久免费” 2025顶级AI---Whisper AI+CTranslate 2

動画を最後まで見なくてOK。完全な文字起こしを取得し、キーワード検索やワンクリックコピーができます。

AutoDub

YouTube外国語動画を理解

没入型YouTube日本語吹き替え

言語の壁を越えて、世界の優良コンテンツを楽しもう

無料で使う

動画の文字起こし

動画の要約

Summary

Core Theme

This content introduces a free, open-source AI tool, Whisper C Translate 2, integrated with Google Colaboratory, that allows users to quickly and accurately convert audio and video files into text, SRT, VTT, and JSON formats with just a few lines of code.

Key Points

Mind Map

クリックして展開

クリックしてインタラクティブなマインドマップを確認

只需要两行代码

就能将任何语音文件

转换为TxT文本文件

SRT VTT字幕文件

JSON等文本传输文件

这是我目前发现最快速

最简便的语音转文字的应用方式了

一个小时的语音文件

只需几分钟就能处理完成

它支持英语和其他96种语言

即使背景有很多噪音

它也能正常工作

如果你的口音很重

它也能搞定

最棒的是它完全免费

而且还是开源的

我们会用一个叫

Whisper C Translate 2的AI工具

Whisper是由OpenAI公司开发的

就是开发了超级火热的

Chat GPT的OpenAI

其实我在之前的影片中

介绍过Whisper AI

但是今天介绍的是它的升级版

叫做Whisper C Translate 2

它对Whisper AI做了升级

让语音转文字的速度更快更准

使用起来也更加简单

在这里

我们需要的东西

只是一个谷歌账号

和两行简单的代码

首先

在谷歌首页

打开谷歌云盘

Google Drive

点击左上方的新建按钮

下拉找到更多

这时会打开Google Workspace应用市场

Google Workspace应用市场里面

提供了很多可以和我们常用的

例如谷歌邮箱

谷歌云盘

谷歌表格

谷歌文档等谷歌应用

互相配合辅助的工具应用

这里面涵盖了从文档处理

图像

声音处理

数据分析

代码辅助等各种各样的应用

而我们需要的应用叫做

Google Colaboratory是一个

完全免费的Python程序运行应用

我们通过浏览器就能免费使用

Google提供的高算力GPU和TPU

无需任何环境配置

那么现在我们需要搜索安装这个应用程序

点击搜索应用

输入Google Colaboratory

然后点击列表中第一个搜索结果

点击安装

点击继续

它可能会要求你用谷歌账户登录

安装完成后

点击完成并关闭市场窗口

在Google云盘的首页重新点击新建按钮

在更多选项下

我们就能看到这个应用了

打开应用后

我们先对文档命名

这有助于我们以后反复使用

我们可以命名为语音转文字

目前的AI应用在本地运行

都需要较高算力的GPU

而Colab则免费为我们提供了这个应用环境

点击Runtime运行时

Colab中的Runtime代表一个计算实例

它包含了一台虚拟机

并且可以分配一定的计算资源

如CPU GPU或TPU

用户可以选择不同类型的运行时

在这里

我们将类型选为Python 3

硬件加速选为T4 GPU

完成后

在右上方

我们可以看到连接T4的字样

点击连接

连接成功后

我们能看到这台云计算机的参数

其中包括GPU

内存

硬盘这些信息

至此

我们第一步工作就已经完成了

第二步

我们写入代码

首先

我们要在Colab中安装

Whisper C Translate 2这个应用

第一行代码就是下载安装Whisper C Translate 2

OpenAI的Whisper是一个通用的语音识别模型

它可以将音频文件转换成文本

它是基于一个大规模的多语言和多任务的监督数据及训练的

能够处理不同的口音

背景噪音

和专业术语

它也是一个多任务模型

可以进行多语言语音识别

语音翻译

而C Translate 2

则是一个为Transformer模型优化的快速推理引擎

它将原始Whisper的推理速度提高了4倍

这也是我将其称之为当前最快速的语音转文字应用的原因

点击旁边的运行代码按钮

开始安装我们需要的应用

安装完成后

点击旁边的文件夹选项

在这里拖入我们想要转录的视频文件或音频文件

也可以通过上传的方式导入文件

文件上传完成后

会出现在文件夹里

我们可以对文件做重新命名

删除等操作

在上传文件时

一定要注意看左下角的上传进度条

完整的转一圈

才表示文件被完整的上传了上去

下一步的文件转录工作才能顺利完成

所以

对于一些比较大的文件

还需要我们耐心等待一下

文件上传完成后

这时我们点击添加代码按钮

写入第二行代码

这行代码的作用是

对我们上传的文件做语音转文字的执行操作

要注意的是

中间的文件名称和文件后缀

一定要和我们上传的文件保持一致

包括标点符号和空格

任何标点符号的错误

都会导致代码运行失败

代码后面的medium指的是模型大小

OpenAI提供了5个模型

其中模型越大

处理的速度越快

我个人倾向于medium模型

这个模型既能保证质量

又能保证速度

不过因为我们使用了

谷歌提供的高速GPU硬件

如果对转写质量要求非常精确

则可以使用Whisper V3

这是目前Whisper最新

且功能最强大的版本

Whisper V3对非英语语言的处理能力

得到了极大的增强提高

要使用这个最新的模型

我们只需要在执行第二行代码时

将medium模型更改为large-V3即可

配置完成后

点击执行代码就OK了

由于我们使用了

Colab提供的高速GPU

一般十几分钟的语音文档

在1到3分钟就能处理完成

点击文件夹旁边的文件刷新按钮

我们的转写文件就能显示了

其中包括了字幕文件

SRT VTT格式和Tex文本格式

TSV表格文本

因为我们使用的是

Colab提供的免费算力

Colab为了节省资源

在一定时间后

会自动删除我们生成的文件

所以建议当转写完成后

尽快下载我们需要的文本文件

以上就是使用Colab

做语音转文字的全过程了

视频MP4文件的转写过程

是完全一样的

另外

如果我们想将中文

或其他语言的语音文件

直接翻译为英文

也是可以做到的

Whisper是一个集合了

多语言语音识别

语音翻译和语言识别

多种功能的AI模型

在使用第二行代码时

我们只需要给后面加上

TaskTranslate命令

这个命令可以把默认的

转写命令更改为翻译命令

这段代码我也会贴在

视频下方的描述栏当中

最后

需要注意的是

当我们后面要反复使用

这个语音文件转文字文档时

只需要进入谷歌云盘

双击打开该文档

运行即可

不需要再次填入代码

最后

我们再次强调一下

使用过程中的注意事项

在使用代码时

一定要注意标点符号和空格

任何标点符号的错误

都会导致代码运行失败

在上传转写文件时

一定要注意看左下角的

上传进度条

完整的转一圈

才表示文件完整被上传了

由于我们使用的是

Colab提供的免费算力

在转写完成后

尽快下载生成的文件

否则会被自动删除

首次使用后

可以直接在谷歌云盘中

打开文档重复使用

无需重新添加代码

Whisper并没有区分

简体和繁体

只有中文一个识别选项

可以通过Initial Prompt命令

解决这个问题

例如

如果希望输出简体中文

就直接使用简体中文输入

这是一段简体中文普通话

如果希望输出繁体中文

就直接使用繁体中文输入

这是一段繁体中文国语

Initial Prompt命令的本质

就是给转写任务

提供一个背景条件

告诉AI转写语音的背景是什么

当然

我们还可以根据语音内容

定义为

这是一段科技演讲

或者产品发布会等等

这样能够帮助AI转写的结果

更加准确

Task Translate

只能将转录内容

统一翻译为英文一种语言

如果要将英文语音翻译为中文

则最好使用Chat GPT

毕竟Chat GPT的文本翻译功能

是最专业的

当前Chat GPT增加的新模型

GPT 4.1支持的上下文窗口为100万

意味着一次性可以处理

几十万字的文本

而它的输出窗口则达到了3万

意味着一次性可以输出

至少2万多个汉字

所以对于常规的翻译任务

直接拖入Chat GPT

是最简单的解决方案

对于如何将英文翻译成

非常准确的中文

我推荐使用AI专业人士

宝玉老师提供的命令模板

命令十分简单

只有一句话

请尊重原意的前提下

保持原有格式不变

用中文重写下面的内容

视频当中提到的所有代码

我会放在视频下方的描述栏中

需要的朋友请查看使用

希望今天的视频内容

对您的工作生活有所帮助

我是老张

我们下期再见

テキストまたはタイムスタンプをクリックすると、動画のその場面に移動できます

ほとんどの文字起こしは5秒以内に完了

ワンクリックコピー125以上の言語内容を検索タイムスタンプにジャンプ

YouTube URLを貼り付け

任意のYouTube動画リンクを入力すると、完全な文字起こしを取得できます

ほとんどの文字起こしは5秒以内に完了

Chrome拡張機能を追加

YouTubeを離れずに文字起こしを瞬時に取得。Chrome拡張機能をインストールすると、動画視聴ページで任意の文字起こしにワンクリックでアクセスできます。

Chromeに追加 — 無料

YouTube、Coursera、Udemyなど主要な学習プラットフォームに対応

文字起こしをすばやく取得：アドレスバーのドメインを変えるだけ！

YouTube

←

→

↻

https://www.youtube.com/watch?v=UF8uR6Z6KLc

YoutubeToText

←

→

↻

https://youtubetotext.net/watch?v=UF8uR6Z6KLc

YouTube文字起こし結果を準備しています…

YouTube文字起こし：【最快AI语音转文字】"1小时音频几分钟搞定！"“永久免费” 2025顶级AI---Whisper AI+CTranslate 2