2023-12-28

我用 5 分钟,读完了 80 分钟的视频

作者 万有引力

媒介即讯息
不同的信息载体适合用来展示不同的内容。

ai_video_1

文字的是人类抽象出来的信息的载体
文字具有高效和长效的特点,我们今天之所以能够感受到百千年前的佳作,李白的诗句,孔夫子的论语,司马迁的史记,都要得益于文字。而相比起来,那些古代的舞蹈、音乐、就没那么幸运了,大多都随着继承者的落寞,寂静在历史长河中。

所以阅读文字也是人类获取信息最好的方式。

可惜的是文字出现的时间非常短暂,阅读文字的能力还没能够写入到人类的 DNA 中,人类还是需要通过后天学习来掌握阅读能力,经过良好地培训,好的阅读者也可以达到一目十行的阅读速度。

但即便是今天,在中国的义务教育这么普及的情况下,阅读文字对大部分人来说依旧是困难的。通过阅读文字来获取信息,是高效的,但却不是最符合人类出厂设定的方式。反而,通过观看画面信息,听取声音信息的方式,才是最符合人类出厂设定的方式。

视频作为信息载体
缺点是效率太低。用来展示简单的信息时,视频很方便。但当展示的内容变相复杂,视频这一形式的缺点就暴露得愈加明显。同样是 10000 字的信息量,观看一个视频,需要花费 1 个小时的时间。但如果通过图文的方式来阅读,可能只需要 15 分钟。这就是效率上的差距。

当然视频也有优点,受益于图像信息和声音信息,视频展现出来的内容更加丰富,更加多维,感染能力更强,更符合观众的视听,接受起来更加自然。

音频作为信息载体
播客(音频内容)也是一样的道理。缺少了图像信息,音频内容通过耳朵进入大脑的带宽更低,效率也更低。但声音也有很多优点,例如声音让人觉得更加亲近,更加适合用来讲故事等。

在之前的《聊聊播客的兴起及播客推荐》中,我也有过描述:

音频这种内容形式非常有自己的特点。

人类接受音频信息的带宽是非常小的

我们的大脑在处理音频信息时,需要投入更多的注意力。举个例子,很多人看过某个日本的综艺节目,节目里在人打电话时,无论递给他什么东西,他都会接住。

人类接受音频的效率非常低。

接受同样的文字, 阅读的速度是听音频的速度的3-4倍。况且在图文和视频信息中,经常可以通过图表来简化内容,这在音频里是无法实现的。

音频非常亲切,且有辨识度

古话说:未见其人而先听其声。我们与朋友相处久后,常常通过他的声音就可以辨识他。反过来说。当你长期接触一个声音时,也会觉得你和他更加亲密。

而播客的内容形式,多是几个播主之间的闲聊,与嘉宾的闲聊,或是纯粹地讲故事。这几种内容形式都不会太过硬核,刚好是听众可以接受的程度。而播主们的声音,又可以发挥音频亲密的特点,大大提高播客的用户留存率。

视频/播客处理流程
今天的短视频平台、长视频平台、博客平台里,都有很多不错的视频和音频。其中就有不少我感兴趣的。但作为一个效率爱好者,一个忙碌的打工人,我实在不愿意舍弃 1 小时的时间,去获取 15 分钟的信息。

所以我就想了个办法

将视频和音频转化成成文字,通过阅读文字,来处理视频。
借助最新的 AI 技术,可以对文字进行进一步的处理,提高处理的速度。
ai_video_2
信息的流程且听我细细道来

01 直接下载视频字母/逐字稿
视频我们以常见的长视频平台,Bilibili 和 Youtube 为例。

在发布视频时,视频创作者可以上传字幕。视频平台为了让用户有更好的观看体验,可能也会给视频生成 CC 字幕,Youtube 的 CC 字幕覆盖率比较高, Bilibili 则还比较少。

如果有字幕文件,我们的处理流程就会简单很多,直接下载字幕文件即可。

在 Youtube 中,我是通过一个叫“Transcript & Summary”的浏览器插件来获取字幕。它会在 Youtube 视频的网页右侧展示视频的字幕,直接点击复制全文即可。

ai_video_3

在 Bilibili 中,则是通过油猴插件来获取字幕。

在 Greasy Fork 网站搜索 CC 字幕即可使用。开启插件后,就可以在 B 站的字幕文件处点击下载按钮下载字幕。

ai_video_4

同样的,如果播客有提供逐字稿,我们可以直接下载播客的逐字稿。

例如疯投圈的这期播客逐字稿,我们就可以复制文章中的文字,保存到本地。

ai_video_5

下载完逐字稿后,就可以直接跳转到第三步了。

但毕竟提供逐字稿的播客比较少,所以我们需要将音频/视频转化成文字。

02 将视频/音频转成文字
如果视频没有字幕,播客没有提供逐字稿,则我们需要用大模型来讲视频/音频转化成文字。

第一步,下载视频/音频的源文件。
我是使用 Downie 这款工具,来下载源文件。复制视频/音频的链接,粘贴到应用中即可。Youtube/bilibili/抖音的视频,小宇宙的播客,都可以下载。

ai_video_6
第二步,将源文件转化成文字
这里推荐使用的是飞书妙计或者通义听唔,来转换,他们的好处是可以区分不同的说话人。

这一步骤通常需要消耗比较10-20 分钟的时间,但好在可以在后台进行。

ai_video_7
处理完成后,我们就可以得到:

ai_video_8
再将逐字稿发给 AI ,让 AI 来帮忙处理内容

03 AI 处理内容
今年来,大模型的发展速度飞快。ChatGPT、Claude、llama 等大模型发展迅速,基于了我们很多新的能力。

在《Chatgpt 有啥用?》这篇文章中,我们介绍过大语言模型的几个能力:聊天、总结、扩展、推理。转化,都可以用来帮助处理信息。

3-1 将口头语转换为书面语
大部分视频/音频,使用的都是口头语句表达,不是适合阅读的书面语。所以直接阅读字幕/视频稿并不合适。如果想要直接阅读文字,可以使用 AI 将字幕或逐字稿转化为书面语句。

promot 是

请使用简洁明了的语言编辑以下段落,以改善其逻辑流程,消除任何印刷错误并用中文回复。请务必保持文本的原始含义。请首先编辑以下文本:
3-2 AI 总结、挖掘内容
用AI 来总结内容,帮助我们更快地了解视频或博客的内容,节省阅读的时间。

这里我推荐使用的是 Claude 来总结。

例如这个胖东来老板的这个视频,上了 B 站热门,146 万的播放量,我想了解下他讲的内容,但又不愿意花 28 分钟时间来观看。于是我就把他交给 AI。

ai_video_10
于是我下载字幕后,上传到 Claude 上,写上这句 Prompt

让我们一步一步思考,阅读这份视频字母,并总结出视频的主要观点和论据
ai_video_11

如果对于视频/音频中有任何的内容不清楚,还可以让 AI 进行更加详细的解答。

例如这一期播客,总时长是 85 分钟,听起来花费的时间太长了。

ai_video_17
但是借助 Claude,3 分钟我就能知道内容主要讲了什么,并可以对其中不理解的地方,进行更加深入的提问。

ai_video_16
每次看到 AI 总结的内容,总有一种爽感,我又用 5 分钟时间,听完了一期 85 分钟的博客。

Ps. 关于大模型的选择
我推荐大家可以使用 Claude。

首先,Claude 支持更大的上下文数量(160k/200k),要比 ChatGPT 的 16k 或 32k 要大得多。而且 Claude 的使用很方便,不像 llama 那样需要代码接入。最后,Claude 目前还是完全免费的,不过可以预见的是未来一定会收费的。能免费就先用着呗。

image-20230828005017398

其他产品推荐
Bilibili - Ai 课代表
上面这套流程,也有一些现成的产品可以直接使用

比如 bilibili 的【AI 课代表】,安装好插件后,插件就会展示视频的总结内容,字幕列表,针对视频中的内容,和可以进行提问。使用体验非常棒。

ai_video_13
下图中可以看到,即便是没有 CC 字母的视频,AI 课代表也可以处理。

ai_video_14

Monica
再比如之前在 newsletter 里推荐过得 【Monica】,也可以直接总结 Youtube 的视频。不过因为我的会员已经过期了,就不不展示 Monica 的功能了,想了解的读者朋友可以查看我的这条动态。

ai_video_15

Memo
最近有一个创业团队做的产品 Memo,也可以实现这一步骤。Memo 可以讲播客的文字化、并进行 AI 总结。不过其使用的模型并不支持识别不同的说话人,目前也仅在内测中,还不够稳定。例如我转化的文字,就全部都变成了繁体中文。所以可以保持关注下后续的更新迭代。

ai_video_9

结语
要注意的是,并不是所有的视频都要用这种方式来处理。很多制作精良的视频,经过文字化和 AI 的处理后,失去了如图像、氛围、音色等等信息,丰富的内容将变得非常平淡、平实。

用文章中的这套流程来处理视频,是从「效率」出发的方法论。

很多视频,比如电影、动画、up主的创作等等,是可以坐下来好好欣赏的。

在我的日常生活里,我只会用这样的方法来处理那些我想了解,但并不想花时间观看的视频。

在 《效率与体验》这篇文章中,详细地讨论过「效率」和「体验」往往是不可兼得的。

而有了这个方法后,在观看视频时,你就可以决定使用效率的方法来快速解决,还是在茶余饭后,坐下来,好好欣赏这个视频。