这是 TikTok、Instagram 上正在爆火的一种视频形式:AI 婴儿开播客,主角是一张能说会动的虚拟婴儿脸,和你谈人生、聊八卦,甚至讨论国家债务——还是用埃隆·马斯克的脸。
对,你没听错,婴儿马斯克讲财政政策的视频已经刷了数百万播放。
而在另一个爆款视频里,AI 婴儿和自家宠物狗展开了一场灵魂对谈:

👶:你和我为何如此不同?
🐶:你没错,咱就是不一样,比如我不能在室内拉臭臭,但你可以……

还有一期更「穿越」:AI 婴儿专访莎士比亚本人,老莎全程玩梗在线!

除了播客,这些 AI 婴儿还占领了 meme、MV、电影台词混剪等各种赛道——网友创作的片段已经多到刷不过来,流量还挺可观。

TikTok、Instagram等平台带火了一系列AI婴儿爆款视频。

而这波现象级 AI 视频的幕后推手,是一家叫
Hedra
的 AI 视频生成公司。
工具链接:
https://www.hedra.com/app/video
我们其实很早就关注过 Hedra,最近在吉卜力风《甄嬛传》续集里,就是靠它,才让安陵容完美对上了口型。
最近,Hedra 核心模型又升级到了最新一代:Character-3。
你可以把它理解为一个全栈 AI 角色生成器(类似 HeyGen ),只需要一张图片,它就能帮你「造出一个能演、能说、能表达的虚拟角色」。
具体有多强?
随便上传一张图,角色立刻「活」起来,说话流畅自然;嘴型对得死死的;情绪、表情、手势有细节,表演感直接拉满。
而且,从图像、声音,到最终视频成片,你都可以在一个平台上搞定,不需要跳来跳去。

从图像、声音,到最终视频成片,你都可以在一个平台上搞定,不需要跳来跳去。

Hedra 提供多个图片生成器。

Hedra 提供的音频生成工具。

还可调用竞品的视频大模型
说到这,我们也忍不住亲自上手整活儿——
这次,玩了把穿越 「Baby 宫崎骏专访老年宫崎骏」。两代「宫崎骏」同框对谈,讨论那部帮他拿下第二座奥斯卡奖杯的《苍鹭与少年》。
节目约 4 分钟,从脚本到视频,全程 AI 生成。0 人工,0 摄影棚。

整活工具包括:谷歌NotebookLM、可灵、ChatGPT、MiniMax Audio、 Hedra 以及剪映。
看到这,你可能要问了:
「不是说 Hedra 一站式生成吗?为啥还用这么多工具?」
别急,这里正好说明了一下:
首先,脚本这事 Hedra 不管,它是个生成视频的工具,不是写段子的——所以,得靠其他内容工具。
其次,Hedra 更偏英文内容生态,尤其是音频部分,甚至连一个像样的中文声音选项都没有,咱得另觅他法。
至于为什么一个是真人、一个是漫画风,往下看就知道了。
生成脚本
你可以让 ChatGPT 、豆包、元宝、通义千问等工具写一篇约 4 分钟的播客脚本,讨论老爷子的这部电影。
但我们发现, 谷歌 NotebookLM 也很好用——
只要将优质的新闻素材扔给它,就能自动生成几分钟的 AI 播客,内容比较深刻,脚本质量上乘,直接复制即可。

接下来,我们又做了两件事。
删掉一些内容,控制播客时间长度;根据自己的喜好,编辑文字。
比如,播客是主持人讨论第三方作品,换成宫崎骏采访宫崎骏,一些人称(如「他」)就要修改;去掉一些外语,避免后续中文音频中出现怪异的读音。
AI 生图
Hedra 虽然也提供了不少图像生成器,比如 Flux、Imagen 3、Sana、Ideogram V2,但几乎都得付费。
于是我们干脆换了路线——直接上可灵,免费高效,效果也不赖。
这张 AI 生成的 Baby 照片,就是接下来视频的「起始帧」。
那宫崎骏小时候到底长啥样呢?不太知道。
我们找了张老爷子的照片做参考,结果一出来,同事们第一反应居然是:
「这不就是软银老板孙正义嘛!」「啊?我怎么觉得像大鹏……」

宫崎骏爷爷的照片随处可见,但要稍作修改,比如戴个耳机,做出播客节目的感觉。
我用 Grok 3 编辑了图片。

对于这类大 IP,不少 AI 模型会拒绝生成基于真人照片的视频。Hedra 也不例外,拒了我两次。
我们决定用 ChatGPT 将人像转绘成吉卜力风,也算是一种呼应。

中文人声
还得是 MiniMax Audio
要说最棘手的部分,其实是人声。
Hedra 虽然支持文字转语音,但用在中文上……只能说,效果堪比外国人念绕口令:
字正腔圆是不可能了,基本就是鬼畜,听两句就受不了。
针对 Baby 宫崎骏和老年宫崎骏,我们采用了不同的方案,毕竟——儿童声音容易找,老人声音真不好配。

Hedra 虽然支持文字转语音,但用在中文上效果很差。
这时候,就轮到最近屠榜的语音生成神器——MiniMax Audio登场了。
一番对比后发现,它家的声音质量真是嘎嘎在线。
比如 Baby 宫崎骏这段,我们直接把脚本扔进去,选择「涵涵萌兽」的童声模型,几秒钟就生成一段自然又灵动的童音。

听感比 Hedra 原生音强太多了。
老爷爷版的声音稍微麻烦些,就连 MiniMax Audio 也没太多合适的选择。

我们想到了克隆。
先从一段采访视频中截取出原声音频。
扔给 MiniMax Audio 克隆之前,先清除背景噪音。


用相对干净的音频克隆出老爷子的声音。


将老爷子的脚本贴好,用克隆好的声音,生成音频。

虽然远称不上「神还原」,但和现成 AI 工具自带的那些声音一比,还是强不少的。
不过嘛,也有明显短板:语气听起来像在念稿子,总感觉有点播音腔,不太像真·对话。
但你懂的,在目前这个阶段,能让「老年宫崎骏」说中文、还听得过去,已经挺不容易了。

Hedra
AI 视频,一气呵成