AI新魔法！Baby宫崎骏视频爆红百万，萌宝出击！

ZhiXiangWeiLai

这是 TikTok、Instagram 上正在爆火的一种视频形式：AI 婴儿开播客，主角是一张能说会动的虚拟婴儿脸，和你谈人生、聊八卦，甚至讨论国家债务——还是用埃隆·马斯克的脸。

对，你没听错，婴儿马斯克讲财政政策的视频已经刷了数百万播放。

而在另一个爆款视频里，AI 婴儿和自家宠物狗展开了一场灵魂对谈：

👶：你和我为何如此不同？

🐶：你没错，咱就是不一样，比如我不能在室内拉臭臭，但你可以……

还有一期更「穿越」：AI 婴儿专访莎士比亚本人，老莎全程玩梗在线！

除了播客，这些 AI 婴儿还占领了 meme、MV、电影台词混剪等各种赛道——网友创作的片段已经多到刷不过来，流量还挺可观。

TikTok、Instagram等平台带火了一系列AI婴儿爆款视频。

而这波现象级 AI 视频的幕后推手，是一家叫

Hedra

的 AI 视频生成公司。

工具链接：

https://www.hedra.com/app/video

我们其实很早就关注过 Hedra，最近在吉卜力风《甄嬛传》续集里，就是靠它，才让安陵容完美对上了口型。

最近，Hedra 核心模型又升级到了最新一代：Character-3。

你可以把它理解为一个全栈 AI 角色生成器（类似 HeyGen ），只需要一张图片，它就能帮你「造出一个能演、能说、能表达的虚拟角色」。

具体有多强？

随便上传一张图，角色立刻「活」起来，说话流畅自然；嘴型对得死死的；情绪、表情、手势有细节，表演感直接拉满。

而且，从图像、声音，到最终视频成片，你都可以在一个平台上搞定，不需要跳来跳去。

从图像、声音，到最终视频成片，你都可以在一个平台上搞定，不需要跳来跳去。

Hedra 提供多个图片生成器。

Hedra 提供的音频生成工具。

还可调用竞品的视频大模型

说到这，我们也忍不住亲自上手整活儿——

这次，玩了把穿越「Baby 宫崎骏专访老年宫崎骏」。两代「宫崎骏」同框对谈，讨论那部帮他拿下第二座奥斯卡奖杯的《苍鹭与少年》。

节目约 4 分钟，从脚本到视频，全程 AI 生成。0 人工，0 摄影棚。

整活工具包括：谷歌NotebookLM、可灵、ChatGPT、MiniMax Audio、 Hedra 以及剪映。

看到这，你可能要问了：

「不是说 Hedra 一站式生成吗？为啥还用这么多工具？」

别急，这里正好说明了一下：

首先，脚本这事 Hedra 不管，它是个生成视频的工具，不是写段子的——所以，得靠其他内容工具。

其次，Hedra 更偏英文内容生态，尤其是音频部分，甚至连一个像样的中文声音选项都没有，咱得另觅他法。

至于为什么一个是真人、一个是漫画风，往下看就知道了。

生成脚本

你可以让 ChatGPT 、豆包、元宝、通义千问等工具写一篇约 4 分钟的播客脚本，讨论老爷子的这部电影。

但我们发现，谷歌 NotebookLM 也很好用——

只要将优质的新闻素材扔给它，就能自动生成几分钟的 AI 播客，内容比较深刻，脚本质量上乘，直接复制即可。

接下来，我们又做了两件事。

删掉一些内容，控制播客时间长度；根据自己的喜好，编辑文字。

比如，播客是主持人讨论第三方作品，换成宫崎骏采访宫崎骏，一些人称（如「他」）就要修改；去掉一些外语，避免后续中文音频中出现怪异的读音。

AI 生图

Hedra 虽然也提供了不少图像生成器，比如 Flux、Imagen 3、Sana、Ideogram V2，但几乎都得付费。

于是我们干脆换了路线——直接上可灵，免费高效，效果也不赖。

这张 AI 生成的 Baby 照片，就是接下来视频的「起始帧」。

那宫崎骏小时候到底长啥样呢？不太知道。

我们找了张老爷子的照片做参考，结果一出来，同事们第一反应居然是：

「这不就是软银老板孙正义嘛！」「啊？我怎么觉得像大鹏……」

宫崎骏爷爷的照片随处可见，但要稍作修改，比如戴个耳机，做出播客节目的感觉。

我用 Grok 3 编辑了图片。

对于这类大 IP，不少 AI 模型会拒绝生成基于真人照片的视频。Hedra 也不例外，拒了我两次。

我们决定用 ChatGPT 将人像转绘成吉卜力风，也算是一种呼应。

中文人声

还得是 MiniMax Audio

要说最棘手的部分，其实是人声。

Hedra 虽然支持文字转语音，但用在中文上……只能说，效果堪比外国人念绕口令：

字正腔圆是不可能了，基本就是鬼畜，听两句就受不了。

针对 Baby 宫崎骏和老年宫崎骏，我们采用了不同的方案，毕竟——儿童声音容易找，老人声音真不好配。

Hedra 虽然支持文字转语音，但用在中文上效果很差。

这时候，就轮到最近屠榜的语音生成神器——MiniMax Audio登场了。

一番对比后发现，它家的声音质量真是嘎嘎在线。

比如 Baby 宫崎骏这段，我们直接把脚本扔进去，选择「涵涵萌兽」的童声模型，几秒钟就生成一段自然又灵动的童音。

听感比 Hedra 原生音强太多了。

老爷爷版的声音稍微麻烦些，就连 MiniMax Audio 也没太多合适的选择。

我们想到了克隆。

先从一段采访视频中截取出原声音频。

扔给 MiniMax Audio 克隆之前，先清除背景噪音。

用相对干净的音频克隆出老爷子的声音。

将老爷子的脚本贴好，用克隆好的声音，生成音频。

虽然远称不上「神还原」，但和现成 AI 工具自带的那些声音一比，还是强不少的。

不过嘛，也有明显短板：语气听起来像在念稿子，总感觉有点播音腔，不太像真·对话。

但你懂的，在目前这个阶段，能让「老年宫崎骏」说中文、还听得过去，已经挺不容易了。

Hedra

AI 视频，一气呵成