用 AI 自动生成教育视频,解决孩子的“十万个为什么”

家里有小孩的朋友应该都有这样的体验:孩子总会问一些奇怪的问题。

例如,飞机为什么会飞上天?地球为什么是圆的?太阳为什么会发光.......

用文字解释吧,孩子听着很枯燥,我们讲起来也费劲。有时候想找一些科普视频,但网上的要么太专业,要么质量参差不齐。最关键的是,孩子的问题千奇百怪,不一定能找到合适的视频。

所以我就想,能否让AI帮我生成一个教育视频?说清楚原理,画面还得好看,最好还能自动配音。

我最近做了一个 Agent Skill 叫 educational-video-creator,就是干这个事的。从输入一个主题,到生成一个完整的教育视频,全程自动化。视觉风格参考了 Kurzgesagt 和回形针,那种扁平化、色彩鲜艳的动画风格,小朋友很喜欢。

这个 Skill 不是简单地把文字转成视频。它会自动写脚本、设计分镜、画动画、生成配音,还会自动检查质量。说白了,就是把一个专业视频团队的工作流程,用AI跑了一遍。

项目已开源:github.com/skindhu/ski…

一、为什么要做这个?

传统的科普视频制作,门槛其实挺高的。你得会写脚本、懂设计、会动画、能配音,还得有专业的视频编辑软件。对于普通家长来说,这基本不可能。

就算找现成的视频,也有问题。孩子问的问题太个性化了,网上不一定有。而且很多科普视频要么太浅显,要么太专业,很难找到刚好适合的。

其实核心痛点就是:个性化的教育内容,制作成本太高。

但如果有 AI 帮你自动生成呢?你只需要说一个主题,比如"为什么飞机能飞",剩下的全交给 AI。它自动写脚本、画动画、配音,十几分钟后给你一个成品视频。

这就是 educational-video-creator 要解决的问题。

二、技术选型:为什么选 Remotion?

做视频有很多方案,我最终选了 Remotion。

Remotion 是一个开源的视频创作框架,核心理念挺简单:用 React 写视频。你用 HTML、CSS、TypeScript 来描述画面和动画,Remotion 负责把它渲染成真正的视频文件。

选它的原因也简单:代码生成的视频,天然适合 AI 来写。传统视频编辑软件靠手动拖时间线、调参数,AI 没法操作。但 Remotion 不一样,所有画面、动画、时间控制都是代码,而AI写代码是强项。

Remotion 官方最近还把最佳实践封装成了 Claude Code 的 Skill(https://github.com/remotion-dev/skills)。装上这个 Skill 后,Claude Code 就掌握了 Remotion 的动画技巧、组件模式、音视频处理等几十条最佳实践,写出来的视频代码质量直接拉满。

说白了,Remotion 把视频制作变成了软件工程问题,而 Remotion 官方又把软件工程的最佳实践喂给了AI。如此一来,AI 生成视频这件事就变得靠谱了。

三、从主题到成品:完整的创作流程

educational-video-creator 把视频制作拆成了几个阶段。下面一个一个说。

需求收集

第一步是明确需求。AI 会跟你确认五类信息:主题和范围(讲什么、不讲什么、有没有常见误区要纠正)、目标观众(年龄段、知识水平、语言)、视频规格(时长、分辨率、帧率)、内容要求(学习目标、必须包含的元素、视觉偏好)、旁白和音频(是配音还是纯字幕、语气风格、要不要背景音乐)。

这些问题不是随便问的。它们直接决定了后面每个阶段的产出。

比如,给5岁小孩讲飞机,你得用"翅膀拍打空气"这种简单类比,语气要活泼。给中学生讲,就得提伯努利原理和升力公式,语气可以正式一些。确认完所有需求后,AI 会做一次校验,确保主题、观众、学习目标都明确了,才进入下一阶段。

脚本创作

有了需求,AI 开始写脚本。

这个阶段只关注"讲什么"。脚本包括四个部分:核心信息(一句话总结和学习目标)、叙事策略(用什么角度切入、核心比喻是什么、情感弧线怎么走、知识点按什么顺序递进)、完整旁白文字稿、节奏标注(哪里加速、哪里放慢、哪里停顿让观众消化)。

脚本里也会写简短的"视觉意图",比如"从侧面展示飞机,四个箭头表示四种力"。但不会写任何技术参数,坐标、帧号、动画配置这些都是分镜阶段的事。

刚开始我是让AI直接设计视频分镜,经过尝试后还是决定先写脚本。因为写故事和设计画面是两个完全不同的思维模式。如果你让 AI 同时想"说什么"和"画什么",它很容易顾此失彼。分开之后,AI 可以专注于把故事讲好。而且纯文本脚本很容易修改,如果我们觉得某段话不对,直接改文字就行。等脚本定稿了,再进入下一阶段。

分镜设计

脚本定稿后,AI 开始设计分镜。这个阶段要把文字转换成视觉。

具体来说,就是把脚本拆成 5-15 个场景,给每个场景分配旁白,设计视觉图层(背景、中景、前景、UI),定义动画参数,设计旁白和画面的同步点,列出需要的 SVG 组件和配色。

这个阶段的产物是一个详细的分镜文档。有了这个文档,后面的编码就是纯执行了。

视觉设计

视觉风格参考了 Kurzgesagt 和回形针:扁平化设计、高饱和度配色、几何图形、无衬线字体。

这种风格简单、清晰,很视频教育类主题。而且扁平化设计用代码很好实现,不需要复杂的 3D 渲染,SVG 就够了。

动画编码

有了分镜和视觉规范,开始编码。

Remotion 的动画原理其实很简单:通过 useCurrentFrame() 拿到当前帧号,然后用 interpolate() 把帧号映射成各种视觉属性,比如位置、透明度、缩放。所有动画都是这个逻辑:帧号进去,属性值出来。想要更自然的效果,还可以用 spring() 函数模拟弹簧动画。

因为 Remotion 基于 React,所以可以把常用的视觉元素封装成组件,比如字幕、图标库、配色方案、字体预设。这些组件做一次就能反复用,AI 生成代码时也不容易出错。

音频生成

动画做完,就到配音阶段。

配音用的是 Edge TTS,微软提供的免费 TTS 服务,无需 API Key。中文音色推荐 zh-CN-XiaoxiaoNeural(女声,清晰自然)或 zh-CN-YunxiNeural(男声,温暖亲切)。还可以调语速,比如减慢 10% 更适合教学场景。对比 OpenAI TTS 或 Azure TTS,Edge TTS 音质不差,而且完全免费,个人项目用起来没负担。

这里有个关键问题:旁白时长和动画时长怎么匹配?

一开始设计分镜时,只能估计每段话要说多久。实际生成音频后,肯定有偏差。所以我做了一个时间线重建功能:先测量所有 TTS 音频的实际时长,然后按算法重新计算每个场景的帧范围,每段音频之间留 0.2 秒间隙,每个场景首尾留 0.5 秒填充,节奏感很好。如果新旧时长偏差超过 20%,还会自动警告。

这样就能保证音频和动画同步(有些场景还是没有完全同步,不过问题不大)。

质量检查

最后是自动质量检查:代码扫描(检查字号、颜色、安全区域是否合规)、关键帧截图(渲染几个关键帧做视觉检查)、自动修复、启动预览。

这个流程可以循环。如果检查不通过,AI 会根据报告修复代码,然后再检查,直到通过。

四、实际效果

我用这个Skill生成了几个视频,主题包括"为什么飞机能飞"、"为什么太阳会发光"、"为什么地球是圆的"。

从输入主题到生成成品,大概需要 5-10 分钟,包括写脚本、设计分镜、编码、生成 TTS、渲染视频。

视觉风格确实很接近 Kurzgesagt,扁平化、色彩鲜艳、动画流畅。配音也挺自然,听不太出是机器合成的。

不足也有。动画目前还比较基础,主要是淡入淡出、移动、缩放,复杂的流体或粒子效果不好做。视觉风格也比较单一,目前只做了 Kurzgesagt 风格。

但对于"快速生成一个能看的教育视频"这个目标,够用了。

视频部分预览如下:

写在最后

做这个 Skill 的过程中,我一直在想一个问题:以前做一个科普视频,需要编剧、动画师、配音师、剪辑师,一个团队协作好几天。现在一个 AI Agent,几分钟就能跑完整个流程。

这个东西不只能回答孩子的问题。在线教育、企业培训、产品演示,任何需要把知识可视化的场景,都能用。

如果你也有兴趣,这个 Skill 作为 Claude Code 的 Agent Skill 使用,技术栈是 Remotion + React + TypeScript + Edge TTS。