AI数字人唱歌视频生成|免费使用剪映的会员功能小技巧
AI 数字人唱歌视频制作全流程教程
本教程将拆解如何制作一个《西游记》人物(如猪八戒)演唱现代流行歌曲的 AI 视频。全流程共分为七个步骤。
📋 准备工作:所需工具列表
- 豆包 (Doubao):用于生成符合中文语境的歌词。
- ChatGPT / Gemini:用于生成英文的音乐风格提示词。
- Suno AI:用于生成完整的歌曲(音乐+人声)。
- UVR5:用于分离人声与伴奏。
- Audacity:音频编辑软件,用于剪辑和处理音频。
- [Gemini 3] (或其他生图模型):用于生成高清的人物形象图片。
- RunningHub (阿里Wan 2.2 模型):用于生成对口型的数字人视频。
- 剪映 (CapCut):用于视频剪辑与合成。
- Video Subtitle Remover:用于去除视频水印。
步骤一:歌词创作
由于国外模型对中国古典名著或特定中文语境理解有限,推荐使用国产大模型。
输入提示词:描述想创作的歌曲主题,设定风格(如民谣),并要求表达特定的情绪(如平凡快乐、世俗但有原则),不断优化生成结果,直到获得满意的中文歌词。
重要技巧:为了配合 Suno 生成音乐,让大模型生成SUNO格式的提示词。
步骤二:使用 Suno 生成音乐
- 打开 Suno.ai 并点击
Create。 - 将上一步生成的英文提示词粘贴到
Style(风格) 栏中。 - 将中文歌词粘贴到
Lyrics(歌词) 栏中。 - 点击
Create生成歌曲。
步骤三:背景音乐与人声分离
直接使用带伴奏的音乐生成视频会干扰 AI 的口型准确度,因此需要分离音频。
- 打开 UVR5 软件。
- 设置输入文件(下载的歌曲)和输出路径。
- 选择模型(推荐
MDX-Net或VR Arch下的去混响/人声分离模型)。 - 如果有独立显卡,勾选 GPU 加速。
- 点击
Start Processing。 - 得到两个文件:纯人声 (Vocals) 和 纯伴奏 (Instrumental)。
步骤四:音频处理 (Audacity)
由于后续视频生成模型通常有时长限制(如3分钟以内),且前奏间奏不需要对口型,需进行修剪。
- 将 纯人声 文件拖入 Audacity。
- 试听并删除前奏部分的空白音频(确保视频从人声开始生成)。
- 如果歌曲过长,将其切分为两个或多个独立的音频片段。
- 导出处理好的人声文件备用。
步骤五:生成数字人形象
- 截取一张清晰的《西游记》人物(如猪八戒)截图。
- 打开 Gemini 3。
- 上传截图并输入指令:要求将图片重绘为 4K高清分辨率,比例设置为 16:9。
- 添加个性化元素描述:例如“戴着头戴式耳机”、“印有特定Logo”等。
- 下载生成的高清人物图片。
步骤六:生成数字人视频 (RunningHub)
让图片“开口说话”的核心步骤。
- 登录 RunningHub.ai
- 在左侧菜单选择
AI应用->数字人-音频驱动(阿里Wan 2.2 模型)。 - 设置比例:在左侧设置栏选择
16:9。 - 上传图片:上传步骤五生成的猪八戒高清图。
- 上传音频:上传步骤四处理过的纯人声片段。
- 点击
运行。等待云端渲染完成。 - 预览效果满意后,下载生成的视频文件。如果有多个音频片段,重复此步骤。
步骤七:视频剪辑与合成 (剪映)
- 打开 剪映,导入以下素材:
- RunningHub 生成的对口型视频。
- Suno 生成的原始完整音乐。
- 原版电视剧的视频片段(用于填充前奏/间奏)。
- 轨道对齐:
- 将数字人视频拖入轨道。
- 将原始音乐拖入音频轨道。
- 关键步骤:手动移动数字人视频,使其与音频中的人声波形完美对齐(因为之前删除了前奏)。
- 填充空缺:在前奏、间奏等数字人没有画面的部分,插入原版电视剧的空镜或片段,并添加转场特效使其过渡自然。
- 静音原视频:选中数字人视频轨道,右键选择“音视频分离”并删除分离出的纯人声轨道,只保留 Suno 的完整高质量音乐轨道。
- 导出技巧 (免会员导出特效):
- 选中所有片段,右键
新建复合片段。 - 再次对复合片段右键,选择
预合成复合片段。 - 此时不用点击导出(如果使用了会员特效会提示付费)。
- 直接去电脑文件夹寻找缓存:找到剪映的安装目录,路径通常为
.../JianyingPro Drafts/User Data/Projects/[当前项目文件夹]/Resources/combination。 - 在该文件夹中找到体积最大的 MP4 文件,将其拖回剪映预览,确认无误后即可直接拷贝使用,或再次导入剪映进行无特效导出。
- 选中所有片段,右键
步骤八:去除水印
RunningHub 生成的视频和原剧素材可能包含水印。
- 下载并打开开源工具 Video Subtitle Remover
- 点击
Open导入最终导出的视频。 - 使用滑块框选画面中的水印区域。
- 点击运行,去除水印。
- 如果有多个位置的水印,可分多次处理。
至此,一个高质量的 AI 数字人唱歌视频就制作完成了。