AI 数字人唱歌视频制作全流程教程

本教程将拆解如何制作一个《西游记》人物(如猪八戒)演唱现代流行歌曲的 AI 视频。全流程共分为七个步骤。

📋 准备工作:所需工具列表

  1. 豆包 (Doubao):用于生成符合中文语境的歌词。
  2. ChatGPT / Gemini:用于生成英文的音乐风格提示词。
  3. Suno AI:用于生成完整的歌曲(音乐+人声)。
  4. UVR5:用于分离人声与伴奏。
  5. Audacity:音频编辑软件,用于剪辑和处理音频。
  6. [Gemini 3] (或其他生图模型):用于生成高清的人物形象图片。
  7. RunningHub (阿里Wan 2.2 模型):用于生成对口型的数字人视频。
  8. 剪映 (CapCut):用于视频剪辑与合成。
  9. Video Subtitle Remover:用于去除视频水印。

步骤一:歌词创作

由于国外模型对中国古典名著或特定中文语境理解有限,推荐使用国产大模型。

输入提示词:描述想创作的歌曲主题,设定风格(如民谣),并要求表达特定的情绪(如平凡快乐、世俗但有原则),不断优化生成结果,直到获得满意的中文歌词。
重要技巧:为了配合 Suno 生成音乐,让大模型生成SUNO格式的提示词。

步骤二:使用 Suno 生成音乐

  1. 打开 Suno.ai 并点击 Create
  2. 将上一步生成的英文提示词粘贴到 Style (风格) 栏中。
  3. 中文歌词粘贴到 Lyrics (歌词) 栏中。
  4. 点击 Create 生成歌曲。

步骤三:背景音乐与人声分离

直接使用带伴奏的音乐生成视频会干扰 AI 的口型准确度,因此需要分离音频。

  1. 打开 UVR5 软件。
  2. 设置输入文件(下载的歌曲)和输出路径。
  3. 选择模型(推荐 MDX-NetVR Arch 下的去混响/人声分离模型)。
  4. 如果有独立显卡,勾选 GPU 加速。
  5. 点击 Start Processing
  6. 得到两个文件:纯人声 (Vocals)纯伴奏 (Instrumental)

步骤四:音频处理 (Audacity)

由于后续视频生成模型通常有时长限制(如3分钟以内),且前奏间奏不需要对口型,需进行修剪。

  1. 纯人声 文件拖入 Audacity
  2. 试听并删除前奏部分的空白音频(确保视频从人声开始生成)。
  3. 如果歌曲过长,将其切分为两个或多个独立的音频片段。
  4. 导出处理好的人声文件备用。

步骤五:生成数字人形象

  1. 截取一张清晰的《西游记》人物(如猪八戒)截图。
  2. 打开 Gemini 3
  3. 上传截图并输入指令:要求将图片重绘为 4K高清分辨率,比例设置为 16:9
  4. 添加个性化元素描述:例如“戴着头戴式耳机”、“印有特定Logo”等。
  5. 下载生成的高清人物图片。

步骤六:生成数字人视频 (RunningHub)

让图片“开口说话”的核心步骤。

  1. 登录 RunningHub.ai
  2. 在左侧菜单选择 AI应用 -> 数字人-音频驱动 (阿里Wan 2.2 模型)。
  3. 设置比例:在左侧设置栏选择 16:9
  4. 上传图片:上传步骤五生成的猪八戒高清图。
  5. 上传音频:上传步骤四处理过的纯人声片段。
  6. 点击 运行。等待云端渲染完成。
  7. 预览效果满意后,下载生成的视频文件。如果有多个音频片段,重复此步骤。

步骤七:视频剪辑与合成 (剪映)

  1. 打开 剪映,导入以下素材:
    • RunningHub 生成的对口型视频。
    • Suno 生成的原始完整音乐。
    • 原版电视剧的视频片段(用于填充前奏/间奏)。
  2. 轨道对齐
    • 将数字人视频拖入轨道。
    • 将原始音乐拖入音频轨道。
    • 关键步骤:手动移动数字人视频,使其与音频中的人声波形完美对齐(因为之前删除了前奏)。
  3. 填充空缺:在前奏、间奏等数字人没有画面的部分,插入原版电视剧的空镜或片段,并添加转场特效使其过渡自然。
  4. 静音原视频:选中数字人视频轨道,右键选择“音视频分离”并删除分离出的纯人声轨道,只保留 Suno 的完整高质量音乐轨道。
  5. 导出技巧 (免会员导出特效)
    • 选中所有片段,右键 新建复合片段
    • 再次对复合片段右键,选择 预合成复合片段
    • 此时不用点击导出(如果使用了会员特效会提示付费)。
    • 直接去电脑文件夹寻找缓存:找到剪映的安装目录,路径通常为 .../JianyingPro Drafts/User Data/Projects/[当前项目文件夹]/Resources/combination
    • 在该文件夹中找到体积最大的 MP4 文件,将其拖回剪映预览,确认无误后即可直接拷贝使用,或再次导入剪映进行无特效导出。

步骤八:去除水印

RunningHub 生成的视频和原剧素材可能包含水印。

  1. 下载并打开开源工具 Video Subtitle Remover
  2. 点击 Open 导入最终导出的视频。
  3. 使用滑块框选画面中的水印区域。
  4. 点击运行,去除水印。
  5. 如果有多个位置的水印,可分多次处理。

至此,一个高质量的 AI 数字人唱歌视频就制作完成了。