《国产全AI游戏来了?大模型直接打造开放世界互动游戏》
2025-01-16我们正逐步迈向一个普通人仅凭创意就能轻松制作游戏的新时代。
今年以来,AI游戏生成技术不断取得突破,而国内游戏AI团队也于近日交出了一份令人瞩目的答卷。
巨人网络推出了“千影 QianYing”有声游戏生成大模型,涵盖游戏视频生成大模型YingGame和视频配音大模型YingSound。
用户只需提供一段文字或一张图片,即可生成具备开放世界游戏特性的视频,并且这些视频不仅有声音,还支持交互,能操控角色完成多种动作。
无需游戏引擎的开放世界游戏体验
简而言之,YingGame是一个专为开放世界游戏打造的视频生成大模型。其研发团队包括巨人网络AI Lab和清华大学SATLab,实现了对游戏角色多样动作的交互控制、自定义角色创建,同时在游戏物理仿真方面表现出色。
逼真的物理规律模拟
从生成的视频来看,无论是汽车碰撞、火焰燃烧等宏大场景,还是水中漫步、自动绕过障碍物等细节,都展现出高度遵循物理规律的效果。

丰富的动作交互
交互性是游戏的核心要素之一,YingGame能够解析用户的输入,如文本、图像或鼠标、键盘操作信号,使玩家可以自由控制游戏角色的动作。
视频展示了角色进行射击、变身、施法、使用道具、攀爬、匍匐、跑跳等多种肢体动作的交互过程,相较于其他同类模型更加流畅自然。

个性化角色与精细控制
YingGame允许用户上传一张角色图片以实现角色的自定义生成,同时提供了对角色主体的精细化控制,实现了从AI捏脸到AI捏人的跨越。

第一人称视角带来的沉浸感
此外,该模型还能生成第一人称视角的游戏画面,这种视角为玩家带来了强烈的沉浸感。

背后的技术原理
从技术角度分析,YingGame通过整合跨模态特征、细粒度角色表征、运动增强以及多阶段训练策略,并建立高效、高质量的游戏视频训练数据生产管线,赋予了生成内容可交互性、多样化动作控制、角色自定义与精细主体控制、复杂运动与动作连续性等特点。
在交互功能的实现上,YingGame引入了多个Interactive Network模块:用于理解用户输入的多模态交互方式的多模态交互网络 — MMIN (Multi-Modal Interactive Network);负责生成复杂连续角色动作的动作网络 — IMN (Interactive Motion Network);用于自定义角色生成并提升角色质量的角色网络 — ICN (Interactive Character Network)。

为了构建高质量的训练数据,巨人AI团队精心设计了一套高效的游戏视频数据处理流程:
根据场景和高光片段挑选优质视频,并从中提取音频信息作为V2A训练集;基于运动得分、美学评分等因素筛选视频;采用vLLM-based video caption方法,并利用clip score进行文本视频对齐评分过滤;执行多任务数据处理,例如分割、主体检测、姿态估计、深度估计、相机运动估计等。
开启有声AI游戏新时代
除了YingGame之外,巨人还推出了一款针对视频配音场景的多模态音效生成大模型 YingSound。
此前,AI游戏生成领域尚未实现这一功能,而“声音”对于游戏来说至关重要。
YingSound由巨人网络AI Lab、西工大ASLP Lab和浙江大学联合开发,其最突出的能力在于:为无声视频添加精准匹配的音效,确保音画同步。
YingSound拥有卓越的时间对齐能力和视频语义理解能力,能够生成多种类型的高精度音效,并适用于广泛的应用场景,如游戏视频、动漫视频、真实世界视频、AI生成视频等。
出色的视频画面理解能力
让我们看看一段游戏配音示例。通过演示视频可以看出,该模型能够准确生成与场景相符的音效,如开镜、炮轰、射击等声音,生动再现了坦克进攻与士兵防守射击的场面,营造出沉浸式的游戏氛围。
△视频源自 《战地游戏》录屏
在动漫场景中,模型展现了对复杂剧情的强大理解力。例如,在一段鸟儿互相扔蛋的动画里,模型生成了从惊讶到扔蛋、蛋飞行轨迹、接住蛋等一系列节奏感十足且贴合视频内容的音效。
△视频源自 动画《Boom》片段
再看一个小球快速移动的画面,模型生成的声音完美契合画面动态变化,根据不同状态产生相应的场景音效,充分体现了其对动画内容的深刻理解。
△视频源自 3D动画短片《The Marble》片段
在真实世界场景中,通过对一段激烈的乒乓球对战视频的处理,模型精确捕捉每次击球产生的音效,甚至模拟出球员跑动时鞋底与地面摩擦的声音,这表明 YingSound 在视频整体语义理解和音效生成方面表现优异。
测评结果优异
研究团队公开了 YingSound 的两个核心组件:基于 DiT 的 Flow-Matching 音效生成模块,以及多模态思维链(Multi-modal CoT)控制模块,为音效生成提供了强有力的支持。
在音效生成模块中,团队基于 DiT 的 Flow-Matching 框架,创新性地提出了音频-视觉融合结构(Audio-Vision Aggregator, AVA)。该模块通过动态融合高分辨率视觉与音频特征,确保跨模态对齐效果。借助多阶段训练策略,从 T2A 到 V2A 逐步过渡,采用不同数据配比进行训练,使模型具备从文本、视频或两者结合生成高质量音效的能力。
同时,团队设计了多模态视频-音频链式思维结构(Multi-modal CoT),结合强化学习实现少样本情况下音效生成的精细控制,适用于短视频、动漫及游戏等多种配音场景。

团队精心构建了一个符合行业标准的V2A(video-to-audio)数据集,涵盖了电影、游戏、广告等多个领域的音视频素材。为确保数据质量,研究团队制定了一套严格的数据处理流程,涉及数据收集、标注、过滤和剪辑。针对不同视频类型的复杂性和差异性,团队基于多模态大语言模型(MLLMs)及人工标注,完成了时间戳和声音事件的高质量标注。同时,通过严格筛选,排除了背景音乐干扰及音视频不同步的内容,最终生成符合行业标准要求的训练数据,为后续研究与开发奠定了坚实基础。

根据客观指标评估,YingSound 大模型在整体效果、时间对齐和视频语义理解等方面均达到业内领先水平。

长远来看,视频生成技术因其展现的巨大潜力,可能会对游戏产业带来革命性的变革。
未来,仅靠文字描述就能创作出一款游戏将不再是梦想。随着该领域的快速发展,AI将赋予游戏创作更多可能性,创作者们的想象力或许将成为唯一的限制因素。
今年年初,史玉柱曾表示巨人网络正在探索打造一个AI游戏孵化平台,旨在降低游戏制作门槛,让更多人能够参与其中。如今,他们已经提交了首份成果,期待他们在AI游戏赛道上的更多精彩表现。