《偶像大师》的口型制作方法大揭秘——相关技术开发者访谈

2020-08-13

通过Lipsync生成顺滑口型，在“THE IDOLM＠STER MR ST@GE!!”展现栩栩如生的角色表现

俘获无数“制作人”们的“偶像大师”系列的爱豆们终于要来到现实世界。于2018年4月在DMM VR THEATER举行，并之后追加演出两次的“THE IDOLM＠STER MRST@GE!! MUSIC?GROOVE☆ENCORE”中，舞台上的爱豆们可以进行实时对话并且进行歌舞表演，是一次临场感非常高的活动。

而让角色们呈现出更高临场感的技术就是“LipSync”。作为正常人来说，说话时出现口型的变化是再正常不过的事情了，不过要让CG角色演绎这种真实就需要在动画方面进行高精度的控制。这次我们带来了于2020年2月举行的“THE IDOLM＠STER MR ST@GE!! MUSIC?GROOVE☆ENCORE”，为活动提供高品质口型技术的“CRI ADX LipSync”（以下略称ADX LipSync）的三明开发核心成员的访谈。

――首先请介绍下自己以及所属吧。

胜股春树：我是BandainamcoEntertainment的胜股。是THEIDOLM@STER MR ST@GE!!的制作人。今天请多关照。

胜股先生

佐佐木直哉：我是Bandainamco Studio的工程师佐佐木，主要在THE IDOLM＠STER MR ST@GE!!中担当图形系统的开发。

佐佐木

大曾根淳：我是BandainamcoStudio MoCap制作人大曾根。是我们公司实时角色动画技术“BanaCast”的制作人，在这个项目中也是Bandainamco Studio方面的负责人。

大曾根

――请介绍下引起很大反响的MR LIVE活动“THE IDOLM＠STERMR ST@GE!!”。

胜股： THE IDOLM＠STERMR ST@GE!!是能够体验到偶像大师中的登场的爱豆们呈现现实世界感觉的活动。不仅仅是LIVE，可以和爱豆们实时互动的活动全都定义为MR ST@GE!!。最初是在2018年4月于DMM VR THEATER进行的“THE IDOLM＠STER MR ST@GE!! MUSIC?GROOVE☆”开始的，之后同年9月还举行了“THE IDOLM＠STER MR ST@GE!! MUSIC?GROOVE☆2nd SEASON”。

――今年2月举行了“THE IDOLM＠STER MR ST@GE!! MUSIC?GROOVE☆ENCORE”，不过考虑到如今的形势听说一部分延期了。

胜股：是的，第三次举行的“THEIDOLM＠STER MR ST@GE!! MUSIC?GROOVE☆ENCORE”非常遗憾的在最后3天中止了。MRST@GE!!は765PRO ALLSTARS的单独公演汇总，除了披露UNIT曲目外，还采用了突出1名爱豆的主演爱豆制，每天会有主演爱豆披露SOLO曲目。通过MUSIC?GROOBE☆，从来没有主演过的星井美希在7月11日进行了直播。

――星井美希的直播有超过9万人观众，再次体会到瞩目度之高。ENCORE是作为再次演出的形式进行，那么和1st及2nd有什么变更的地方吗。

胜股： ENCOREは数曲だけ新曲を追加しています。构成上基本上没有变化，主演爱豆的制度也是一样的。关于UNIT曲目还是以1st和2nd时为主的基础上增加了几首新曲。

――请介绍下现在的开发体制。

大曾根：或许会让人惊讶，主要技术方面的人员也就2-3人。“THE IDOLM＠STER MR ST@GE!!”基本保持主要工程师1-2人的体制，以这个项目为主工作的成员实际上非常少。

佐佐木：视频部分主要分为动作捕捉组合图形组。图形方面包括我在内有2名成员，平时基本以其他游戏项目为主，是只在MR LIVE举行时参加这个项目的体制。我本来就担当PS4版《偶像大师白金星光》和《星光舞台》的开发工作，游戏中也用了实时的LIVE图形技术，然后就在这个项目中担当大家肉眼可见的图形部分。

胜股：是我这里向Bandainamco Studio发出了想要制作这样的活动的请求。于是从各个部门集结了精锐人员，完成了整个项目。我觉得我们是协调性非常好的团队。

大曾根：主要的项目成员就只有几位，然后工作室的其他成员会时而进行支持。比如说在决定服装或者需要哪些美术素材时会让美术设计进行帮忙……谈及这是全新的娱乐时，大家都跃跃欲试，充满了对项目的热情。

――为了展现出角色的存在感和LIVE感，有什么特别注意的地方吗。

胜股：总之就是让大家觉得“爱豆就是在那里”。只是CG或者人偶在动是不行的，需要追求更进一步的表现。想法就是希望能够很自然的表现出真实人类可以做的事情。为了极力缩小真实人物动作和CG的差距，即便是很细节的部分也想做出真实顺滑的动作。

大曾根：让我们自己来说可能有点不太好，但是角色的CG模型品质确实是压倒性的高。所以为了让妹子们在现实环境中看起来没有违和感……我自己曾经在CEDEC2018中谈到过一起跨越次元壁的话题，如今跨越次元界限的品质就实践在项目中。

――实时控制方面用了哪些技术呢？

大曾根：用了我们公司所有的动作捕捉技术和实时CG角色控制技术相组合的技术“BanaCAST”。BanaCAST把动作捕捉数据通过Unity、UE4以及自研等图形引擎以流媒体形式生成动画。“IMAS MR”的话就不使用其他公司的游戏引擎，而通过自制库运行。

佐佐木：从动作捕捉组那里以流媒体形式取得动作数据，然后图形组通过控制工具传送到渲染引擎。无论是控制工具还是渲染引擎都是由图形组从头开始开发的。美颜方面使用泛用的MIDI控制，这里也是实时进行动作的，声音部分同样通过解析生成相应口型。控制工具的主要职责就是将动作相关信息整合后作成流媒体输出。之后，在和《星光舞台》使用同样图形引擎开发的渲染引擎下，以控制工具的流媒体为基础，逐帧分配动作生成CG角色的动画。

――和本家的游戏同样的图像展现在面前时非常有冲击力。在融合LIVE活动方面的技术中，花费了怎样的工夫呢。特别是针对延迟问题方面。

佐佐木：演员动作后到CG角色动画的呈现有1帧（1/60秒）的延迟。一般从游戏开发角度来说，有着无时无刻不在考虑如何能够以低延迟和高帧率的习惯，这对我们来说非常的普通。以前Namco可是什么都坚持要60fps来表现呢（笑）

大曾根：延迟方面，一般动作捕捉到动画生成之间会有过渡的软件，不过我们全都省去了直接使用了流媒体播放。

佐佐木：本来3D模型的精度就非常高，是可以对应激烈动作的。实时也完全没有问题。游戏和实时活动最大区别还是在于延迟部分。比如角色在说话时，嘴巴是不是准确的在表现，唱歌时如果拖长音嘴巴闭上了就会被当做BUG等，因为是实时所以非常在意口型的表现。ADX LipSync需要解释声音的数据量非常的少，所以相应也缓解了延迟问题。

为了追求更高品质而导入了“ADX LipSync”

――请说一下导入ADX LipSync的契机。

佐佐木：本来在2nd时我们使用了自制的口型系统。运行起来也很稳定，也是想尽可能的不去变更，但是在CEDEC2019上有幸看到了ADX LipSync的展示，感叹着质量实在太高了。如果能够相比以往呈现更高精度更自然的口型的话，当时就想一定要导入了。

大曾根： CRI在TGS2019时也使用了我们公司的角色“未来小町”（※）来展示DEMO，我个人觉得效果非常好。佐佐木在提案时就立即想到了是这个。

※用来介绍Bandainamco Studio的游戏开发技术及Bandainamco研究所面向未来进行技术研究的原创角色。

TGS2019 CRI Middleware展台展示的LipSync Demo

佐佐木：之后CRI方面提供了SDK进行了实装。内部的API的导入也非常顺畅，真的是1、2天就搞定导入了。之后一段时间持续进行了测试验证，感觉到比自制工具有更充分的优势，所以决定采用了。

――看起来导入非常顺利。除了质量方面，佐佐木先生觉得带来的最大的好处是什么呢？

佐佐木：就如之前所说的，最大的帮助是解析所需的声音数据量很少延迟很短。其他方面，参数的操作也非常便利，能够抽出“a、i、u、e、o”元音这种针对日语特化的设计也和项目非常匹配。

大曾根：我对于产品的内部还有理解不透彻的地方，应该说是针对各种音质即便不做很细节的设定也可以生成非常质量好的口型吧。

佐佐木：确实是这样的。以前使用自制的口型工具时需要收录演员全员的“a、i、u、e、o”样本数据，各自准备不同的参数进行调整，而现在就不需要就行这样细节的操作了。此外，在2nd之前因为音量大小也为多少影响到解析进度，需要不断调整适应普通的MC音量和大声唱歌时的音量，而音量对于ADXLipSync的解析精度没有影响，就不需要去调整MC部分和歌唱部分的设定，对我们帮助非常大。

Pict（设定画面）

――在1st、2nd中原本使用的自制工具运行其实也很稳定，采用新工具也是非常具有挑战性。那么对于口型的重要性作何考虑呢？

佐佐木：对于我个人而言，《偶像大师》不仅仅是游戏中的世界，而是和我们平时现实生活的世界非常相似的另一次元的世界。我们可以通过画面来看到那里生活的爱豆。所以让角色们自然的呈现各种动作肯定是理所应当的，而相应口型的表现也就应该是理所应当的了。为了实现这种理所应当的表现，我们活用了ADXLipSync。

胜股：根据语音生成自然的口型，对于用户来说已经是非常普通的认识了。如果这个地方让用户察觉到违和感，就会让对话感觉也不那么真实了。此外，偶像大师系列非常看重现场演唱，即便是声音传达到了用户但动作表现不跟上的话就会产生很虚假的感觉。在拖长音时却出现嘴巴闭上这样的情况就完全太假了，所以这部分为了改善肯定需要更高精度的口型工具。

佐佐木：角色脸部总是能够吸引很多注意。表情在说话时如果有点不同多少违和感还不算厉害，但如果明明是说话时嘴却闭上了就会很明显被察觉的。

――实际使用后，在精度和质量方面能够满足需求吗。

胜股：我认为细节的表现明显比以前提升了很多。在到2nd为止的排练场面时很难找准细节表现，我自己就亲自进行了指挥并且做了很细节的指示总算最后调整的还行，现在就完全不用那么辛苦了……这可以说是带来帮助的一个证据吧（笑）

佐佐木：比如在连续说“papapapapa”时，每一遍“p”在自然情况下都应该是一瞬间间隔闭嘴，但在解析上因为声母是“啊啊啊啊啊”，所以真实表现口型非常困难。

而关于这方面ADXLipSync会分析“啊”的强度方面的信息，然后根据强度信息来展现口型，可以非常方便的做出相应表现。

CRI的支持体制非常完善出色，SDK的对应非常迅速对于各种问题的回复也反应非常快。对我们帮助很大。

――最后请谈一下“THE IDOLM＠STER MR ST@GE!!”今后的计划吧。

胜股：当初是以封闭测试形态登场的MRST@GE!!，通过参与项目大家的技术力以及作为制作人的用户们的支持，总算能够充满自信的拿出来和大家见面了。实在非常感谢。制作能够让爱豆们在现实世界中活跃的舞台是项目的理念，如今我想已经扩大了巨大的一步。当然还是蕴藏着很多可能性的项目，在LIVE以及演绎方面还想去挑战更多的东西。

大曾根： Bandainamco集团有着很多IP和各种各样的角色，对于让他们在真实的世界中自然存在一直是我们非常想做的。并非仅仅是让大家意识到打破了次元壁，而是要为了让大家自然的接受他们的存在而持续努力。

佐佐木：以家用机游戏开发现场的视点来看，LIVE这样可以直接看到用户反映的形式是非常重要的体验。非常高兴能够实时看到公司内员工以及用户们的反映，而这些也成为了之后开发的动力。今后也希望这样的内容能够继续下去。然后，技术部分也差不多需要考虑再度更新了，需要不断的持续进步。

――非常感谢。

■关于CRI ADX LipSync

CRI ADX LipSync是活用基于深度学习的语音分析技术，通过声音数据自动生成口型的声音解析口型中间件。游戏中的对话场景以及虚拟角色的实时直播都可以根据相应台词生成自然的口型。

■关于CRIWARE

CRIWARE是对应手机、家用机、网页等等平台能够实现高度演出表现的声音影像解决方案。已经被累计超过5500款产品采用。

原文：https://weibo.com/ttarticle/p/show?id=2309404535693790544017

微信公众号

微博

头条号

百家号

网易号

知乎号

《偶像大师》的口型制作方法大揭秘——相关技术开发者访谈

微信公众号

微博

头条号