数字人Steven：Behind the Scenes

作者：共向未来的 NExT Studios 2022-06-30

在刚刚结束的“SPARK 2022”腾讯游戏发布会上，腾讯高级副总裁马晓轶Steven的高保真数字人亮相，其背后的制作团队是NExT Studios。从2017年高保真实时数字人Siren开始，NExT先后制作了Matt AI、小诤、外来人员WL.S等角色，持续探索数字人制作领域。

此次数字人Steven的制作，NExT首次实现了影视级全流程跑通，也是努力突破“虚实结合”3D高保真制作挑战的又一次技术力检验。

高保真数字人被称为“数字技术皇冠上的明珠”，要“以假乱真”一个既有的人，需要大量的技术能力和极其注重细节的纠偏能力。在制作过程中不断对比数字人和真人的差异并调试，使之在任何灯光环境下都感受不出异样，这个环节叫做LookDev。它是一种理念，一种检验数字人仿真度的可量化标准，是制作中不可或缺的环节。

“像与不像其实是非常主观的判断，我们要确保数字人和本人是一模一样的，必须把所有的变量都固化到具体的数值。比如皮肤的材质和颜色、眼球的结构、睫毛的材质都会影响呈现，灯光的亮度、方向，以及一系列的白平衡等参数也是变量。我们技术团队需要做的，就是反推出我们还不确定的变量，用数值性的方法定义角色。”数字人Steven项目制作人刘奇申说道，“LookDev是一个不断匹配的过程，希望确保最终制作出来的成果和原始的人物是分毫不差的。”

数字人Steven灯光环境预览

LookDev是一把“金尺子”。从最开始的扫描、实拍、再到后期的制作、渲染，每一个环节，制作团队都会把这把拿尺子出来“量一量”，实时纠偏，确保团队成员一直照着共同的标准制作。

数字人Steven LookDev

建模，是制作数字人的第一步，通常由隶属工作室的Photogrammetry Lab（照相建模实验室）担此重任。由于疫情封闭，几经周转只能借用到精度、数量、调校、采集环境都稍逊的另一个照相扫描室进行Steven的全身扫描，将数据传输给上海的制作团队完成模型制作。

照相扫描现场

数字人皮肤的制作是一项复杂的工程，真实的人类皮肤通常有油脂层、脂肪层等，光线照射在皮肤后，会进行漫反射、镜面反射、透视等。有些光线被血液和油脂吸收，有些则被油脂反射，称为“次表面反射”。

“我们在做虚拟人皮肤材质的时候，必须同时把这几层结构都考虑进来。”数字人Steven项目技术负责人李静翔说，“一个人的皮肤本身有毛孔和汗毛，除此之外我们还有一层绒毛，有点像桃子上的毛。一般离得非常近或是有侧面光打过来时，绒毛会比较明显。我们在数字人脸上也做了一层非常短、半透明的绒毛。当数字人做任何表情的时候，这些绒毛需要跟着脸部一起运动，否则容易出现穿插的问题。”

数字人Steven的皮肤细节

如果人物样貌已很真实，但服饰衣着粗糙，也会让人第一眼就有明显的假人观感。所以在制作数字人Steven整套衣服和鞋子时，制作团队采购了实物服装，完全按照真实比例，在MD（Marvelous Designer）中打板还原并建模。

服饰建模

以数字西装为例，模型师不仅还原出衣服形态，而且进行了更精确的“毫米级”制作，让其更具真实质感。比如为了尽可能写实西装的笔挺质感，还原真实动作下的褶皱布料状态，角色特效师参考了大量布料动态视频，根据经验设置拉伸、弯曲属性进行布料解算，在保持西装状态的同时尽量接近真实褶皱的状态，提升了数字人实时动画的品质和艺术表现力。

数字人模型做好后，就需要“动起来”。之前往往通过真实照片和数字人静帧对比来制作表情，但静态对比容易忽略一些表情的“动势”——人的表情不是单一的一帧，而是呈现这个表情前后的一脸串微表情集合。所以制作团队根据FACS（Facial Action Coding System 面部表情编码系统），把如张嘴、闭眼等极限表情时肌肉的发力、拉伸通过动态形式还原出来，在之后动捕驱动的环节，能够较好地还原Steven的表情个性。

通过NExT自研的xFaceBuilder®数字角色制作管线，制作团队完成了700余个表情制作。开发同事把骨骼的运动方式和算法完成，像黑盒一样封装起来，动画师完成最终的表情动画。xFaceBuilder®极其高效便捷地简化了制作流程，此时的动画师就像一名司机，开发团队提供的控制面板就是他的“方向盘”。不需要知道汽车如何具体运转，也不需要知道方向盘和油门控制的底层原理，只需要踩油门和刹车，掌握方向盘，他就可以把这辆车开到想去的地方。

数字人Steven表情制作

发布会上，高保真数字人Steven会进行一段对话，需要驱动数字人模型“能说会道”。驱动模型的方式通常有手动驱动、动捕驱动，或者语音驱动等。人说话时脸部、嘴部、眼部肌肉都会配合轻微运动，手工驱动是由动画师按帧调整，虽然精准但耗费大量人力；动捕驱动的联动性较好，缺点是不精准；语音驱动可在较短时间内进行大量制作，适合对动画精度要求不高且数量大的项目。

鉴于整体制作要求较高但时间有限，技术团队最后选取了手工驱动和动捕驱动相结合的驱动方案。Steven本人因疫情原因无法参与实地动捕，提供了一段手机拍摄的视频，加载进动捕软件里，用动捕方案驱动，动画师再在此基础上做手工驱动补充。这样在精准表现单个微表情的前提下，更大程度地保证了表情的联动性。

视频动捕加手工驱动

能够把一个数字人做得像真人，用当下的技术可能已经不难了，但是“像一个真人”和“像某人本人”，从形似到神似的跨越才是最难的。

通常数字电影里的CG人物比较“风格化”而不是“拟真化”，防止观众落入“恐怖谷效应”。比如《速度与激情7》里保罗兄弟动捕换脸、《双子杀手》里年轻版威尔 · 史密斯的制作等，这些AI换脸技术相对成熟。但是NExT此次制作数字人Steven放弃了换脸“捷径”，而是实打实的3D制作，相当挑战团队极限技术能力。

技术团队对Steven的日常表情和动作细节做了大量研究，以海量的照片和视频为基础，无论是个人特征或者代表性的小动作、微表情，都抓取下来运用到制作细节中，让数字人“从形似到神似的跨越”有更多助力。

另一个难点是“虚实结合”的制作方式——视频背景是真实场景，需要把数字人Steven嵌入到环境中，再把整体色调和气氛全部恢复到当时的实拍环境中，让人看不出是环境外嵌入的虚拟人物，而是融合在环境中的人物。

灯光渲染首先需要获取最基础的HDRI环境参数，通过手动打光的方式还原灯光环境，并校正修饰光照在角色上的照明效果，以达到更理想的状态。

数字人Steven在不同光照条件下

NExT技术团队按照影视级别的标准，花费近半年时间完成了高保真数字人Steven的制作。说到技术团队的人员构成，也算是挺有趣的组合，一半来自影视行业，一半来自游戏行业，由此也能一窥近年持续发酵的影游“共生融合”关系。

影视行业的专业流程、高品质标准，慢慢进入游戏行业，赋能游戏开发的高效性和系统性。游戏行业的技术也在反哺影视，例如虚拟拍摄可以帮助影视行业大批量、相对低成本地生产内容，其“实时性”的特质让导演在现场可以第一时间所见即所得，充分发挥自己的创造性。越来越多的经验和技术在影视和游戏之间共享，试想如果游戏引擎渲染的画面质量能进一步提高，愈来愈趋近影视级品质，性价比的优势愈来愈凸显时，有无可能真正替代传统影视呢？

数字人Steven按影视流程制作

数字人的应用场景不光是影视和游戏，医疗、政务、金融、教育等领域都在持续探索发展。未来AI、5G、云计算、大数据、人工智能等技术深度融合，科技水平和算力有更大突破，线上可能有我们的数字孪生，也可能有外形和意识构成均无限趋近于真人的“有血有肉”的虚拟朋友，与你私密地交谈，分担忧愁共享快乐。在制作数字人的当下，能依稀看见未来发生变化的轮廓。未来世界的虚实共生的样态，可能已经在慢慢到来。

来源：NExT Studios
原文：https://mp.weixin.qq.com/s/9iSyy4o-AanCazJb5fMH3Q

微信公众号

微博

头条号

百家号

网易号

知乎号

数字人Steven：Behind the Scenes

微信公众号

微博

头条号