技术演示 | 天美第一个高保真数字人！重现一位“球迷”的真情实感

SAY · 发表于 2023-9-23 05:21:18

天美里有一支来自天美研发支持中心的团队，长期支持天美游戏的剧情动画制作，钻研动作和面部捕捉技术。

“唐敏凯高保真数字人”就是他们的最新实践成果。

唐敏凯，是数字人背后的“模特”，也是天美研发支持中心的一名高级技术美术。

作为团队一员，唐敏凯有条件随时参与大量面捕工作，其面部线条硬朗，也适合用来建模，于是就这样成为数字人模特的最佳人选。

为了调动起一位非专业演员的真实情绪表演，团队也不得不以足球事业，来激发一位球迷内心的真情实感，最终呈现出大家看到的生动表情。

通过本次的数字人项目，团队希望尝试新的制作管线，同时挑战超高写实度的角色制作和表情效果。

我们也请来了项目背后的团队成员，与大家分享数字人创造过程中的感受与思考。

研发支持中心总监：宋巍

高保真数字人可以定义为“数字孪生”或“数字替身”。

数字孪生/数字替身早期主要是应用在影视行业，最主要应用就是“返老还童”和“死而复生”。

这项技术可以让中老年演员，扮演自己年轻时的形象。

《双子杀手》

《爱尔兰人》

也可以让已经去世多年的演员，重新出现在银幕上。

《星球大战》

近些年，在很多 3A 游戏大作中，数字孪生也会以重要剧情角色的形式加入。

《死亡搁浅》

《赛博朋克 2077》

天美正在研发的下一代游戏产品中，也将大量应用到这项技术。

实际上，几年前我们团队就开始了数字人项目的研究。

在角色制作过程中，经历了从传统建模方式到 3D 扫描的建模方式转变。表情动画捕捉使用过手机拍摄和相机拍摄两种形式，动作捕捉也使用了光学设备和惯性设备两套方案。

这期间的研究成果都已经应用到了天美某些游戏产品中。

市面上的各种主流或非主流的技术和设备，我们也都基本尝试过了，最终我们梳理了几套标准的制作管线，来满足不同产品的剧情动画需求。

比如移动端产品，我们会使用骨骼绑定的方式，而 PC 端产品，我们则会使用 BS 的绑定方式，来应对不同终端的设备性能要求。

期间我们也尝试使用了大量的国产设备。

目前团队使用的 3D 扫描，动作捕捉，面部捕捉等相关软硬件设备，均是国人团队研发的国产设备。

相比进口设备来说，国产设备可以帮助我们节省大量的开发成本。

在支持国货的同时，也可以看到国货在崛起。

高级角色模型师：赵旭光

敏凯同学的数字人制作，使用的是手持扫描工具得到的点云数据。

因为是白光的扫描仪，比较刺眼，所以得到的点云模型是闭眼状态。闭眼状态有一个好处就是可以满足上眼皮的皮肤纹理不被拉伸。

虽然手持扫描的模型精度不会像阵列拍摄的模型精度那么高，皮肤纹理几乎没有，但是基本的骨点结构是都有了，剩下的就交给模型师的功底了。

对了，大家都说随着扫描技术慢慢成熟，模型师就都要下岗了，鄙人不敢苟同。

人有一样是工具替代不了的，那就是创造力。有了钢笔，就没人用毛笔了，但钢笔书法家和毛笔书法家，都是书法家。

被淘汰的是落后的工具，以及不学习新工具的人类。

因为我们是做动态虚拟人，不能让虚拟人只是静帧的时候像模特，所以我针对该角色每个极限表情都做了扫描，以保证动态下数字人与真人的相似度。

这个就和最近刚出的 MetaHuman 大有不同了。MetaHuman 所有的表情幅度和结构都是基于一个模板进行 blendShape 变化的，加上表情后，相似度就差一些。当然做一些简单的 NPC 是足够了。

而我们要实现的是高还原度，所以 MetaHuman 就不能满足我们的需求了。

为了追求更逼真的效果，我选择了用 XGen 的方式来做毛发。现在 UE5 对毛发缓存支持效果不错，堪比离线渲染。

高级技术美术：唐敏凯

数字人模型做好之后，需要让他动起来，这样才能使其生动。

在做表情的时候，一般会通过照片和静态模型做比较来完成效果。但我们在做动画的时候，会发现这个表情的变化看起来有些奇怪，这里有些僵硬，那边有些不自然……说到底就是“动态效果”的缺失。

人的表情并不是单一的一张照片，而是由一连串微表情的不断变化组合而成，这个过程也会随着面部肌肉的挤压拉伸，呈现出不同的动态变化。

我们在制作过程中，逐帧地分析真人细微表情的变化，通过不断尝试、调整，把p2p(pose-to-pose)升级到pbp(pose-between-pose)，在表情中间态效果上做了大量的尝试，尽量把表情中间的动态变化给表现出来，让角色的表情呈现出更加自然的效果。

比如这个闭眼的中间过程效果。

数字人的表情离不开老生常谈的 FACS 系统。

经常会看到某个数字人包含几百个甚至几千个表情（此数字人我们使用了 500 多个表情目标体），这是因为根据 FACS 系统的设定我们需要对正常的表情进行分解后再重新组合，尽量让单一表情单元的重复利用率达到更高，还要有一定的容错率，让表情组合后的效果减少错误的表现。

比如这样一个愤怒的效果，虽然只是“一个”愤怒的表情，却是由“十几个”表情单元组合而成的。

再配合皱纹的效果，可以让数字人的表情更加真实自然。

目前市面上的数字人技术和流程也越来越成熟，不断地涌现出各种工具，比如模型扫描设备，动作捕捉设备，还有 MetaHuman 数字人创建工具。

每每有新的技术出来，同事们都会打趣道：“完蛋鸟，要跟不上时代了！哈哈哈！”。

不可否认的是，新的技术会对行业产生冲击。

但中国有句老话，“活到老，学到老”！人类从来都没有因为一件工具的发明而饿肚子，一向都是因为不断发明新的工具，新技术，才让人类社会不断前进。

动捕技术的快速发展和应用是好事，能大幅度提升效率，而我们唯一需要做的就是保持学习的态度，这只是一种工具，可以让我们把更多的精力，放在如何向大家展示更好的效果，做出更多有趣的产品上。

高级动画师：王研

因为效率高，可以快速获得较高的品质的动画，所以慢慢越来越多的项目都放弃手 K 动画，使用全动捕流程，这也促使动捕技术高速的发展。

所以动捕技术在游戏行业内外，一直都是想办法“干掉”动画师饭碗的一种发展趋势，且势头很猛，有点类似现在电动车技术在努力取代燃油车。

那么当表情动作全捕捉技术成熟以后，动画师就要全体躺平了吗？

其实动画师就是要接受自己要从一个画家转为摄影师的过程，要接受自己之前画几天才能画出一副的 80 分作品，机器分分钟就能搞定的现实。

但是机器捕捉给你的就是客观放到那的一堆数据，这些数据哪些有意义，哪些没意义，它可判断不了，因为有没有意义是对人类而言。对于机器，全都是数据。

机器可以快速给你的 80 分的东西，但是这 80 分谁有机器，谁就能得到。

别忘了我们生在一个“内卷”的年代，那么这 80 分就又不值钱了，所以问题又来到了这 20 分具体还差在哪里？要做什么才能拿到满分？

接下来这 20 分就属于一个“躺平但还没完全躺平”动画师的工作范畴了：

哪些捕捉到的细节亮点是要强调表现出来？哪些意义不大的细节可以弱化或删掉？面部是否美观？皮肤肌肉联动是否舒服合理？表情是不是符合角色本身的特征和习惯？情绪是否精准的表达？等等。

比如单单摆出这一帧敏凯专属的尴尬而不失礼貌的笑的表情 Pose，就花了我整整两天的时间。

眼神、眼皮、嘴唇、上下牙齿的留白形状细微的变化，都会牵连整体美观度、人物性格、情绪的变化。

让观众相信眼前看到的是个有灵魂的活人，而不是模型，每一个控制器数值，每一帧都是要靠动画师的眼睛来判断调整。

这些都是需要多年的观察、感悟，对表演的理解，加上一帧一帧 K 动画，才能得出来的经验。

我觉得几乎任何行业，积累突破了一定的技术经验后，最终都要研究“人”。一项技术一个产品有没有价值也是人来衡量的。

销售要研究人的心理，更容易抓住人的消费心理，从而卖出自己的产品。

产品要研究人的行为习惯，才能不断提升人体工学，人机交互体验等，获得更好的用户粘性。

如果未来捕捉技术、人工智能行业的从业人员可以把人研究透，让算法智能到有了灵魂，那我们动画相关从业者就可以彻底躺平了。

但在这天来临之前之前，还是需要动画师去研究人的性格、习惯、情绪、情感等等的人类课题，这样才能做出有灵魂，打动人内心的产品。

只要可以打动人，就有价值，就不会被技术替代。

虽然现在手 K 动画项目越来越少了，但我还是抓住机会就会去刻意练习手 K，因为我觉得无论什么行当，内功都是一生去修炼的课题。

文/腾讯天美工作室群
来源：TiMi Club 天美俱乐部
原文：https://mp.weixin.qq.com/s/B950NWJQOIB8I2BTAa4BAw

		自动登录	找回密码
密码			立即注册

技术演示 | 天美第一个高保真数字人！重现一位“球迷”的真情实感

本帖子中包含更多资源