国内AI公司发布全新3D人体技术，《阿丽塔》式工业电影特效技术有望再次被超越？-钛媒体官方网站

图片来源：视觉中国

只需普通光学摄像头就能构建出你的“3D立体人像”，这是种什么体验？

人工智能平台公司云从科技近日发布了其在3D人体重建技术上取得的重大突破。3月19日，作为“国内CV（计算机视觉）四小龙”之一的云从科技（以下简称云从）宣布，其基于单帧图像的3D人体重建技术刷新了三项世界纪录，这也是继去年云从在3D人脸数据集上大幅刷新纪录后，再次在此类3D重建技术上取得重要成果。

所谓的三项世界纪录，指的是Human3.6M、Surreal和UP-3D三个数据集，是全球关于3D人体重建技术的权威数据集。榜单中的竞争对手包括加州大学伯克利分校、宾夕法尼亚大学、Amazon和Adobe Research等知名企业、研究所与高校。

那么，这项“牛逼”的AI技术到底有哪些应用呢？对于大众而言，3D人体重建技术带来的是全新体验：

这意味着，只用美颜APP就可以完成高精度的全身“瘦身”；你站在镜子前，商场的试衣镜便可实现一秒换装；如果放在电影工业的范畴来看，全新的3D人体重建技术，甚至将超越今年热映好莱坞科幻大片《阿丽塔》中所使用的视觉特效水平（钛媒体曾对该片的特效技术有详细介绍）。

在3D重建领域，误差通常被作为算法能力的主要衡量指标，它指的是生成模型与实际图像的差别。一般来说误差越低，精度越高，技术的性能越好。

云从对钛媒体透露，此次技术突破，“将原有最低误差记录大幅降低30%，使3D人体建模的结果更优秀，更接近人体的实际情况”。以下为云从提供的最低误差记录的信息：

全身精度误差在Surreal上从75.4毫米降低到52.7毫米；
关节精度误差从55.8毫米降低到40.1毫米；
Human3.6M上的关节精度误差从59.9毫米降低到46.7毫米；

除了误差指标，流畅度也是评价技术效果的关键指标。据云从透露，当前人体模型的帧率已经达到了200帧/每秒，相较之下，电影的帧率通常只有24帧/秒，即使对流畅度要求很高的电子游戏，达到60帧/秒就已经非常流畅。在运算速度上，人体建模的耗时也从上百毫秒降低到5毫秒，建模效率更高。

关键指标取得重大突破，加速了3D人体重建的落地进程，但这一概念在大众眼中实属陌生。云从所提出的单帧3D人体重建到底是什么？其革命性到底体现在哪里？

2D向3D飞跃：更精细的人体重建

因为人体有丰富的姿态和穿着，云从提出了一套全新的基于人体3D纵深预测的3D信息表征方式。该技术通过对三原色图像（RGB，不含深度信息）进行分析，预测人体的3D形态和姿势。

这是3D人体重建从2D时代向3D时代的飞跃。

传统的人体关键点检测技术往往监测的是2D的人体骨骼关节点，即通过技术预测RGB图像中人体的十几个关节点的坐标。这种方式存在着不足，其一这样捕捉的节点非常稀疏；其二，这样捕捉的结果一般只包含2D平面的坐标预测，不能还原3D的深度信息，无法体现纵深感。

而基于单帧图像的3D重建技术不仅能输出骨骼关节点信息，更能同时预测大量人体表面的关键点信息，使预测结果更丰富。而且每个点的坐标都是3D呈现，能够体现不同躯干的纵深信息。
人体关键点监测：从2D向3D进化

人体关键点监测：从2D向3D进化

值得注意的是，云从在新一代3D人体重建技术上，还强调了是“基于单帧图像”。这与传统技术大多需要“连续图像序列”或“多视角图像”产生了鲜明差异。

单帧图像就是一张照片，只需要普通的光学摄像头作为感知设备，就可完成人体重建。而传统技术中对图像要求更高，硬件上需要双目摄像机或者结构光摄像机等设备，在手机端等便携设备上是不可能完成的事。

基于单帧图像的3D重建技术降低了设备使用门槛，也对背后的技术提出了更难的挑战。该技术需要从单帧图像中推理出人体或人脸的3D形态，并通过“光学透视”、“阴影叠加”等基本光学原理预测各个关键点在3D空间的位置和朝向，从而得到人体的姿态或表情信息。

工业电影特效或被颠覆？

云从科技对钛媒体罗列了上述技术可能的落地场景。在C端的应用上，如上文提到，在不需要结构光的条件下，高精度全身瘦身可以通过手机App完成、并进行动画合成操作；智能换装也将成为普及性的体验。

其技术原理是，精度和显示效果大幅提升，设备门槛得以降低，将推动3D人体重建技术的落地步伐。

此外，还可以应用于疑犯身份重建、医疗仿真肢体3D重建以及电影特效领域。

视觉盛宴的缔造者《阿凡达》、《阿丽塔》等影片，不断抬高着人们挑剔的审美品位。未来，如果3D人体重建技术应用于电影特效制作，不仅会颠覆传统的特效技术，更会直接提升工业电影的制作水平。
《猩球崛起》CG特效

《猩球崛起》CG特效

20世纪90年代，影视特效往往采用的是光学式动作捕捉。在动作捕捉中，演员要穿上带有特定感应器的紧身衣，感应器会捕捉演员动作并同步给电脑中的虚拟角色，使得虚拟动作与真人动作完全同步。鲜为人知的是，1996年卡梅隆在制作《泰坦尼克号》时，沉船场景中的大多数乘客就都是CG人物。

2001年的《指环王》可谓是动作捕捉技术发展的分水岭；不过当时的技术还停留在捕捉头、四肢这样较大身体部位的水平，CG人物的表情还需要手工制作。

自《阿凡达》开始，特效技术开始从“动作捕捉”转向“表情捕捉”，《阿丽塔》则是实现了从“动作捕捉”到“表情捕捉”的彻底跨越。

《阿丽塔》CG特效图

在此前接受钛媒体专访时，好莱坞金牌特效团队“维塔数码”曾阐释了“表情捕捉”的优势，“所谓表演捕捉，就是不局限于四肢打斗几个固定散点的移动捕捉，全身上下还增加了好几倍的、更密集的感应点，也包括对面部表情的捕获。”

在这类特效电影中，对人像进行动作和表情捕捉，需要用专业的特效设备和面部贴点来进行。而3D人体重建技术颠覆了传统的技术，使得人体建构更加流畅饱满。根据云从科技提供的数据，当前3D人体重建技术能够用6万多个点完整描绘人体，在速度和精度上都有突破，人体模型建构也会更精细。

这不仅能降低工业级3D动画合成的门槛，也将会对工业电影的特效带来革命性的影响。

2018年10月，云从科技已完成 B+轮融资，金额超过 10 亿元。自2015年正式成立以来，云从已完成 4 轮融资，累积融资额已超过35亿元。（本文首发钛媒体，作者/芦依）

国内AI公司发布全新3D人体技术，《阿丽塔》式工业电影特效技术有望再次被超越？

2D向3D飞跃：更精细的人体重建

工业电影特效或被颠覆？

敬原创，有钛度，得赞赏