只需普通光学摄像头就能构建出你的“3D立体人像”,这是种什么体验?
人工智能平台公司云从科技近日发布了其在3D人体重建技术上取得的重大突破。3月19日,作为“国内CV(计算机视觉)四小龙”之一的云从科技(以下简称云从)宣布,其基于单帧图像的3D人体重建技术刷新了三项世界纪录,这也是继去年云从在3D人脸数据集上大幅刷新纪录后,再次在此类3D重建技术上取得重要成果。
所谓的三项世界纪录,指的是Human3.6M、Surreal和UP-3D三个数据集,是全球关于3D人体重建技术的权威数据集。榜单中的竞争对手包括加州大学伯克利分校、宾夕法尼亚大学、Amazon和Adobe Research等知名企业、研究所与高校。
那么,这项“牛逼”的AI技术到底有哪些应用呢?对于大众而言,3D人体重建技术带来的是全新体验:
这意味着,只用美颜APP就可以完成高精度的全身“瘦身”;你站在镜子前,商场的试衣镜便可实现一秒换装;如果放在电影工业的范畴来看,全新的3D人体重建技术,甚至将超越今年热映好莱坞科幻大片《阿丽塔》中所使用的视觉特效水平(钛媒体曾对该片的特效技术有详细介绍)。
在3D重建领域,误差通常被作为算法能力的主要衡量指标,它指的是生成模型与实际图像的差别。一般来说误差越低,精度越高,技术的性能越好。
云从对钛媒体透露,此次技术突破,“将原有最低误差记录大幅降低30%,使3D人体建模的结果更优秀,更接近人体的实际情况”。以下为云从提供的最低误差记录的信息:
全身精度误差在Surreal上从75.4毫米降低到52.7毫米;
关节精度误差从55.8毫米降低到40.1毫米;
Human3.6M上的关节精度误差从59.9毫米降低到46.7毫米;
除了误差指标,流畅度也是评价技术效果的关键指标。据云从透露,当前人体模型的帧率已经达到了200帧/每秒,相较之下,电影的帧率通常只有24帧/秒,即使对流畅度要求很高的电子游戏,达到60帧/秒就已经非常流畅。在运算速度上,人体建模的耗时也从上百毫秒降低到5毫秒,建模效率更高。
关键指标取得重大突破,加速了3D人体重建的落地进程,但这一概念在大众眼中实属陌生。云从所提出的单帧3D人体重建到底是什么?其革命性到底体现在哪里?
2D向3D飞跃:更精细的人体重建
因为人体有丰富的姿态和穿着,云从提出了一套全新的基于人体3D纵深预测的3D信息表征方式。该技术通过对三原色图像(RGB,不含深度信息)进行分析,预测人体的3D形态和姿势。
这是3D人体重建从2D时代向3D时代的飞跃。
传统的人体关键点检测技术往往监测的是2D的人体骨骼关节点,即通过技术预测RGB图像中人体的十几个关节点的坐标。这种方式存在着不足,其一这样捕捉的节点非常稀疏;其二,这样捕捉的结果一般只包含2D平面的坐标预测,不能还原3D的深度信息,无法体现纵深感。
而基于单帧图像的3D重建技术不仅能输出骨骼关节点信息,更能同时预测大量人体表面的关键点信息,使预测结果更丰富。而且每个点的坐标都是3D呈现,能够体现不同躯干的纵深信息。
值得注意的是,云从在新一代3D人体重建技术上,还强调了是“基于单帧图像”。这与传统技术大多需要“连续图像序列”或“多视角图像”产生了鲜明差异。
单帧图像就是一张照片,只需要普通的光学摄像头作为感知设备,就可完成人体重建。而传统技术中对图像要求更高,硬件上需要双目摄像机或者结构光摄像机等设备,在手机端等便携设备上是不可能完成的事。
基于单帧图像的3D重建技术降低了设备使用门槛,也对背后的技术提出了更难的挑战。该技术需要从单帧图像中推理出人体或人脸的3D形态,并通过“光学透视”、“阴影叠加”等基本光学原理预测各个关键点在3D空间的位置和朝向,从而得到人体的姿态或表情信息。
工业电影特效或被颠覆?
云从科技对钛媒体罗列了上述技术可能的落地场景。在C端的应用上,如上文提到,在不需要结构光的条件下,高精度全身瘦身可以通过手机App完成、并进行动画合成操作;智能换装也将成为普及性的体验。
其技术原理是,精度和显示效果大幅提升,设备门槛得以降低,将推动3D人体重建技术的落地步伐。
此外,还可以应用于疑犯身份重建、医疗仿真肢体3D重建以及电影特效领域。
视觉盛宴的缔造者《阿凡达》、《阿丽塔》等影片,不断抬高着人们挑剔的审美品位。未来,如果3D人体重建技术应用于电影特效制作,不仅会颠覆传统的特效技术,更会直接提升工业电影的制作水平。
20世纪90年代,影视特效往往采用的是光学式动作捕捉。在动作捕捉中,演员要穿上带有特定感应器的紧身衣,感应器会捕捉演员动作并同步给电脑中的虚拟角色,使得虚拟动作与真人动作完全同步。鲜为人知的是,1996年卡梅隆在制作《泰坦尼克号》时,沉船场景中的大多数乘客就都是CG人物。
2001年的《指环王》可谓是动作捕捉技术发展的分水岭;不过当时的技术还停留在捕捉头、四肢这样较大身体部位的水平,CG人物的表情还需要手工制作。
自《阿凡达》开始,特效技术开始从“动作捕捉”转向“表情捕捉”,《阿丽塔》则是实现了从“动作捕捉”到“表情捕捉”的彻底跨越。
在此前接受钛媒体专访时,好莱坞金牌特效团队“维塔数码”曾阐释了“表情捕捉”的优势,“所谓表演捕捉,就是不局限于四肢打斗几个固定散点的移动捕捉,全身上下还增加了好几倍的、更密集的感应点,也包括对面部表情的捕获。”
在这类特效电影中,对人像进行动作和表情捕捉,需要用专业的特效设备和面部贴点来进行。而3D人体重建技术颠覆了传统的技术,使得人体建构更加流畅饱满。根据云从科技提供的数据,当前3D人体重建技术能够用6万多个点完整描绘人体,在速度和精度上都有突破,人体模型建构也会更精细。
这不仅能降低工业级3D动画合成的门槛,也将会对工业电影的特效带来革命性的影响。
2018年10月,云从科技已完成 B+轮融资,金额超过 10 亿元。自2015年正式成立以来,云从已完成 4 轮融资,累积融资额已超过35亿元。(本文首发钛媒体,作者/芦依)
根据《网络安全法》实名制要求,请绑定手机号后发表评论