包晓琳 - 聚焦 - 正文

谷歌如何通过机器学习实现逼真AR实时自拍效果

2019-04-09 23:24映维网

增强现实可以在物理世界之上叠加数字内容与信息,从而增强你的感知。例如,谷歌地图的AR功能可允许你直接看到叠加在现实世界视图的方向。借助Playground,你就可以通过AR并以不同方式浏览世界。对于最新版本的YouTube Stories,以及ARCore全新的Augmented Faces API,你可以为自拍添加动画面具,眼镜,3D帽子等滤镜。

实现这种AR功能的关键挑战之一是合理地将虚拟内容锚定在现实世界。这个过程需要一套独特的感知技术,需要能够追踪千差万别的表面几何,每一个微笑,每一次皱眉都要准确识别。

为了实现这一切,谷歌采用机器学习来推断近似的3D表面几何形状,只利用一个摄像头输入而无需专用的深度传感器。利用面向移动CPU界面的TensorFlow Lite或可用的全新移动GPU功能,这种方法带来了实时速度的AR效果。所述解决方案与驱动YouTube Stories全新创作者效果的技术相同,并已经通过最新的ARCore SDK和ML Kit Face Contour Detection API向广泛的开发者社区开放。

1. 用于AR自拍的机器学习管道

谷歌的机器学习管道由两个协同工作的实时深度神经网络模型组成:一个在整张图像上运行,并计算面部位置的探测器;在所述位置上运行,并通过回归预测来近似表面几何的通用3D网格模型。精确地裁剪面部可以大大减少对相同数据增强的需求,比方说由旋转,平移和比例变化组成的仿射变换。通过精确地裁剪面部,这允许系统将大部分性能用于预测坐标,而这对于实现虚拟内容的正确锚定至关重要。

一旦裁剪了感兴趣位置,网格网络一次仅应用于单个帧,利用加窗平滑(windowed smoothing)以减少面部静止时的噪点,同时避免在显著移动期间出现延迟。

对于3D网格,谷歌采用了传递学习,并训练了一个具有多个目标的网络:网络同时利用合成渲染数据预测3D网格坐标,以及利用注释的真实世界数据来预测2D语义轮廓。因而产生的网络为谷歌提供了合理的3D网格预测,这不仅体现在合成上,同时体现在现实世界数据上。所有模型都接受来自地理不同的数据集数据培训,随后在平衡的,多样化的测试集上进行测试,从而获得定性和定量性能。

3D网格网络接收裁剪的视频帧作为输入。它不依赖于额外的深度输入,因此同时可以应用于预先录制的视频。所述模型输出3D点的位置,以及输出在输入中存在并合理对齐的可能面部。一种常见的替代方法是预测每个地标的2D热图,但这不适合深度预测,而且如此多的数据点需要高昂的计算成本。

编辑:

版权与免责声明:

凡未注明"稿件来源"的内容均为转载稿,本网转载出于传递更多信息的目的;如转载稿涉及版权问题,请作者联系我们,同时对于用户评论等信息,本网并不意味着赞同其观点或证实其内容的真实性;


本文地址:http://www.dlnubbs.cn/news/2019/04/09/834328.html

转载本站原创文章请注明来源:包晓琳

点击排行
焦点

谷歌如何通过机器学习实现逼真AR实时自拍效果

必读:AR/VR,下一个计算机浪潮,下一个三十年科技文明文章 ...详情

诺基亚X71即将发布:开孔全面屏+后置三摄

原标题:诺基亚X71即将发布:开孔全面屏+后置三摄自HMD执 ...详情

解码vivo x27邀请函,升降式摄像头+后置三摄绝对没跑了

印象中的vivo邀请函一直走的是文艺范儿,很少像即将发布的X ...详情

北汽电动车的300公里续航,让中国汽车产业的襁褓思维暴露无遗

近日,北汽董事长徐和谊在采访时发表言论称“电动车 ...详情

黄仁勋:数据中心将成为巨无霸 但 AI 加速计算才是未来

相对于前两年英伟达举办的 GTC(GPU Technolog ...详情

CopyRight ? 2019 包晓琳 www.dlnubbs.cn, All Rights Reserved 漫展网 版权所有

使用漫展网前必读 | 关于我们 | 免责声明 | 隐私政策 | 包晓琳 | 联系我们