联系我们

卫生保健

健身应用中的AI姿势估计

mm

已发表

 on

通过Maksym Tatariants, 数据科学 工程师 莫比德夫.

人体姿势估算是指一项技术-相当新,但发展迅速-在健身和舞蹈应用中起着重要作用,使我们能够将数字内容放置在现实世界中。

简而言之,人体姿势估计的概念是 计算机视觉基于技术的检测和处理人体姿势的技术。该技术最重要的核心部分是人体建模。在当前的人体姿势估计系统中,三种人体模型最为突出-基于骨骼,基于轮廓和基于体积。

基于骨架的模型

该模型由一组关节(关键点)组成,例如膝盖,脚踝,手腕,肘部,肩膀和身体四肢的方向。该模型以其灵活性着称,因此既适用于3维人体模型又适用于2维人体姿态估计。通过3维建模,该解决方案使用RGB图像并找到关节的X,Y和Z坐标。进行二维建模时,它与对RGB图像的分析相同,只是使用了X和Y坐标。

基于轮廓的模型

该模型利用了躯干和四肢的轮廓以及粗略的宽度。在这里,解决方案采用车身框架的轮廓,并将车身零件渲染为该框架内的矩形和边界。

基于体积的模型

该模型通常使用一系列3维扫描来捕获身体的形状,并将其转换为形状和几何网格的框架。这些形状创建了一个3D系列的姿势和身体表示。

3D人体姿势估计如何工作

健身应用倾向于依靠3维人体姿势估计。对于这些应用,关于人体姿势的信息越多越好。使用此技术,应用程序的用户将记录自己参加锻炼或锻炼程序的情况。然后,该应用程序将分析用户的身体运动,以纠正错误或不正确之处。

这种应用的流程图通常遵循以下模式:

  • 首先,在用户进行锻炼时收集有关用户运动的数据。
  • 接下来,确定用户的动作正确或不正确。
  • 最后,通过界面向用户显示他们可能犯了什么错误。

目前,人体姿势技术的标准是 COCO拓扑。 COCO拓扑结构由全身的17个界标组成,范围从面部到手臂再到腿。请注意,COCO不是唯一的人体姿势框架,而只是最常用的一个。

这种类型的过程通常利用深层 机器学习 用于估计用户姿势的关节提取技术。然后,它使用基于几何的算法来了解所发现的内容(分析检测到的关节的相对位置)。当使用动态视频作为其源数据时,系统可以使用一系列帧(而不仅仅是单个图像)来捕获其关键点。由于系统可以使用来自相邻帧的信息来解决有关人体在当前帧中的位置的任何不确定性,因此结果是可以更加准确地呈现用户的真实运动。

在健身应用中使用3D姿势估计的当前技术中,最准确的方法是首先应用模型来检测2D关键点,然后使用另一个模型处理2D检测以将其转换为3D关键点预测。 

在里面 研究 我们最近发布的视频使用了单个视频源,并使用了具有扩张的时间卷积的卷积神经网络来执行2D->3D关键点转换。

在分析了当前的模型之后,我们确定VideoPose3D是最适合大多数AI驱动的健身应用程序需求的解决方案。使用此系统的输入应允许检测2D关键点集, 在COCO 2017数据集上预先训练的模型被应用为 2D检测器。 

为了最精确地预测当前关节或关键点的位置,VideoPose3D可以在短时间内使用多个帧来生成2D姿态信息。 

为了进一步提高3D姿势估计的准确性,多个摄像机可以收集用户执行相同运动或例行程序的替代视点。但是请注意,它需要更大的处理能力以及专门的模型架构来处理多个视频流输入。

最近,谷歌 揭幕 他们的BlazePose系统,一种面向移动设备的模型,用于通过将分析的关键点数增加到33来估计人体姿势,COCO关键点集的超集和其他两种拓扑–BlazePalm和BlazeFace。结果,BlazePose模型可以通过表达身体语义来产生与手部模型和面部模型一致的姿势预测结果。

基于机器学习的人体姿势估计系统中的每个组件都需要快速运行,姿势检测和跟踪模型每帧最多需要花费几毫秒的时间。 

由于BlazePose管道(包括姿态估计和跟踪组件)必须实时在各种移动设备上运行,因此该管道的每个单独部分都具有很高的计算效率,并且运行速度为200-1000 FPS 。

通常,分两个阶段完成视频的姿态估计和跟踪(不知道该人是否在哪里以及在哪里)。  

在第一阶段,运行对象检测模型以定位人的存在或识别其不存在。在检测到人之后,姿势估计模块可以处理包含人的局部区域并预测关键点的位置。

这种设置的缺点是,它需要为每个帧运行对象检测和姿势估计模块,这会消耗额外的计算资源。但是,BlazePose的作者设计了一种巧妙的方法来解决此问题,并在其他关键点检测模块(例如 面网MediaPipe手.

这个想法是,对象检测模块(在BlazePose的情况下为面部检测器)只能用于在第一帧中启动姿势跟踪,而对人的后续跟踪可以在某些姿势对齐后仅使用姿势预测来完成,使用姿势估计模型预测的参数。

由于外观变化相对较小且其特征具有较高的对比度,因此脸部会产生最强的神经网络躯干位置信号。因此,有可能通过一系列合理的假设来创建用于姿势检测的快速,低开销的系统,这些假设的基础是在每个个人用例中都可以找到人的头部。

克服人体姿势估计的挑战

在健身应用中使用姿势估计面临着巨大范围的人体姿势挑战,例如,大多数瑜伽方案中的数百个体位训练。 

此外,身体有时会阻塞任何给定摄像机捕获的某些肢体,用户可能穿着各种衣服,从而掩盖了身体特征和个人外观。

使用任何经过预先训练的模型时,请注意,异常的身体移动或奇怪的相机角度可能会导致 人体姿势估计中的错误。通过使用,我们可以在一定程度上减轻这个问题 综合数据 从3D人体模型渲染或通过微调特定于相关领域的数据进行调整。

好消息是我们可以避免或减轻大多数缺点。这样做的关键是选择正确的训练数据和模型架构。此外,人体姿势估计技术领域的发展趋势表明,我们现在面临的一些问题在未来几年中将不再那么重要。

最后的话

人体姿势估计在健身应用程序领域之外拥有各种潜在的未来用途,并跟踪人类的活动,从游戏到动画到增强现实再到机器人技术。那并不代表所有可能性,而是强调了人体姿势估计将对我们的数字景观做出贡献的最可能领域。

Maksym渴望在数据科学和机器学习中获得新的见识和经验。他对基于深度学习的技术及其在业务用例中的应用特别感兴趣。