Quefei Temple量子报告的小肖FA 公共帐户QBITAI
您是否看到过3D对象数据集,您是否看到了动员的3D对象数据集?
每个动态视频都是由目标拍摄的,不仅包含整体边界框架,而且每个视频还带有相机位置和稀疏的云。
这是Google的开源3D对象数据集Objectron,其中包括15,000个简短的视频样本,以及来自五大洲和十个国家的400万条评论。
Google认为,3D目标理解的领域缺少2D中的Imagnet之类的大数据集,并且Objectron数据集可以在一定程度上解决此问题。
启动数据集后,1.6K网络人喜欢它。
一些网民嘲笑了Google想“ Google”时刚刚寄出了它。
该团队的一些成员还说,他们很高兴看到这样的数据集和模型,这使进步的可能性达到了AR。
此外,Google还宣布了鞋子,椅子,杯子和使用Objectron数据集的鞋子,椅子,杯子和相机的3D目标检测模型。
让我们看一下该数据集所包含的内容,Google提供了3D目标检测解决方案〜(在文章末尾查看项目地址)
9种类型,对AR非常友好
目前,此数据集包含3D对象样品,包括自行车,书籍,瓶子,相机,燕麦片,椅子,椅子,杯子,笔记本电脑和鞋子。
当然,此数据集不仅是对象拍摄的一些视频和图像,还具有以下特征:
注意AR数据的标签(3D目标立体边界框)数据(相机位置,稀疏点云,两个维表面)数据预处理(图像格式为tf。数据加载和可视化Tensorflow,Pytorch和Jax的可视化。它包含“ Hello World”示例支持Apache Beam,用于处理Google Cloud Infrastructure上数据集中可用的所有索引。包括培训/测试零件,易于下载
图像部分的样式基本上是这种情况,也标有非常详细的标记:
在视频中,不仅从所有角度(从左至右,从下到顶部)获取的剪辑:
还有不同数量的视频类型(一个目标,或两个以上的目标):
Google希望通过此数据集,研究行业可以进一步突破3D目标理解的领域,以及在无监督学习方向上的研究应用程序。
如何使用? Google“与身体一起示范”
我不知道在数据集的第一刻是否易于使用,而且我总是觉得无法启动?
不用担心,Google已为我们尝试了此数据集的培训效果。
看起来还不错:
此外,Google还提供了培训3D目标检测模型。 (请参阅文本的结尾)
该算法主要包括两个部分。第一部分是TensorFlow的2D目标检测模型,用于“发现对象的位置”;
第二部分被剪裁以估计3D对象的边界框架(同时,计算下一个帧的2D切割,因此您无需运行每个帧)。总体结构如下:
在模型评估方面,Google使用Sutherland-Hodgman多边形切割算法来计算两个三维边界框架的相交,并计算两个立方体的交点,最后计算3D目标检测模型的IOU。
简而言之,两个立方重量的重叠越大,3D目标检测模型越好。
该模型是Google启动的MediaPipe的一部分,后者是开源交叉平台框架,用于构建PIPLINE来处理不同形式的感知数据。
它启动了MediaPipe Oojectron Real -Time 3D目标检测模型,可以使用移动设备(手机)实时检测。
看,(他们在玩得多么开朗)真实目标检测的效果还不错:
其他零件3D数据集
除了Google启动的数据集外,Visual 3D目标领域中还有许多类型的不同类型的数据集,并且每个数据集都有其自身的特征。
例如,斯坦福大学提出的ScannETV2是室内场景数据集,Scannet是RGB-D视频数据集。有21个目标类别。共有1,513个集合方案可用于语义分割和目标检测任务。
自动驾驶领域中非常流行的Kitti数据集也是3D数据集。目前,它是当前最大的自动驾驶场景中最大的计算机视觉算法评估数据集,包括城市,农村和公路以及其他方案收集的真实图像数据。本质
此外,还有数据集,例如Waymo,Semantickitti,H3D和其他数据集,它们也用于不同的情况。 (例如,Semantickitti通常由专门用于自动驾驶的3D语义分开)
无论是视频还是图像,这些数据集的单个示例基本上都包含多个目标,并且使用方案也与Google的Objectron不同。
报告/反馈