谷歌开源3D场景理解库

发布时间：2021-03-31 12:41:48 所属栏目：传媒来源：互联网

导读：TF 3D 提供了一系列流行的运算、损失函数、数据处理工具、模型和指标，使得更广泛的研究社区方便地开发、训练和部署 SOTA 3D 场景理解模型。TF 3D 还包含用于 SOTA 3D 语义分割、3D 目标检测和 3D 实例分割的训练和评估 pipeline，并支持分布式训练。该库还

TF 3D 提供了一系列流行的运算、损失函数、数据处理工具、模型和指标，使得更广泛的研究社区方便地开发、训练和部署 SOTA 3D 场景理解模型。TF 3D 还包含用于 SOTA 3D 语义分割、3D 目标检测和 3D 实例分割的训练和评估 pipeline，并支持分布式训练。该库还支持 3D 物体形状预测、点云配准和点云加密等潜在应用。

此外，TF 3D 提供了用于训练和评估标准 3D 场景理解数据集的统一数据集规划和配置，目前支持 Waymo Open、ScanNet 和 Rio 三个数据集。不过，用户可以自由地将 NuScenes 和 Kitti 等其他流行数据集转化为类似格式，并在预先存在或自定义创建的 pipeline 中使用它们。最后，用户可以将 TF 3D 用于多种 3D 深度学习研究和应用，比如快速原型设计以及尝试新思路来部署实时推理系统。

下图（左）为 TF 3D 库中 3D 目标检测模型在 Waymo Open 数据集帧上的输出示例；下图（右）为 TF 3D 库中 3D 实例分割模型在 ScanNet 数据集场景上的输出示例。谷歌详细介绍了 TF 3D 库中提供的高效和可配置稀疏卷积骨干网络，该网络是在各种 3D 场景理解任务上取得 SOTA 结果的关键。

在 TF 3D 库中，谷歌使用子流形稀疏卷积和池化操作，这两者被设计用于更高效地处理 3D 稀疏数据。稀疏卷积模型是大多数户外自动驾驶（如 Waymo 和 NuScenes）和室内基准（如 ScanNet）中使用的 SOTA 方法的核心。

谷歌还使用各种 CUDA 技术来加速计算（如哈希算法、共享内存中分割 / 缓存滤波器以及位操作）。在 Waymo Open 数据集上的实验表明，这种实现的速度约是利用预先存在 TensorFlow 操作的实现的 20 倍。

TF 3D 库中使用 3D 子流形稀疏 U-Net 架构来提取每个体素（voxel）的特征。通过令网络提取稀疏和细微特征并结合它们以做出预测，U-Net 架构已被证实非常有效。在结构上，U-Net 网络包含三个模块：编码器、瓶颈层和解码器，它们均是由大量具有潜在池化或非池化操作的稀疏卷积块组成的。

（编辑：开发网_开封站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!