超越图块匹配:桥接未对齐的航空与卫星视图以实现纯视觉无人机导航

张开发
2026/6/8 23:24:02 15 分钟阅读
超越图块匹配:桥接未对齐的航空与卫星视图以实现纯视觉无人机导航
大家读完觉得有帮助记得关注和点赞摘要跨视角地理定位 方法的最新进展显示了其在支持全球导航卫星系统 拒止环境下无人机导航方面的巨大潜力。然而现有工作主要集中于将无人机视图与机载卫星图块进行匹配这在精度和存储开销之间引入了固有的权衡并且忽略了无人机在导航过程中航向的重要性。此外跨视角场景中显著的差异和变化的重叠程度未得到充分考虑限制了它们对现实世界场景的泛化能力。在本文中我们提出了 Bearing-UAV一种纯视觉驱动的跨视角导航方法它从邻近特征中联合预测无人机的绝对位置和航向实现野外环境中的精确、轻量且鲁棒的导航。我们的方法利用全局和局部结构特征并显式编码相对空间关系使其对跨视角变化、未对齐和特征稀疏条件具有鲁棒性。我们还提出了 Bearing-UAV-90K一个用于评估跨视角定位和导航的多城市基准。大量实验显示了令人鼓舞的结果Bearing-UAV 在不同地形上相比先前的匹配/检索范式产生了更低的定位误差。我们的代码公开在 GitHub链接。1 引言近年来无人机在低空经济、应急响应和工业应用等关键领域得到了广泛部署。然而当前严重依赖无线信号和手动操作的无人机定位和导航系统仍然容易受到干扰并且在确保安全性和自主性方面面临持续挑战。跨视角地理定位​ 是一套纯视觉的无人机导航方法旨在通过将无人机捕获的视图与由深度模型编码的地理参考卫星图块进行匹配来应对这些挑战。当前遵循匹配到图块 范式的方法主要分为两大类。一类方法通过将无人机视图与机载卫星图块进行匹配来预测无人机位置。这些方法需要重复编码图块导致显著的计算开销并且携带完整的卫星图像使得存储需求呈二次方增长。另一类方法使用深度模型将卫星图块预编码为轻量化和离散化的特征向量。虽然通过相似性搜索来检索当前位置极大地提高了存储和计算效率但定位精度受到网格密度的限制。然而支持无人机导航不仅需要精确定位还需要可靠的航向信息而当前方法在很大程度上忽略了这一点限制了它们驱动端到端导航的能力。最近AngleRobust 直接从一系列无人机视图中预测方位角但其适用性仅限于单个、密集采样的走廊。更重要的是现有的导航模型通常在忽略无人机视图和卫星图块之间固有差异和未对齐的数据集上进行训练这使得它们难以很好地泛化到现实世界场景。因此超越图块匹配为纯视觉无人机导航桥接未对齐的航空-卫星视图仍然是一个悬而未决的问题。为此我们提出了一种新颖的跨视角位置和航向回归网络用于学习视觉方位称为 Bearing-UAV以及一个数据集 Bearing-UAV-90K包含 9 万对跨视角图像用于训练和评估。所提出的 Bearing-UAV 联合估计超越 M2T 分辨率的精确坐标和跨视角条件下的航向角同时对未对齐、天气和 M2T 密度的变化保持鲁棒从而支持野外环境下的无人机自主导航。如图 1 所示Bearing-UAV 以四个相邻遥感图块 的特征即卫星视图图块和一个无人机视图块 作为输入直接回归绝对位置和航向角。与将定位精度与图块密度绑定的 M2T 范式不同Bearing-UAV 利用周围信息来回归超越 M2T 分辨率的无人机位置。此外为了弥合航空-卫星视图的差距我们利用相邻图块的相对位置线索来提供定位指导并采用交叉注意力来关注重叠区域从而在未对齐和特征稀疏条件下提高位置和航向回归的精度。在我们提出的 Bearing-UAV-90K 上进行的大量实验表明(1) Bearing-UAV 的定位精度远超现有的匹配/检索范式(2) 得益于航向分支Bearing-UAV 能够在跨航空-卫星视图条件下以高成功率实现端到端导航(3) Bearing-UAV 对各种天气影响保持鲁棒。我们的主要贡献总结如下我们提出了一种超越 M2T 的新型地理定位范式实现了更高的定位精度。我们引入了一个轻量级、多任务模型能够实现高效的定位和航向预测从而支持可靠的远距离导航。为了解决无人机-卫星跨视角设置中由视点引起的视差、未对齐和特征稀疏性问题我们构建了 Bearing-UAV-90K 数据集以确保我们的范式能够应用于更真实的场景。2 相关工作作为基于遥感的视觉导航的核心组成部分CVGL 旨在解决无人机的低空倾斜图像与高空正射校正卫星参考图像之间的地理定位问题。一个关键挑战是由于不同视点在同一地理位置引起的显著视点视差。2.1 跨视角地理定位通过实现地面视图和卫星视图 图像之间的跨视角匹配CVGL 已成为 GNSS 拒止环境中定位的重要替代方案。受 G-S 跨视角定位进展的启发研究人员正在将 CVGL 引入无人机视觉定位。University-1652 构建并公开发布了第一个用于无人机和卫星 的跨视角数据集并通过特征检索成功地从无人机视角定位了建筑物进而推动了更多无人机 CVGL 数据集和相关算法的发展。此外一些工作采用离散但空间连续的卫星图块来更好地近似真实场景。然而这种转变加剧了空间未对齐和特征稀疏性最终降低了检索/匹配精度。为了解决这些问题一些方法通过特征分割、多尺度特征或局部特征聚合来提高特征判别力。另一些则引入了注意力机制或新的模型和方案。在更广泛的层面上CurBench 和 CurML 为课程学习提供了第一个基准和库。在未对齐和低特征密度特别是不同交并比 条件下的鲁棒跨视角定位仍然是一个悬而未决的问题。为此我们构建了一个通过跳跃连接融合跨视角特征并直接回归无人机位置的端到端网络。2.2 纯视觉的朝向感知大多数现有的 CVGL 方法仅关注城市场景中的定位未能抑制无人机旋转漂移。除了跨视角外观差距和未对齐之外航向估计还受到视觉几何模糊性、旋转对称性以及缺乏绝对方向参考的进一步限制。因此许多工作致力于纯视觉的航向感知。其中Wang 等人首先通过检索地理位置然后估计方向实现了地面视图图像的 G-S 跨视角定位和朝向。然而纯视觉的无人机朝向仍未被充分探索。尽管 [31, 1] 报告了高精度但它们的数据集是理想化的并且依赖于视觉里程计来获取机载相机姿态。现有的纯视觉方法主要是两阶段的先定位再确定朝向。例如方法通过互信息、运动矩阵旋转或特征-几何线索来估计航向多旋转匹配也很常见。这些方法需要定位结果作为全局姿态锚点从而将定位误差传播到朝向估计。[39] 使用单阶段纯视觉姿态估计但在跨视角场景中航向误差很大。为了应对这一挑战我们通过并行回归头增强了我们的模型该回归头使用四个相邻的卫星图块来同时估计无人机的位置和航向。此外基于 PnP 的方法通过几何求解器估计 6 自由度姿态而传感器融合方法则使用机载传感器。我们专注于纯视觉的 U-S 跨视角定位而非 G-S 设置。3 方法我们在本节中介绍 Bearing-UAV​ 及其导航方案 Bearing-Naver。缩写列表见补充材料 A.1 节。3.1 跨视角位置-航向回归如图 2 所示Bearing-UAV 的总体流程包括一个特征提取模块用于提取全面的跨域特征和位置线索、一个融合模块用于捕获跨域对应关系以及两个用于预测位置和航向的回归头。我们将四个相邻的 RST 分组为一个遥感块。利用每个 UVP 的四个 RST 并通过交叉注意力和相似性对它们的交互进行建模提高了对未对齐和稀疏特征条件的鲁棒性。3.1.1 特征提取模块基于前述关于跨视角定位的讨论我们的目标是在跨视角未对齐和不同 IoU 条件下的鲁棒性。如图 3 所示我们提出了一个全局-局部统一特征​ 子模块它联合编码全局上下文相似性和聚类后的局部片段即使跨域图像仅部分重叠时也能实现对应。此外相对坐标编码器​ 将四个 RST 的相对坐标编码为嵌入对应于各自的 GLUF 向量。全局-局部统一特征​ 为了联合利用全局和局部线索进行精确的无人机定位我们首先使用骨干网络例如 VGG-16提取特征图然后应用一个非局部块来捕获长程依赖并增强局部响应。遵循 SGMNet一个聚类方案生成多个半全局描述符这些描述符被聚合成一个称为 GLUF 向量的统一表示。GLUF 增强的特征为图块间匹配提供了全局相似性线索同时为交叉注意力保留了有序的、位置感知的局部特征片段。这样的块聚类模块例如 SGMNet可以被其他合适的特征提取器替换仅带来轻微的性能下降。相对坐标编码器​ Bearing-UAV 从四个相邻的 RST 回归 UVP 的位置和航向。RCE 是一个深度为 L 的轻量级多层感知机每层的维度为 [d_1, …, d_L]其中 d_0 2 且 d_L K D。令 {c_j}_{j1}^4, c_j ∈ ℝ^2表示四个 RST 相对于 RSB 中心的 2D 相对坐标其中 y_j^(0) c_j 且 σ(·) ReLU(·)。RCE 的第 ℓ 层计算y_j^(ℓ) : σ( W_ℓ^RCE y_j^(ℓ-1) b_ℓ^RCE )其中 Wℓ^RCE ∈ ℝ^{Dℓ × D{ℓ-1}}, bℓ^RCE ∈ ℝ^{D_ℓ}。坐标嵌入是最终层的输出 e_j y_j^(L)。3.1.2 跨视角特征融合模块特征融合模块首先使用 ViT 风格的位置嵌入为融合注入图块位置线索然后通过交叉注意力​ 子模块提取跨视角特征并使用块相似性引导​ 子模块估计相似性加权的引导坐标。最后将跨相关特征、UVP 描述符和引导坐标拼接起来构建用于预测的融合表示。令 UVP 的 GLUF 向量为 u ∈ ℝ^{K D}四个 RST 的 GLUF 向量 {t_j ∈ ℝ^{K D}}{j1}^4 构成一个张量 B ∈ ℝ^{2×2×K D}对应的四个相对坐标嵌入 {e_j}{j1}^4 构成一个张量 E ∈ ℝ^{2×2×K D}。由于 GLUF 向量已经归一化我们简单定义 B~ : B E 为注入位置信息的 RST 特征这向融合阶段暴露了相对布局并帮助网络在监督下学习位置-角度关系。块相似性引导​ 在我们的回归设置下UVP 大多与四个相邻的 RST 重叠。我们利用 UVP 和 RST 之间的 U-S 跨视角余弦相似度来计算一个加权引导坐标通过强调与 UVP 位置相对应的 RST 区域为位置回归提供一个强有力的先验。将 B~ 重塑为 {b~j ∈ ℝ^{K D}}{j1}^4然后我们计算四个邻居之间的余弦相似度α softmax( [cos(u, b~_j)]_{j1}^4 ) ∈ ℝ^4。然后通过对 RST 的相对坐标 c_j 进行加权求和我们得到相似性引导的坐标q : Σ_{j1}^4 α_j c_j ∈ ℝ^2。交叉注意力​ 由于 UVP 通常以不同程度与四个 RST 重叠我们应用轻量级交叉注意力子模块来提取重叠感知的关联使模型能够在未对齐和稀疏特征条件下学习 UVP 和 RST 之间重要的跨视角对应关系。因此产生的跨视角特征支持位置和航向的联合回归。令 Q W_Q u ∈ ℝ^d, K [W_K b~1, …, W_K b~4] ∈ ℝ^{4×d}, 和 V [W_V b~1, …, W_V b~4] ∈ ℝ^{4×d} 分别作为来自 UVP 的查询和来自四个相邻 RST 的键/值。缩放点积注意力计算跨视角特征f : softmax( (Q K^⊤) / √d ) V ∈ ℝ^{K D}。融合特征 φ 是来自 UVP 描述符 u、交叉注意力特征 f 和相似性引导坐标 q 的拼接向量φ : concat(u, f, q) ∈ ℝ^{K D K D 2}。3.1.3 位置-航向回归模块两个回归头以相同的融合特征 φ 作为输入。每个头是一个具有 ReLU 激活函数的 M 层 MLP其中最后一层将中间特征映射到位置坐标和航向角。对于第 m 层位置特征 p^(m) 和航向特征 h^(m) 计算如下p^(m) σ( W_m^PR p^(m-1) b_m^PR )h^(m) σ( W_m^HR h^(m-1) b_m^HR )其中 p^(0) h^(0) φp^ p^(M) ∈ ℝ^2 表示相对坐标h^ h^(M) (cos θ^, sin θ^) ∈ ℝ^2 表示航向方向向量。需要指出的是航向角被表示为一个向量而非原始角度 θ^以解决周期性模糊性并提供连续、行为良好的回归目标。3.2 Bearing-Naver通过将卫星图像建模为一组重叠的 RSB 并使用提出的 Bearing-UAV 方法我们构建了一个纯视觉驱动的、沿着城市场景中指定航路点的点对点导航方案称为 Bearing-Naver。从某个 RSB 中的已知起始位置初始化该导航方案可以概括为如图 4 所示的顺序搜索下一步。Bearing-Naver 支持将机载 RST 预转换为紧凑的特征表从而实现轻量级且高效的基于查找的无人机飞行。在训练期间RST 由骨干网络编码以生成 GLUF 向量。令 r_i ∈ ℝ^2 为第 i 步的实际位置n_i ∈ ℝ^2 为名义位置无人机“认为”自己所在的位置并使用 n_i 索引 RSB即由 Bearing-UAV 预测的一步超前位置。然后我们使用来自无人机视图卫星图像的 r_i 获取当前 UVP I_i^U同时根据索引 n_i 以机载 RST 特征 B_i {t_i,j}_{j1}^4 的形式同时检索对应的 RSB。然后我们通过下式执行跨视角回归(p^_i, h^_i) : F_{Bearing-UAV}(I_i^U, B_i, C)。给定当前航路点我们计算无人机到下一个航路点的方位角 a_i 用于下一步调整无人机的航向以与方位角 a_i 对齐并相应地更新 (r{i1}, n{i1}) 并进入下一次迭代。精确的航向对准对于纯视觉导航至关重要因为在长距离飞行中经常发生水平旋转漂移如果没有可靠的航向估计无人机航向难以与参考方位角对齐导致导航漂移。4 实验4.1 数据集为了在未对齐的 U-S 跨视角设置下评估纯视觉无人机定位和导航我们构建了一个新的数据集 Bearing-UAV-90K如表 1 所示。我们在两种模式下从 Google Earth 收集样本。在 Google Earth 2D 模式下我们首先从四个城市下载四个连续的卫星图像并将它们裁剪成 RST。每张图像4096 × 4096 像素0.25 米/像素被划分为 16 × 16 个 RST。任何相邻的 2 × 2 RST 块构成一个 RSB产生 15 × 15 个索引的 RSB。在 Google Earth 3D 模式下我们直接在相同区域上采样 UVP。对于每个 RSB我们通过视点漫游采样 100 个随机的相机位置和偏航角产生 9 万个 UVP。每个 UVP 都与一个包含地理信息的 JSON 文件配对。我们还收集了 9 万个卫星视图块作为理想参考。有关卫星图像、数据集构建和数据许可的更多细节请参见补充材料 A.3.1 节及其中的图 7。据我们所知目前没有公开的、具有连续卫星图块和丰富未对齐无人机视图、专门为纯视觉无人机定位和导航设计的 U-S 跨视角、多城市数据集如表 1 所示。相比之下Bearing-UAV-90K 为基于检索/匹配的定位提供了 U-S 跨视角离散样本为朝向评估提供了航向标注以及一个导航基准。基于多城市地图我们设计了八条带有多个航路点的弯曲导航路线并利用连续的跨城市高空图像以及 Google Earth 3D 模式为评估纯视觉无人机导航提供了一个真实的平台。数据集Uni-1652SUESDenseGTA-UAV我们的 (Ours)#UAV 图像37,85424,21018,19833,76390k × 2#卫星图像1,6522009,0969,0961,024场景建筑物校园校园城市多城市地理标记精细粗略精细合成精细连续*✗✗✓✓✓未对齐✗✗✗✓✓航向✗✗✗✗✓表1Bearing-UAV-90K 与其他地理定位数据集的比较。现有数据集很少考虑未对齐场景。我们的数据集关注 UVP 和 RST 之间的任意旋转具有不同的 IoU 和具有挑战性的未对齐并提供航向感知的标注为无人机定位和导航形成了一个更全面的测试平台。SUES SUES-200, Dense DenseUAV, 连续*: RST 构成连续地图。4.2 实现细节网络配置​ 除非另有说明我们采用在 ImageNet 上预训练的 VGG-16 作为所有实验的视觉骨干。我们将 GLUF 中的聚类数设置为 K 4基础特征维度设置为 D 256。对于 RCE我们采用层配置 [d_1, …, d_L] [2, 64, 256, K D]双回归器分支使用维度为 [2050, 1024, 256, 64, 2] 的 MLP。我们将 {(-1, 1), (-1, -1), (1, 1), (1, -1)} 设置为每个 RSB 中四个 RST 的相对坐标这样给定 RSB 索引绝对地理定位可以确定性地恢复而网络只回归一个有界的、无量纲的目标。这种参数化稳定了优化并避免了直接回归高精度纬度/经度值的困难。训练设置​ 数据集按 7:2:1 的比例划分为训练集、验证集和测试集。我们使用 Adam 优化器学习率5×10^{-5}批次大小 16训练 100 轮使用平滑 L1 损失ℒsum 0.8 ℒp 0.2 ℒ_h无权重衰减。ReduceLROnPlateau 调度器在验证损失平台期时将学习率减半并根据验证损失选择最佳模型。训练和评估在 NVIDIA H100 GPU 上进行而 Bearing-Naver 在配备 RTX 4000 GPU 的笔记本电脑上运行。4.3 实验结果4.3.1 评估协议和设置对于定位/航向估计我们报告 RecallK、LSR/HSR 和 MLE/MHE。对于导航我们报告 SR、SPL 和 NE。我们还报告模型大小、推理时间和 GFLOPs。有关指标定义请参见补充材料 A.1 节。实验包括与现有 CVGL 方法的比较、骨干网络替换、数据集规模和城市多样性分析、天气增强评估以及具有多个航路点的长距离导航。我们还进行了并行的卫星视图定位和导航实验作为理想情况下的参考基准。4.3.2 定位和航向性能我们将地理定位结果总结在表 2 的前五列中。四种代表性 CVGL 基线的定位性能从 University-1652 到 GTA-UAV 有所提高但我们的方法始终取得最佳结果。所有基线都缺乏航向估计能力并且表现出大约 30 米的定位误差远大于我们 8.6 米的回归误差。这主要是因为它们将检索到或匹配到的图块中心视为最终位置这在跨视角未对齐和不同 IoU 的情况下表现不佳。我们的方法将 SR1 提高了约 10%LSR15 提高了约 60%表明在识别最接近 UVP 的 RST 和精确定位 UVP 方面有更强的能力这反映了回归范式的好处。值得注意的是天气增强训练提高了性能将 MLE 降低了 1.1 米MHE 降低了 3.3 度详见第 4.3.5 节。我们还在补充材料 A.2 节中广泛评估了额外的骨干网络ResNet、ViT、MobileNet并在补充材料 A.5 节中分析了三个粒度级别上的定位/航向误差分布及其因果因素。方法Recall1 ↑LSR15 ↑HSR15 ↑MLE ↓MHE ↓SR20 ↑SPL ↑NE ↓卫星无人机卫星无人机卫星无人机卫星无人机University-165263.2960.2016.3115.11––31.7833.15SUES-20071.9666.6016.7815.76––29.0930.83DenseUAV80.0473.4317.2316.54––26.8228.79GTA-UAV76.9970.7131.3327.96––25.2428.43我们的 VGG-1690.7683.1798.3389.3698.1277.215.668.61我们的 VGG-16 天气增强91.0786.5298.6392.8898.2186.025.407.48表2卫星视图和无人机视图U-S 跨视角中的地理定位和导航性能。WA: 天气增强。4.3.3 数据集规模对 Bearing-UAV 的影响Bearing-UAV-90K 为每个 RSB 提供 100 个样本产生 9 万个无人机视图块。为了研究数据集大小对我们模型的影响我们改变采样率并为卫星和无人机视图构建了十个规模递增的数据集。如图 5 所示随着训练数据的增加定位和航向性能持续提高。当数据集规模达到 5.4 万完整数据集的 60%时增益开始饱和在无人机视图设置下MLE 降至 10 米以下MHE 降至 17 度以下而在卫星视图设置下模型实现了低于 7 米的 MLE 和低于 7 度的 MHE。相应地LSR 和 HSR 也显示出逐渐收敛的趋势。例如在 15 米/度的成功半径下一旦数据集规模超过 60%它们分别超过 80% 和 65%其中卫星视图曲线表现出更高且更平滑的趋势。4.3.4 城市组合对 Bearing-UAV 的影响与简单地扩大数据集规模不同本实验关注模型对不同城市地形和布局的适应能力。有关卫星图像细节请参见补充材料图 7。我们在由这些城市的不同组合构建的数据集上训练我们的模型。结果总结在表 3 和补充材料图 9 中。从上到下四组分别对应包含 1、2、3 和 4 个城市的数据集多样性递增。在单城市组中卫星视图设置在不同城市之间相对稳定因为不存在空间视觉差异只有未对齐。相比之下无人机视图设置的朝向性能差异显著。城市 C 显示出最大的误差其次是 D而 B 表现最好。这主要是因为城市 C 的高层建筑引发了强烈的跨视角外观变化而河流区域提供的纹理有限。城市 D 结合了山区和许多结构相似的小型建筑导致视觉独特性有限从而产生较大的定位和航向误差。城市 B 提供了丰富、独特的建筑模式而城市 A 虽然以植被为主但仍比城市 D 包含更多样化的纹理因此结果略好。这些趋势在两城市组合中是一致的BC 对的表现优于 AD 对支持了上述观察。对于三城市组合混合异构城市减少了方差不同三元组之间的性能差距变小类似于在城市 A 和城市 C 之间观察到的结果。更多细节在补充材料 A.3.2 节中讨论。最值得注意的是随着城市数量从 1 个增加到 4 个尽管城市间差异更大、场景复杂性增加但整体性能并未下降平均指标甚至显示出轻微的改善。这表明我们的模型能够很好地泛化到多样化的多城市环境并从更丰富的地理多样性中受益。城市Recall1 ↑LSR15 ↑MLE ↓MHE ↓卫星无人机卫星无人机A89.4379.9297.2080.36B88.7683.3996.3688.14C90.4085.4398.2288.01D88.1878.9096.1882.72AD89.5880.5497.9683.14BC90.2285.2398.4791.02ABD89.9381.5797.9786.44BCD90.2484.4498.3690.62ABCD90.7683.1798.3389.36表3多城市多样性对模型泛化性能的影响。我们为训练设计了四种不同的城市组合。4.3.5 天气增强测试为了评估天气影响我们用光照、雾、雨和雪各 20%增强了 Bearing-UAV-90K如补充材料图 10 所示以训练一个天气增强模型我们在六种天气条件下评估该模型并与非增强基线进行比较如表 4 和补充材料图 11 所示。在所有四个指标中特别是在 U-S 跨视角下增强模型在各种天气条件下的定位和航向估计方面始终优于非增强基线。这表明通过天气增强扩展训练分布可以提高泛化能力。更重要的是它表明模型学习了一个共享的、对天气鲁棒的表征受益于多样化的天气暴露而不是过度拟合单一的外观模式。还值得注意的是光照增强产生了最显著的性能增益。鉴于无人机和卫星视图之间的大亮度差异这种增强有效地减少了跨视角定位的跨视角光照差距。更多讨论见补充材料 A.4 节。天气LSR15 ↑HSR15 ↑MLE ↓MHE ↓卫星无人机卫星无人机雨95.6389.7593.6579.06雪94.8088.7994.3379.28雾95.6189.0293.8678.72明亮98.0292.2597.5983.71混合96.3490.3395.4481.29正常98.6392.8898.2186.02基线98.3389.3698.1277.21表4天气鲁棒性。第1-6行在六种条件下的增强模型基线正常天气下无增强。4.3.6 Bearing-Naver 导航测试我们为每个城市设计了两条路线每条路线长度在 500 米到 1200 米之间包含超过十个航路点涵盖多样化的场景类型。假设无人机使用 25 米的步长到达航路点的阈值半径为 20 米。测试结果报告在表 2 中。大多数基线方法未能完成完整路线它们的定位误差导致漂移或抖动特别是在特征稀疏或视觉混淆的区域。相比之下我们的方法实现了高精度定位并完成了近一半具有挑战性的、曲折的路线。与“我们的 VGG-16”相比天气增强模型降低的 SR 和 SPL 部分是由于几条高度偏离的轨迹。然而NE 从 275 米降至 248 米表明无人机在更多情况下更接近目标因此具有改进的到达目标的能力。在图 6 中城市 D 的轨迹 #1 长约 720 米包含 13 个航路点。它从特征稀疏的开阔区域的正方形标记开始沿着一条曲折的路径经过几十座外观相似的建筑物和绿地结束在一个典型的白色屋顶上的星形标记。在这条具有挑战性的路线上只有我们的方法在 45 步内成功到达了最终航路点。DenseUAV 完成了大约一半的路径SUES-200 在起点附近的一排屋顶上悬停然后漂移而 University-1652 和 GTA-UAV 在起飞后几乎立即偏离了正确的航向。在导航过程中无人机视图和卫星视图包含许多未对齐的 U-S 场景其 IoU 快速变化再加上跨视角视差和特征稀疏区域因此在这种设置下定位精度较低的方法失败的可能性要大得多。其余七条轨迹和分析见补充材料 A.6 节。我们在表 5 中报告了五种模型的磁盘模型大小、单步推理时间和 GFLOPs。Bearing-UAV 是轻量级的实现了接近实时的性能并且以恒定时间扩展到更大的地图和更长的路径。指标Uni-1652SUESDenseGTA-UAV我们的 (Ours)模型大小 ↓ (MB)1026588632668推理时间 ↓ (ms)10.11907.5593.6246.5133.5GFLOPs ↓16.4_{256}98.7_{384}8.5 25620.1_{384}10.5_{256}表5模型效率。MS: 模型大小IT: 推理时间。GFLOPs 在 256×256 或 384×384 下计算如先前工作所示。4.4 消融研究在本节中我们对模型的关键子模块进行了消融研究GLUF、RCE、PSG 和 CA。总结在表 6 中我们在无人机视图设置下报告了五个指标卫星视图设置下的结果报告在补充材料 A.7 节。移除 GLUF 会导致性能显著下降表明聚类和重组特征图有助于提取更鲁棒的局部和全局结构这对于跨视角未对齐下的定位和航向估计至关重要。RCE 对朝向有明确影响它将 MHE 降低了约 2 度并将 HSR15 提高了约 6.5%表明将位置嵌入注入 RST 有利于航向回归。PSG 和 CA 各自为定位和航向成功率贡献了额外的 1-2 个百分点证明它们进一步增强了特征对齐。GLUFRCEPSGCAR1 ↑LSR ↑HSR ↑MLE ↓MHE ↓✗✓✓✓67.1957.2961.1014.9021.62✓✗✓✓82.6687.7770.808.9314.99✓✓✗✓83.9788.6875.288.6713.44✓✓✓✗83.7089.0676.688.5913.20✓✓✓✓83.1789.3677.218.6112.90表6Bearing-UAV 在无人机视图数据上的消融研究。5 结论与未来工作在本文中我们超越了标准的 CVGL通过联合估计精确的地理定位和可靠的航向用于 GNSS 拒止环境下的无人机导航。我们的目标是仅使用视觉不依赖任何辅助传感器或额外的几何推理在跨视角、未对齐和任意旋转的 U-S 图像对下联合推断位置和航向。为此我们提出了一个单阶段回归网络它捕获全局和局部结构线索并显式编码相对空间关系从而对由视点引起的视差、未对齐、变化的 IoU 和稀疏的视觉特征具有鲁棒性。此外构建了一个基准跨视角、多城市数据集和全面的评估指标。大量实验显示了令人鼓舞的结果该回归框架能够在复杂场景中可靠地执行跨视角定位和航向估计。

更多文章