协同视觉位置识别FedVPR
摘要
引言
方法
Centralized VPR
Federated Visual Place Recognition (FedVPR)
Federated framework.
Local mining.
Hierarchical FL
Decentralizing the MSLS dataset for FL
Proposed FL datasets
Proximity
Clustering
Random
实验
Implementation details
Centralized baselines
FL baselines
Splits comparison
Baselines
Data Quantity Skewness in FedVPR
Heterogeneity of Local Augmentations
Impact of Data Distribution on Local Mining
结论
摘要
视觉位置识别(VPR)的目的是通过将图像作为检索问题来估计图像的位置。VPR使用地理标记图像的数据库,并利用深度神经网络从每个图像中提取一个称为描述符的全局表示。虽然VPR模型的训练数据通常来自不同的、地理上分散的来源(地理标记图像),但通常假设训练过程本身是集中的。本研究通过联邦学习(FL)的视角重新审视了VPR的任务,解决了与此适应相关的几个关键挑战。VPR数据本质上缺乏定义良好的类,并且模型通常使用对比学习进行训练,这需要在集中式数据库上进行数据挖掘步骤。此外,联邦系统中的客户机设备在处理能力方面可能是高度异构的。所提出的FedVPR框架不仅为VPR提供了一种新颖的方法,而且为FL研究引入了一个新的、具有挑战性的、现实的任务,为FL的其他图像检索任务铺平了道路。
引言
识别图片中所描绘的位置的能力对于许多配备相机的移动系统的现代应用来说是至关重要的。例如,在自动驾驶和移动机器人中,这种能力用于在GPS测量不可用或不可靠的情况下进行定位[49,64],或用于促进SLAM (Simultaneous localization and Mapping)管道中的闭环[38]。此外,手机应用程序在场景分类[18]和增强现实支持[60]等任务中严重依赖于此功能。同样,可穿戴设备利用这一功能向用户提供有用的信息。从技术角度来看,这项任务被称为视觉位置识别(VPR)[51],并且自然地被框架为图像检索问题。通过特征空间k近邻(kNN)[55]将定位查询图像与代表已知或已经访问过的地方的图像数据库进行比较。考虑到数据库样本通常用地理标记(如GPS坐标)标记,从数据库检索到的最相似的图像作为查询位置的假设。这种方法需要用单个向量(全局特征描述符)表示每个图像,以便kNN可以有效地计算两个图像之间的相似性,例如,欧几里得距离。 最近对VPR的研究主要集中在深度神经网络的发展上,该网络能够提取全局特征描述符,这些特征描述符既紧凑又高信息量,用于位置识别,同时利用来自高度异构分布的大量数据集。然而,这种集中式方法假设图像在一台计算机或中央服务器上很容易获得,这不适合前面讨论过的VPR应用程序的分布式特性。在全球众多城市部署移动电话、可穿戴设备和自动驾驶汽车的理想情况下,出于成本和隐私相关原因,利用这些不同分布式设备收集的图像而不将其数据传输到中央服务器变得至关重要。此外,利用这些设备的机载计算能力来帮助模型训练将是有益的。 鉴于这些考虑,在这项工作中,我们质疑如何从联邦学习(FL)的角度重新审视VPR模型的训练[52],这是一种分布式范式,其中多个设备(即客户端)与中央服务器交换模型参数更新,以学习共享的全局模型,而无需传输任何本地数据(见图1)。一些显著的挑战使得VPR适应FL并非易事。与围绕分类问题的传统FL文献[16,17,58]不同,VPR缺乏对数据进行明确的分类。相反,收集的图像被标记为连续的空间注释(通常以GPS坐标的形式),模型通常用对比学习技术训练[5],这些技术通常与大型集中式数据库上的计算量大的挖掘结合执行[5,27,37,45]:在联邦环境中,这是不可行的,因为(i)客户端的计算能力低,(ii)集中式数据库会产生隐私问题。通过解决这些挑战,本文介绍了FedVPR,这是联邦学习范式中VPR的第一个表述。 Contribution:
我们在联邦学习框架中引入了VPR任务的第一个方法。该方法的重要性体现在两个方面:对于VPR领域来说,它开辟了一个新的研究方向,具有重要的现实意义;它为FL领域提供了一个新的下游任务,可以拓宽研究界的视野。
我们建议将全球Mapillary Street-Level-Sequences (MSLS)数据集[68]拆分为联邦客户端,旨在复制具有不同程度统计异质性的现实场景。
我们通过关键的设计决策(如客户端分裂、本地迭代调度和数据增强)处理客户端的数据异构性,在考虑功率和计算需求的同时实现集中式性能。
方法
Centralized VPR
VPR的任务通常被视为图像检索问题。给定一个查询图像,目标是在地理标记数据库中找到最相似的匹配,以推断查询的位置。在训练VPR模型时,我们的目标是学习一个由θ∈Rp参数化的函数Fθ:X→D,该函数将每个图像样本x∈X投影到一个维度为D的公共嵌入空间D中。
直观地说,Fθ应该提供一个嵌入空间,其中同一地点的不同表示(例如,用不同视角或照明看到的同一建筑)应该彼此靠近,同时远离其他地点的表示。
VPR模型通常使用对比损失进行训练[5,11,27,69],这依赖于向模型中输入来自同一地点的样本(阳性)和来自不同但可能相似的位置的样本(阴性)。最常见的方法是使用三重丢失[5],它接受一个查询(锚点)、一个正图像和一个负图像,旨在使查询和正样本在特征空间中更接近,同时推开负样本。然而,当使用这种损失公式时,如果所选负嵌入已经远离查询的嵌入,损失将接近于零,从而导致无信息梯度。为了避免这个问题,必须选择硬否定(即特征空间中接近查询的否定,或视觉上相似的否定),使模型能够达到更高的性能[11]。
硬否定选择过程以挖掘的名字命名,是在整个训练阶段执行的一项耗时的技术,用于为每个给定查询选择不断增加的难否定。形式上,对于给定的训练queryq∈X,我们想要得到一个训练三元组(q, pq, nq),其中pq为其正像,nq为负像。使用GPS标签检索潜在阳性集P:= {pq i},通常定义为距离查询[5,37,72]在阈值τ = 25米内的图像。相反,负值集N:= {nq i}包含地理上远离查询的所有图像,并按照对称相反的方法获得。由于GPS标签本身不足以确定图像是否实际上描绘了相同的视觉内容(例如,近距离图像可能指向相反的方向),因此使用Fθ的当前估计来计算欧几里得距离Dθ (q, pq i)。因此,根据标准选择具有最大概率为真阳性