隐私数据去中心化的防止被泄露问题

           随着移动设备的普及,获取全球定位系统(GPS)信息变得非常容易。工业界利用这些定位数据推动基于定位的社交网络(LBSNS)的发展。一些经典Foursquare、Gowalla等LBSNs网站鼓励用户分享位置的相关信息,从而收集丰富的用户签到数据,并利用这些数据为用户提供兴趣点推荐服务。兴趣点推荐旨在为用户找到未被访问和感兴趣的地方。它以其在服务领域的巨大商机吸引了许多研究人员的注意,特别是在基于位置的服务领域。目前,已经创建了大量模型来学习用户在选择兴趣点时的偏好。矩阵分解模型是最经典的推荐模型。它根据用户-兴趣点交互矩阵学习用户和兴趣点的潜在因素向量,并利用向量的相似性推测用户和兴趣点的相关性。许多研究人员通过结合一些辅助信息来改进矩阵分解推荐模型,如社会关系空间信息、时间信息、属性信息等。这些模型的成功证明了矩阵分解在推荐性能上的优势。

outputo-20211129-092808-173-dvuq.png

然而,这些基于矩阵分解的算法在集中训练过程中有两个主要缺点:(1)计算成本高。所有用户的信息都被收集到特定的集中服务器中,因此服务器需要同时处理大量的登录数据,这意味着服务器的计算能力必须满足高要求。(2)隐私风险大。不是每个人都想让别人知道他做了什么。例如,一个自卑的肥胖者不告诉别人他经常去健身房的消息。因此,将用户的私人数据提交给集中服务器,向服务器披露他们的偏好,或依靠服务器保护他们的数据不被泄露,这可能不符合用户的意愿。

对于上述集中服务器的计算压力问题,最有效的方法是保持用户数据的分散,实现分布式推荐系统。该模型可以利用分布式设备分担集中服务器的计算任务,从而解决传统矩阵分解的集中计算问题。然而,分布式计算也将隐私风险转移到各种分布式服务器上。如果分布式服务器忽视了信息保护,用户的隐私仍然可能被泄露。在上述分布式模型中,考虑到用户数据的保护,该模型始终将每个用户数据保持在自己的终端上,每个终端相当于一个分布式服务器。在培训推荐模型时,每个终端通过交互梯度完成矩阵分解。虽然传输梯度似乎保护了用户的原始数据,但这些梯度计算公式包含了大量的隐私信息,模型不能保证其他人不能根据梯度推出这些信息。此外,梯度本身反映了用户的一些信息,如潜在因素的变化范围,可能被他人使用。这个问题类似于发送一组特定数字的平均值。虽然它确保了其他人不知道这些数字,但它仍然泄露了这些数字的分布特征,并可能被他人使用。

分享: