2025-05-29

神经网络梯度攻击

一类利用神经网络训练/推理过程中产生的*梯度信息*进行恶意操作的攻击技术。

核心：利用反向传播计算的梯度（损失函数对参数或输入的导数）推断模型信息、操纵模型或破坏数据隐私。

主要攻击场景

训练阶段攻击

目标模型提取 : 在联邦学习等场景中，通过上传的梯度信息反推原始模型参数/结构（窃取私有模型）

训练数据重构 : 利用特定数据点的梯度反向推算原始训练样本（威胁医疗/金融等敏感数据隐私）

推理阶段攻击

对抗样本生成（最常见） : - 原理: 计算输入数据 $x$ 对预测损失的梯度 $\nabla_{x} L$ ，指示如何扰动数据使模型预测错误 - 方法: 沿梯度方向添加微小扰动： $x_{adv} = x + ϵ \cdot sign (\nabla_{x} L)$ - 目的: 欺骗模型（如将停止标志识别为限速标志）

模型反转 : 利用 $\nabla_{x} L$ 从特定输出反向重构输入数据，可能泄露模型特征或敏感信息

关键特性

依赖内部信息 :: 需访问梯度（通常为*白盒攻击*），黑盒/灰盒场景可通过查询近似获取
隐秘性 :: 扰动微小（肉眼难辨）但可导致模型严重误判
高威胁性 :: 危及模型安全性、鲁棒性及训练数据隐私（影响人脸识别/自动驾驶等关键领域）

防御措施

梯度层
- 梯度裁剪/正则化: 限制梯度大小防止信息泄露
- 随机梯度下降变体: 引入随机性增加数据重构难度
- 噪声添加: 在联邦学习中发布带噪声的梯度
输入预处理
- 输入变换: 缩放/裁剪/添加噪声降低攻击有效性
- 对抗训练: 主动生成对抗样本并入训练集迭代训练，提升模型鲁棒性

核心挑战与意义

揭示神经网络在安全与隐私保护中的脆弱性，是构建可靠 AI 系统的关键研究领域。

知識補完計画

探索