LoRA (Low-Rank Adaptation) 学习笔记

5976 字

30 分钟

LoRA (Low-Rank Adaptation) 学习笔记

2025-08-14

大模型

深度学习

/

大模型

/

参数微调

LoRA (Low-Rank Adaptation) 学习笔记#

LoRA是目前最流行的大模型微调技术之一。相比传统的全参数微调，LoRA只需要训练很少的参数就能达到相近的效果，大大降低了计算成本和存储需求。

这篇笔记涵盖了LoRA的数学原理、实现细节和实际应用。

内容概览#

第一部分：基础概念#

传统微调的问题和挑战
LoRA的核心思想
低秩矩阵分解的数学基础

第二部分：技术原理#

LoRA的数学表示
前向传播和反向传播
参数初始化策略

第三部分：实现与优化#

代码实现要点
理论分析方法
常见问题和解决方案

第四部分：变种技术#

AdaLoRA、QLoRA等改进方法
不同变种的特点和适用场景

第五部分：理论深入#

泛化理论分析
优化理论研究
数学基础扩展

第六部分：理论总结与思考#

LoRA的理论优势
关键参数的理论理解
学习心得

第一部分：基础概念#

1.1 为什么需要LoRA？#

传统微调的痛点#

全参数微调虽然效果好，但有几个让人头疼的问题：

首先是内存吃不消。像GPT-3这种1750亿参数的模型，微调时不仅要存模型本身，还要存梯度和优化器状态，内存需求直接翻倍。普通人根本玩不起。

其次是存储成本高。每个任务都要保存一个完整模型，10个任务就是10个完整模型。想象一下你的硬盘…

最后是训练效率低。更新所有参数既慢又容易过拟合，特别是数据不多的时候。

LoRA的核心洞察#

LoRA的作者发现了一个有趣的现象：在微调过程中，权重的更新其实是”低维”的。

什么意思呢？想象一个巨大的权重矩阵，虽然它有几百万个参数，但在微调时真正”有用”的更新可能只需要很少的维度就能表示。

基于这个发现，LoRA提出了一个巧妙的思路：既然更新是低维的，那我们就用两个小矩阵的乘积来表示这个更新，而不是直接更新整个大矩阵。

低秩假设的理论基础：

这个假设并非凭空而来，而是有深刻的理论支撑：

神经网络的内在维度：研究表明，神经网络的有效参数空间维度远小于参数总数
任务相关性：微调主要学习任务特定的知识，这些知识往往具有结构化特征
预训练的作用：预训练已经学到了通用表示，微调只需要少量调整

1.2 低秩矩阵分解基础#

数学基础回顾#

在理解LoRA之前，我们需要先复习一下低秩矩阵分解的概念。

什么是矩阵的秩？

矩阵的秩是其线性无关行（或列）的最大数量
对于 $m \times n$ 矩阵，秩最大为 $\min(m,n)$
当秩远小于矩阵维度时，称为低秩矩阵

为什么低秩矩阵重要？

低秩矩阵可以用更少的参数表示
具有良好的压缩性质
在机器学习中常常出现

奇异值分解（SVD）#

SVD是理解低秩分解的关键工具：

对于任意矩阵 $W \in \mathbb{R}^{m \times n}$ ：

W = U\Sigma V^T

其中：

$U \in \mathbb{R}^{m \times m}$ 是正交矩阵
$V \in \mathbb{R}^{n \times n}$ 是正交矩阵
$\Sigma \in \mathbb{R}^{m \times n}$ 是对角矩阵，对角元素为奇异值

低秩近似的关键思想： 如果矩阵的前几个奇异值很大，后面的很小，我们可以只保留前 $r$ 个：

W \approx W_r = U_r\Sigma_r V_r^T

这样参数数量从 $mn$ 减少到 $r(m+n)$ 。

低秩分解的理论保证：

Eckart-Young定理告诉我们，截断SVD给出了最优的低秩近似：

W_r = \arg\min_{\text{rank}(X) \leq r} \|W - X\|_F

近似误差的界：

低秩近似的Frobenius范数误差为：

\|W - W_r\|_F = \sqrt{\sum_{i=r+1}^{\min(m,n)} \sigma_i^2}

这个误差完全由被丢弃的奇异值决定。

谱范数误差：

谱范数（最大奇异值）误差为：

\|W - W_r\|_2 = \sigma_{r+1}

这表明如果第 $(r+1)$ 个奇异值很小，低秩近似就很准确。

参数压缩效果#

来看一个具体例子：

原始矩阵： $4096 \times 4096 = 16,777,216$ 个参数
低秩分解（ $r=64$ ）： $64 \times (4096 + 4096) = 524,288$ 个参数
压缩比： $524,288 / 16,777,216 \approx 3.1\%$

这意味着我们只用了原来3%的参数就可以近似表示原矩阵！

1.3 LoRA的核心思想#

从理论到实践#

现在我们明白了低秩分解的威力，那么LoRA是如何将这个思想应用到神经网络微调中的呢？

核心假设： 在微调过程中，权重的更新 $\Delta W$ 具有低内在维度，即可以用低秩矩阵来近似。

LoRA的数学表示：

原始的线性层：

h = Wx

LoRA修改后的线性层：

h = Wx + \Delta Wx = Wx + BAx = (W + BA)x

其中：

$W$ 是预训练的权重矩阵（冻结）
$\Delta W = BA$ 是权重更新
$B \in \mathbb{R}^{d \times r}$ ， $A \in \mathbb{R}^{r \times k}$
$r \ll \min(d,k)$ 是低秩维度

实际操作步骤#

LoRA的实际操作流程：

冻结原始权重：保持预训练模型的 $W$ 不变
添加低秩分支：并行添加 $BA$ 路径
只训练新参数：只有 $A$ 和 $B$ 参与梯度更新
合并权重：推理时可以将 $BA$ 合并到 $W$ 中

深入理解#

为什么这样设计有效？

参数效率：只需要训练 $r(d+k)$ 个参数，而不是 $dk$ 个
保持预训练知识：冻结原始权重保留了预训练的知识
任务特化：低秩更新专门学习任务相关的知识
部署友好：可以为不同任务保存不同的 $(A,B)$ 对

一个直观的类比： 我们把LoRA想象成在原有的”知识基础”上添加”专业技能”。预训练模型就像一个有广泛知识的人，而LoRA就像是针对特定任务学习的专业技能，不会影响原有的知识结构。

效果对比#

根据原论文的结果：

参数量：减少到原来的0.1%-1%
性能：在多数任务上与全参数微调相当
内存：大幅减少GPU内存需求
速度：训练速度显著提升

可以看出，LoRA确实是一个非常实用的技术！

第二部分：技术原理#

2.1 LoRA的数学表示详解#

数学表示详解#

现在来看看LoRA具体是怎么实现的。

标准线性变换：

h = W_0 x

LoRA增强的变换：

h = W_0 x + \frac{\alpha}{r} BAx

这里有个新的参数 $\alpha$ ，这是缩放因子。为什么需要它呢？

缩放因子 $\alpha$ 的作用：

控制LoRA的影响程度： $\alpha$ 越大，LoRA的贡献越大
便于调整：可以在不重新训练的情况下调整LoRA的强度
稳定训练：帮助平衡预训练权重和新学习权重的贡献

常用设置：

$\alpha = r$ ：这是最常用的设置
$\alpha = 2r$ ：有时用于增强LoRA的影响
$\alpha = 1$ ：简化版本，直接使用原始LoRA输出

前向传播的计算步骤#

详细分析前向传播的每一步：

步骤1：计算原始输出

h_0 = W_0 x

这一步使用预训练的权重，计算复杂度为 $O(dk)$

步骤2：计算LoRA路径

z_1 = Ax \quad \text{(复杂度: } O(rk)\text{)}

z_2 = Bz_1 \quad \text{(复杂度: } O(dr)\text{)}

h_{lora} = \frac{\alpha}{r} z_2 \quad \text{(复杂度: } O(d)\text{)}

步骤3：合并输出

h = h_0 + h_{lora}

总复杂度分析：

原始： $O(dk)$
LoRA额外开销： $O(r(d+k))$
当 $r \ll \min(d,k)$ 时，额外开销很小

计算示例#

用一个具体例子来验证：

输入维度： $k = 1024$
输出维度： $d = 1024$
LoRA秩： $r = 16$
缩放因子： $\alpha = 16$

参数数量对比：

原始线性层： $1024 \times 1024 = 1,048,576$ 参数
LoRA参数： $16 \times (1024 + 1024) = 32,768$ 参数
压缩比： $32,768 / 1,048,576 \approx 3.1\%$

计算复杂度对比：

原始前向： $1024 \times 1024 = 1,048,576$ 次乘法
LoRA额外： $16 \times (1024 + 1024) = 32,768$ 次乘法
额外开销：约3.1%

这个计算很直观地展示了LoRA的效率优势！

2.2 反向传播的梯度计算#

梯度推导过程#

理解了前向传播，现在我需要搞清楚反向传播是如何工作的。

设定：

损失函数： $\mathcal{L}$
输出梯度： $\frac{\partial \mathcal{L}}{\partial h} = \delta$

对矩阵 $B$ 的梯度：

由于 $h = W_0 x + \frac{\alpha}{r} BAx$ ，我们有：

\frac{\partial h}{\partial B} = \frac{\alpha}{r} (Ax)^T

因此：

\frac{\partial \mathcal{L}}{\partial B} = \frac{\alpha}{r} \delta (Ax)^T

对矩阵 $A$ 的梯度：

\frac{\partial h}{\partial A} = \frac{\alpha}{r} B^T x^T

因此：

\frac{\partial \mathcal{L}}{\partial A} = \frac{\alpha}{r} B^T \delta x^T

反向传播分析#

为什么梯度计算是这样的？

用链式法则来分析：

$h$ 对 $B$ 的偏导数就是 $\frac{\alpha}{r}(Ax)^T$
损失对 $B$ 的梯度 = 损失对 $h$ 的梯度 × $h$ 对 $B$ 的梯度

梯度的物理意义：

$A$ 的梯度依赖于 $B^T$ 和输入 $x$
$B$ 的梯度依赖于 $Ax$ 和输出梯度 $\delta$
两个矩阵的更新是相互依赖的

计算效率分析#

梯度计算的复杂度：

计算 $\frac{\partial \mathcal{L}}{\partial A}$ ： $O(rd + rk)$
计算 $\frac{\partial \mathcal{L}}{\partial B}$ ： $O(rd + rk)$
总梯度计算： $O(r(d+k))$

这比全参数微调的 $O(dk)$ 要小得多！

梯度的数学性质#

梯度的协方差结构：

LoRA中 $A$ 和 $B$ 的梯度具有特殊的协方差结构：

\text{Cov}(\nabla_A \mathcal{L}, \nabla_B \mathcal{L}) = \frac{\alpha^2}{r^2} \text{Cov}(B^T \nabla_W \mathcal{L}, \nabla_W \mathcal{L} A^T)

这种耦合关系影响了优化的收敛性质。

梯度的谱性质：

设 $G_A = \nabla_A \mathcal{L}$ ， $G_B = \nabla_B \mathcal{L}$ ，则：

\text{tr}(G_A G_A^T) + \text{tr}(G_B G_B^T) = \frac{\alpha^2}{r^2} \|\nabla_W \mathcal{L}\|_F^2 (\|A\|_F^2 + \|B\|_F^2)

这表明梯度范数与矩阵范数成正比。

2.3 参数初始化策略#

初始化的重要性#

参数初始化对LoRA的训练效果有很大影响。

LoRA的标准初始化方案：

矩阵 $A$ ：使用高斯分布初始化 $A \sim \mathcal{N}(0, \sigma^2)$
矩阵 $B$ ：初始化为零 $B = 0$

为什么这样初始化？

这样设计的巧妙之处在于：

\Delta W = BA = 0 \times A = 0

这意味着训练开始时，LoRA对模型输出没有任何影响，模型的行为完全等同于原始预训练模型。

不同初始化方案的对比#

方案1：标准初始化

1
A ~ N(0, 1/r)
2
B = 0

方案2：Kaiming初始化

1
A ~ N(0, 2/r)
2
B = 0

方案3：Xavier初始化

1
A ~ N(0, 2/(r+k))
2
B = 0

初始化策略分析#

从理论角度看：

标准初始化： $A \sim \mathcal{N}(0, 1/r)$ ， $B = 0$ 是最常用的方案
Kaiming初始化：在某些深层网络中可能更合适
初始化方差：不宜过大，以免破坏预训练权重的效果

理论建议：

默认使用标准初始化 $\sigma^2 = 1/r$
初始化方差的选择需要平衡训练稳定性和学习能力

第三部分：实现与优化#

3.1 代码实现要点#

基础LoRA层的实现#

LoRA层的核心实现：

1
import torch
2
import torch.nn as nn
3

4
class LoRALayer(nn.Module):
5
    def __init__(self, in_features, out_features, rank=4, alpha=1):
6
        super().__init__()
7
        self.rank = rank
8
        self.alpha = alpha
9

10
        # LoRA矩阵 - 注意初始化策略
11
        self.lora_A = nn.Parameter(torch.randn(rank, in_features) / rank)
12
        self.lora_B = nn.Parameter(torch.zeros(out_features, rank))
13

14
        # 缩放因子
15
        self.scaling = alpha / rank
16

17
    def forward(self, x):
18
        # LoRA路径：x -> A -> B -> scaling
19
        return (x @ self.lora_A.T @ self.lora_B.T) * self.scaling

与原始模型的集成#

方法1：包装现有线性层

1
class LinearWithLoRA(nn.Module):
2
    def __init__(self, linear_layer, rank=4, alpha=1):
3
        super().__init__()
4
        self.linear = linear_layer
5
        self.lora = LoRALayer(
6
            linear_layer.in_features,
7
            linear_layer.out_features,
8
            rank, alpha
9
        )
10

11
        # 冻结原始权重
12
        for param in self.linear.parameters():
13
            param.requires_grad = False
14

15
    def forward(self, x):
16
        return self.linear(x) + self.lora(x)

方法2：模型转换函数

1
def convert_to_lora(model, target_modules, rank=4, alpha=1):
2
    """将指定的线性层转换为LoRA版本"""
3
    for name, module in model.named_modules():
4
        if any(target in name for target in target_modules):
5
            if isinstance(module, nn.Linear):
6
                # 获取父模块
7
                parent = model
8
                for attr in name.split('.')[:-1]:
9
                    parent = getattr(parent, attr)
10

11
                # 替换为LoRA版本
12
                lora_module = LinearWithLoRA(module, rank, alpha)
13
                setattr(parent, name.split('.')[-1], lora_module)
14

15
    return model

实现要点总结#

关键点1：参数冻结

必须确保原始权重被正确冻结
只有LoRA参数参与梯度更新

关键点2：初始化顺序

先初始化A矩阵（随机）
再初始化B矩阵（零）
这个顺序很重要！

关键点3：缩放因子

不要忘记应用缩放因子
缩放因子影响训练稳定性

3.2 训练技巧和优化#

学习率设置策略#

从理论上看，LoRA参数需要特殊的学习率设置：

1
# 为LoRA参数设置不同的学习率
2
lora_params = []
3
base_params = []
4

5
for name, param in model.named_parameters():
6
    if 'lora' in name and param.requires_grad:
7
        lora_params.append(param)
8
    elif param.requires_grad:
9
        base_params.append(param)
10

11
optimizer = torch.optim.AdamW([
12
    {'params': base_params, 'lr': 1e-5},      # 基础模型参数（如果有）
13
    {'params': lora_params, 'lr': 1e-4}       # LoRA参数用更高学习率
14
])

为什么LoRA需要更高学习率？

LoRA参数从零开始学习
需要更快的更新来适应新任务
通常比基础模型高1-2个数量级

正则化技术#

权重衰减：

1
# 对LoRA参数应用适当的权重衰减
2
optimizer = torch.optim.AdamW([
3
    {'params': lora_params, 'lr': 1e-4, 'weight_decay': 0.01}
4
])

Dropout：

1
class LoRALayer(nn.Module):
2
    def __init__(self, in_features, out_features, rank=4, alpha=1, dropout=0.1):
3
        super().__init__()
4
        # ... 其他初始化代码 ...
5
        self.dropout = nn.Dropout(dropout)
6

7
    def forward(self, x):
8
        x = self.dropout(x)  # 在LoRA路径中添加dropout
9
        return (x @ self.lora_A.T @ self.lora_B.T) * self.scaling

常见问题和解决方案#

问题1：训练不稳定

解决：降低学习率或增加权重衰减
检查初始化是否正确

问题2：性能不如预期

解决：尝试增加秩r
调整缩放因子alpha
检查目标模块选择是否合适

问题3：内存使用仍然很高

解决：使用梯度检查点
考虑使用混合精度训练

理论分析要点：

验证实现的数学正确性
理解LoRA参数的梯度特性
分析不同秩对表达能力的影响
掌握关键理论指标的含义

3.3 理论分析方法#

3.3.1 收敛性分析#

损失函数的Lipschitz性质：

LoRA的损失函数关于参数 $(A,B)$ 是Lipschitz连续的：

|\mathcal{L}(A_1, B_1) - \mathcal{L}(A_2, B_2)| \leq L \|(A_1, B_1) - (A_2, B_2)\|_F

其中Lipschitz常数 $L$ 依赖于输入数据和模型架构。

强凸性条件：

当损失函数在LoRA参数空间上满足强凸性时：

\mathcal{L}(A_2, B_2) \geq \mathcal{L}(A_1, B_1) + \langle \nabla \mathcal{L}(A_1, B_1), (A_2, B_2) - (A_1, B_1) \rangle + \frac{\mu}{2} \|(A_2, B_2) - (A_1, B_1)\|_F^2

梯度下降可以实现线性收敛。

3.3.2 泛化误差分解#

偏差-方差分解：

LoRA的泛化误差可以分解为：

\text{Error} = \text{Bias}^2 + \text{Variance} + \text{Noise}

其中：

$\text{Bias}^2$ ：由低秩约束引起的近似误差
$\text{Variance}$ ：由有限训练数据引起的方差
$\text{Noise}$ ：数据中的不可约误差

偏差项分析：

偏差项与最优权重更新的低秩近似误差相关：

\text{Bias}^2 \propto \|\Delta W^* - \Delta W^*_r\|_F^2

其中 $\Delta W^*$ 是最优权重更新， $\Delta W^*_r$ 是其秩为 $r$ 的最佳近似。

方差项分析：

方差项与可训练参数数量成反比：

\text{Variance} \propto \frac{r(d+k)}{n}

其中 $n$ 是训练样本数量。

3.3.3 最优秩选择理论#

偏差-方差权衡：

最优秩 $r^*$ 最小化总误差：

r^* = \arg\min_r \left[ \|\Delta W^* - \Delta W^*_r\|_F^2 + \frac{C \cdot r(d+k)}{n} \right]

其中 $C$ 是与模型复杂度相关的常数。

渐近最优性：

当 $n \to \infty$ 时，最优秩的渐近行为为：

r^* \sim n^{\frac{1}{2+\beta}}

其中 $\beta$ 是权重更新奇异值的衰减率。

3.3.4 数值稳定性理论#

条件数控制：

为保证数值稳定性，需要控制LoRA矩阵的条件数：

\kappa(A) = \frac{\sigma_{\max}(A)}{\sigma_{\min}(A)} \leq \kappa_{\max}

梯度范数界：

LoRA的梯度范数有界：

\|\nabla_{A,B} \mathcal{L}\|_F \leq \frac{\alpha}{r} \sqrt{\|A\|_F^2 + \|B\|_F^2} \|\nabla_W \mathcal{L}\|_F

这个界确保了梯度不会无限增长。

3.3.5 正则化理论#

隐式正则化效应：

低秩约束等价于核范数正则化：

\min_{A,B} \mathcal{L}(W_0 + BA) \equiv \min_{\Delta W} \mathcal{L}(W_0 + \Delta W) + \lambda \|\Delta W\|_*

其中正则化参数 $\lambda$ 与秩 $r$ 成反比。

正则化路径：

随着秩 $r$ 的增加，LoRA沿着正则化路径移动：

\Delta W(r) = \arg\min_{\text{rank}(\Delta W) \leq r} \mathcal{L}(W_0 + \Delta W)

这个路径连接了不同复杂度的解。

第四部分：变种技术#

4.1 AdaLoRA (Adaptive LoRA)#

AdaLoRA是LoRA的一个重要改进，它能够动态调整不同层和不同维度的秩。

核心思想：不是所有的层都需要相同的秩，AdaLoRA根据重要性分数自适应地分配参数预算。

技术特点：

使用奇异值分解来评估重要性
动态剪枝不重要的奇异值
在训练过程中逐步调整秩

4.2 QLoRA (Quantized LoRA)#

QLoRA将量化技术与LoRA结合，进一步减少内存使用。

核心思想：

将预训练模型量化为4位
在量化模型上应用LoRA
保持高精度的同时大幅减少内存

优势：

内存使用减少到原来的1/4
在单个GPU上微调大模型成为可能
性能损失很小

4.3 其他相关技术#

LoRA+：

对A和B矩阵使用不同的学习率
提高训练稳定性和收敛速度

VeRA (Vector-based Random Matrix Adaptation)：

使用固定的随机矩阵
只训练两个向量参数
进一步减少可训练参数数量

第五部分：理论深入#

5.1 泛化理论分析#

5.1.1 统计学习理论基础#

从统计学习理论的角度，LoRA的泛化能力可以通过Rademacher复杂度来分析。

传统微调的泛化界：

对于全参数微调，泛化误差界为：

R(f) - \hat{R}(f) \leq \mathcal{R}_n(\mathcal{F}) + \sqrt{\frac{\log(1/\delta)}{2n}}

其中 $\mathcal{R}_n(\mathcal{F})$ 是函数类的Rademacher复杂度。

LoRA的泛化界：

由于LoRA限制了参数空间，其Rademacher复杂度显著降低：

\mathcal{R}_n(\mathcal{F}_{LoRA}) \leq \mathcal{R}_n(\mathcal{F}_{full}) \cdot \sqrt{\frac{r(d+k)}{dk}}

这表明LoRA的泛化误差界更紧，特别是当 $r \ll \min(d,k)$ 时。

5.1.2 低秩约束的正则化效应#

隐式正则化分析：

低秩约束等价于在权重更新上施加核范数正则化：

\min_{\Delta W} \mathcal{L}(W_0 + \Delta W) + \lambda \|\Delta W\|_*

其中 $\|\cdot\|_*$ 是核范数（奇异值之和）。

正则化强度：

LoRA的隐式正则化强度与秩 $r$ 成反比：

\lambda_{implicit} \propto \frac{1}{r}

这解释了为什么较小的秩通常有更好的泛化性能。

5.1.3 预训练知识的保持#

知识保持定理：

设预训练模型在分布 $\mathcal{D}_{pre}$ 上的性能为 $R_{pre}$ ，LoRA微调后在该分布上的性能为 $R_{LoRA}$ ，则：

|R_{LoRA} - R_{pre}| \leq C \cdot \frac{\alpha}{r} \cdot \|BA\|_F

其中 $C$ 是与模型架构相关的常数。

这表明通过控制 $\alpha/r$ 和矩阵范数，可以保持预训练知识。

5.2 优化理论研究#

5.2.1 双线性优化的几何性质#

LoRA的优化问题具有特殊的双线性结构：

\min_{A,B} \mathcal{L}(W_0 + \frac{\alpha}{r}BA)

临界点分析：

设 $f(A,B) = \mathcal{L}(W_0 + \frac{\alpha}{r}BA)$ ，临界点满足：

\frac{\partial f}{\partial A} = \frac{\alpha}{r} B^T \nabla_W \mathcal{L} = 0

\frac{\partial f}{\partial B} = \frac{\alpha}{r} \nabla_W \mathcal{L} A^T = 0

Hessian矩阵结构：

LoRA的Hessian矩阵具有块结构：

H = \begin{pmatrix} H_{AA} & H_{AB} \\ H_{BA} & H_{BB} \end{pmatrix}

其中交叉项 $H_{AB}$ 和 $H_{BA}$ 体现了 $A$ 和 $B$ 之间的耦合。

5.2.2 收敛性分析#

局部收敛定理：

在适当的初始化条件下，LoRA的梯度下降算法以线性速率收敛到局部最优解：

\|(\hat{A}_t, \hat{B}_t) - (A^*, B^*)\|_F^2 \leq (1-\mu)^t \|(\hat{A}_0, \hat{B}_0) - (A^*, B^*)\|_F^2

其中 $\mu > 0$ 是收敛率，依赖于损失函数的强凸性常数。

全局收敛条件：

当损失函数满足Polyak-Łojasiewicz条件时，LoRA可以实现全局收敛：

\|\nabla f(A,B)\|_F^2 \geq 2\mu(f(A,B) - f^*)

5.2.3 梯度流动力学#

连续时间梯度流：

LoRA的梯度流可以表示为：

\frac{dA}{dt} = -\frac{\alpha}{r} B^T \nabla_W \mathcal{L}

\frac{dB}{dt} = -\frac{\alpha}{r} \nabla_W \mathcal{L} A^T

不变量分析：

在梯度流过程中，某些量保持不变或单调变化：

损失函数单调递减： $\frac{d\mathcal{L}}{dt} \leq 0$
权重更新的Frobenius范数有界： $\|BA\|_F \leq C(t)$

5.3 表达能力理论#

5.3.1 万能逼近能力#

低秩逼近定理：

对于任意权重更新 $\Delta W \in \mathbb{R}^{d \times k}$ ，存在秩为 $r$ 的矩阵 $\Delta W_r$ 使得：

\|\Delta W - \Delta W_r\|_F \leq \sigma_{r+1}(\Delta W)

其中 $\sigma_{r+1}(\Delta W)$ 是 $\Delta W$ 的第 $(r+1)$ 个奇异值。

逼近误差界：

当权重更新具有快速衰减的奇异值时，低秩逼近误差很小：

\|\Delta W - \Delta W_r\|_F \leq \sqrt{\sum_{i=r+1}^{\min(d,k)} \sigma_i^2(\Delta W)}

5.3.2 表达能力与秩的关系#

表达能力度量：

定义LoRA的表达能力为其能够表示的权重更新空间的维度：

\text{Capacity}(r) = r \cdot \min(d, k)

最优秩选择：

理论上，最优秩 $r^*$ 平衡了表达能力和泛化性能：

r^* = \arg\min_r \left[ \text{Bias}(r) + \text{Variance}(r) \right]

其中：

$\text{Bias}(r)$ 随 $r$ 递减（表达能力增强）
$\text{Variance}(r)$ 随 $r$ 递增（过拟合风险增加）

5.4 信息论分析#

5.4.1 信息容量理论#

信息瓶颈原理：

LoRA可以从信息瓶颈的角度理解，其中低秩约束限制了信息流：

I(X; Y|LoRA) \leq I(X; Y|Full) \cdot \frac{r}{\min(d,k)}

最小描述长度：

LoRA的参数可以用更短的描述长度编码：

\text{MDL}_{LoRA} = r(d+k) \log(n) + \text{Data Cost}

相比全参数的 $dk \log(n)$ ，显著减少了模型复杂度。

5.4.2 压缩与性能权衡#

率失真理论：

LoRA的压缩可以用率失真函数描述：

R(D) = \min_{r: \text{Distortion} \leq D} r(d+k)

其中失真度量为重构误差。

信息论下界：

任何秩为 $r$ 的方法的信息论下界为：

\text{Bits} \geq r \log_2\left(\frac{dk}{r}\right)

5.5 数值稳定性分析#

5.5.1 条件数分析#

LoRA系统的条件数：

LoRA训练的数值稳定性与矩阵 $A$ 和 $B$ 的条件数相关：

\kappa(BA) \leq \kappa(B) \cdot \kappa(A)

稳定性条件：

为保证数值稳定性，需要：

\kappa(A), \kappa(B) \leq \frac{C}{\sqrt{r}}

其中 $C$ 是与精度相关的常数。

5.5.2 梯度消失与爆炸#

梯度范数分析：

LoRA的梯度范数满足：

\|\nabla_A \mathcal{L}\|_F \leq \frac{\alpha}{r} \|B\|_F \|\nabla_W \mathcal{L}\|_F

\|\nabla_B \mathcal{L}\|_F \leq \frac{\alpha}{r} \|A\|_F \|\nabla_W \mathcal{L}\|_F

稳定训练条件：

为避免梯度问题，需要控制：

\frac{\alpha}{r} \|A\|_F, \frac{\alpha}{r} \|B\|_F \in [c_1, c_2]

其中 $0 < c_1 < c_2$ 是合适的常数。

第六部分：理论总结与思考#

6.1 LoRA的理论优势#

从理论角度看，LoRA的优势主要体现在：

参数效率：LoRA只需要训练原模型0.1%-1%的参数，大大降低了计算和存储成本。

数学优雅性：低秩分解的思想简单而有效，将复杂的权重更新问题转化为两个小矩阵的优化。

推理效率：训练完成后可以直接合并到原权重中，推理时没有额外开销。

6.2 关键参数的理论理解#

秩的选择：这是LoRA最关键的超参数。理论上，秩越大表达能力越强，但也增加了参数量。论文中通常使用r=1-64的范围。

缩放因子α：控制LoRA部分对最终输出的贡献程度。通常设置为α=r，这样可以保持训练的稳定性。

初始化策略：A矩阵随机初始化，B矩阵初始化为0，确保训练开始时LoRA不影响原模型的行为。

6.3 学习心得#

通过学习LoRA的理论，我最大的收获是理解了”低秩假设”的威力。这个看似简单的想法，却能在保持模型性能的同时大幅减少计算成本。

LoRA的成功也让我思考：在深度学习中，是否还有其他类似的”内在结构”等待我们发现？这种从理论洞察到实际应用的转化过程，正是科研的魅力所在。

总结#

LoRA真的是个很棒的技术。它用一个简单而巧妙的想法——低秩分解，解决了大模型微调的资源问题。只需要训练很少的参数就能达到全参数微调的效果，而且推理时完全不增加计算开销。

当然，LoRA也不是完美的，秩的选择、表达能力的限制等问题还需要进一步研究。但作为参数高效微调的开山之作，LoRA已经为整个领域指明了方向。

LoRA (Low-Rank Adaptation) 学习笔记

https://kyc001.github.io/posts/lora-low-rank-adaptation/

作者

kyc001

发布于

2025-08-14

许可协议

CC BY-NC-SA 4.0

Wan 学习笔记

2025年CCF图形学启明星计划夏令营游记

1

LoRA (Low-Rank Adaptation) 学习笔记

4.1 AdaLoRA (Adaptive LoRA)

4.2 QLoRA (Quantized LoRA)