QLoRA微调详解

关键词

术语	英文	核心含义
QLoRA	Quantized LoRA	量化+低秩适配
量化	Quantization	降低数值精度
NF4	NormalFloat4	4位正态浮点格式
双重量化	Double Quantization	量化优化器状态
分页优化器	Paged Optimizers	显存分页管理
4-bit基量化	4-bit Base Quantization	基础权重量化
梯度检查点	Gradient Checkpointing	显存优化技术
显存优化	Memory Optimization	减少GPU占用
权重分块	Weight Blocking	分块量化策略
反量化	Dequantization	恢复高精度计算

概述

QLoRA（Quantized Low-Rank Adaptation）是 UC Berkeley 于 2023 年提出的一种高效微调技术，它将量化（Quantization）技术与LoRA完美结合，使得在单个 48GB GPU 上微调 65B 参数模型成为可能。QLoRA 的核心创新在于：通过创新的量化方法（NF4）和内存优化技术，在保持微调效果的同时大幅降低显存需求。

QLoRA 的论文《QLoRA: Efficient Finetuning of Quantized LLMs》首次系统性地证明了量化与微调的兼容性，为大模型民主化做出了重要贡献。

1. QLoRA核心思想

1.1 为什么需要QLoRA？

传统微调方法面临严峻的显存瓶颈：

模型规模	FP16显存需求	训练显存需求	可用硬件
7B	~14GB	~28GB	单RTX 3090
13B	~26GB	~56GB	需A100
33B	~66GB	~140GB	需多卡A100
65B	~130GB	~280GB	需高端集群

Note

消费级 GPU（如 RTX 4090 24GB）只能微调 7B 左右的模型。QLoRA 使得在单张 48GB GPU 上微调 65B 模型成为现实。

1.2 QLoRA的技术组合

QLoRA 采用三管齐下的策略：

QLoRA = 4-bit NF4量化 + 双重量化 + 分页优化器

                    ┌─────────────────────────────┐
                    │      预训练模型权重          │
                    │      (FP16/BF16)            │
                    └─────────────┬───────────────┘
                                  │
                                  ▼
                    ┌─────────────────────────────┐
                    │   4-bit NormalFloat (NF4)   │
                    │   ┌─────┬─────┬─────┬─────┐  │
                    │   │分块 │分块 │分块 │分块 │  │
                    │   │量化 │量化 │量化 │量化 │  │
                    │   └──┬──┴──┬──┴──┬──┴──┬──┘  │
                    └───────┼─────┼─────┼─────┼─────┘
                            │     │     │     │
                            ▼     ▼     ▼     ▼
                    ┌─────────────────────────────┐
                    │   反量化到BF16进行计算      │
                    │   + LoRA适配器训练          │
                    └─────────────────────────────┘

1.3 QLoRA vs 其他方法

方法	可微调模型规模（48GB GPU）	效果保持率
全参数微调	13B	100%
LoRA	33B	~98%
QLoRA	65B	~99%
QLoRA+	70B+	~99%

2. NF4量化详解

2.1 什么是NF4？

NF4（NormalFloat 4-bit）是一种专为神经网络权重设计的4位量化格式。它基于以下洞察：

神经网络权重通常服从正态分布，而非均匀分布。

import torch
import numpy as np
 
# 观察：典型LLM权重分布接近正态分布
def analyze_weight_distribution(weights):
    """分析权重分布特性"""
    w = weights.flatten().float().cpu().numpy()
    
    mean = np.mean(w)
    std = np.std(w)
    
    # 计算偏度和峰度
    skewness = ((w - mean) ** 3).mean() / (std ** 3)
    kurtosis = ((w - mean) ** 4).mean() / (std ** 4) - 3
    
    print(f"均值: {mean:.6f}, 标准差: {std:.6f}")
    print(f"偏度: {skewness:.4f}, 峰度: {kurtosis:.4f}")
    
    return {"mean": mean, "std": std, "skewness": skewness, "kurtosis": kurtosis}

2.2 NF4量化原理

NF4 量化将数值范围划分为 16 个区间（ $2^{4} = 16$ ），但区间的划分遵循正态分布：

import scipy.stats as stats
 
class NF4Quantizer:
    """
    NF4量化器实现
    16个量化值，遵循正态分布
    """
    
    def __init__(self):
        # NF4的16个量化值（归一化到[-1, 1]）
        # 基于正态分布的分位数确定
        self.quant_values = self._compute_nf4_quantiles()
    
    def _compute_nf4_quantiles(self):
        """计算NF4的分位数量化值"""
        n_bits = 4
        n_levels = 2 ** n_bits  # 16 levels
        
        # 使用正态分布的分位数
        quantiles = torch.linspace(0, 1, n_levels + 1)[1:-1]
        values = stats.norm.ppf(quantiles).tolist()
        
        # 添加极端值
        values = [-float('inf')] + values + [float('inf')]
        
        # 归一化到[-1, 1]范围
        values = [v / max(abs(values[1]), abs(values[-2])) for v in values[1:-1]]
        values = [-1] + values + [1]
        
        return torch.tensor(values)
    
    def quantize(self, weights):
        """量化权重到NF4"""
        # 找到最近的量化值
        weights_flat = weights.flatten().float()
        
        # 计算到每个量化值的距离
        distances = torch.abs(weights_flat.unsqueeze(-1) - self.quant_values.to(weights.device))
        
        # 选择最近的量化值
        indices = torch.argmin(distances, dim=-1)
        
        return indices, self.quant_values.to(weights.device)
    
    def dequantize(self, indices, scale):
        """反量化"""
        return self.quant_values[indices].to(scale.dtype) * scale

2.3 NF4 vs INT4/FP16 对比

量化格式	数值范围	分布假设	LLM适用性
INT4	[-8, 7]	均匀	差
FP4	[-1, 0.625, …]	均匀	中等
NF4	依据正态分布	正态	最佳

Tip

NF4 的关键优势在于：量化值更密集地分布在权重最可能出现的区域。对于服从正态分布的权重，使用 NF4 的量化误差最小。

3. 双重量化（Double Quantization）

3.1 量化误差的来源

在 QLoRA 中，不仅模型权重被量化，量化过程的辅助参数（如缩放因子）也需要存储：

原始情况：
- 模型权重：NF4格式（4 bits）
- 缩放因子：FP32格式（32 bits）
- 每个参数块需要一个缩放因子

问题：当参数块很小时，缩放因子的开销变得显著

3.2 双重量化原理

双重量化将缩放因子也进行量化：

class DoubleQuantizer:
    """
    双重量化实现
    对缩放因子也进行量化
    """
    
    def __init__(self, block_size=256):
        self.block_size = block_size  # 缩放因子的分块大小
    
    def double_quantize(self, weights, scales):
        """
        weights: 原始权重 (NF4)
        scales: 缩放因子 (FP32)
        """
        # 第一步：权重量化（NF4）
        quantized_weights, weight_scales = self.quantize_weights(weights)
        
        # 第二步：缩放因子量化（INT8）
        # 缩放因子通常较小，可以用INT8表示
        quantized_scales, scale_scales = self.quantize_scales(scales)
        
        return quantized_weights, quantized_scales, scale_scales
    
    def quantize_scales(self, scales):
        """
        缩放因子量化
        将缩放因子分组后，用INT8表示
        """
        # 分块
        n_blocks = scales.numel() // self.block_size
        
        # 每块的缩放因子
        block_scales = scales[:n_blocks * self.block_size].view(n_blocks, self.block_size)
        
        # 找到每块的最大值作为该块的量化基础
        block_max = block_scales.abs().max(dim=-1).values
        
        # 量化到INT8
        quantized = (block_scales.T / block_max).T  # 归一化
        quantized_int8 = torch.round(quantized * 127).to(torch.int8)
        
        # 块的最大值也需要量化（但这一步骤会递归，这里简化处理）
        return quantized_int8, block_max

3.3 显存节省计算

量化策略	缩放因子显存	节省比例
单重量化（block_size=64）	0.5 bits/param	基准
双重量化（block_size=256）	0.127 bits/param	~75%
双重量化（block_size=1024）	0.031 bits/param	~94%

4. 分页优化器（Paged Optimizers）

4.1 问题背景

梯度更新时，优化器状态（Adam的momentum和variance）占用大量显存：

Adam优化器状态（每个参数需要2个32位浮点）：
- momentum: 4 bytes
- variance: 4 bytes
总计：8 bytes/参数

对于65B模型：
8 bytes × 65B = 520GB 仅用于优化器状态！

4.2 分页优化器原理

QLoRA的分页优化器借鉴了操作系统内存管理的思想：

class PagedOptimizer:
    """
    分页优化器
    将优化器状态分页存储，动态管理显存
    """
    
    def __init__(self, model, optimizer_class, block_size=1024):
        self.block_size = block_size
        self.pages_in_use = 0
        self.max_pages = self.calculate_max_pages()
        
        # 创建分页优化器状态
        self.optimizer = optimizer_class(
            self.create_paged_state(model),
            lr=2e-4,
            betas=(0.9, 0.999),
            eps=1e-8,
        )
    
    def create_paged_state(self, model):
        """创建分页状态"""
        states = {}
        for name, param in model.named_parameters():
            if param.requires_grad:
                # 为每个参数分配虚拟页面
                states[name] = {
                    'exp_avg': self._allocate_page(),
                    'exp_avg_sq': self._allocate_page(),
                }
        return states
    
    def _allocate_page(self):
        """按需分配页面"""
        if self.pages_in_use >= self.max_pages:
            # 当显存不足时，将不活跃的页面交换到CPU内存
            self._evict_least_recently_used()
        
        self.pages_in_use += 1
        return torch.zeros(self.block_size, dtype=torch.float32, device='cuda')
    
    def step(self, closure=None):
        """优化器步骤"""
        # 如果需要，从CPU恢复页面
        self._restore_active_pages()
        
        # 执行优化器更新
        self.optimizer.step()
        
        # 释放不活跃页面
        self._evict_inactive_pages()

4.3 显存对比

优化器类型	7B模型显存	13B模型显存	65B模型显存
标准Adam	~28GB	~56GB	~280GB
Paged Adam	~18GB	~36GB	~180GB
节省比例	~36%	~36%	~36%

5. QLoRA完整实现

5.1 核心代码

import torch
import torch.nn as nn
from transformers import AutoModelForCausalLM, BitsAndBytesConfig
from peft import LoraConfig, get_peft_model, TaskType
 
def get_qlora_model(model_name, rank=64, target_modules=None):
    """
    获取QLoRA配置的模型
    """
    
    # NF4量化配置
    bnb_config = BitsAndBytesConfig(
        load_in_4bit=True,
        bnb_4bit_compute_dtype=torch.bfloat16,
        bnb_4bit_use_double_quant=True,
        bnb_4bit_quant_type="nf4",  # 使用NF4
    )
    
    # 加载量化模型
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        quantization_config=bnb_config,
        device_map="auto",
        trust_remote_code=True,
    )
    
    # 准备模型进行k-bit训练
    from peft import prepare_model_for_kbit_training
    model = prepare_model_for_kbit_training(model)
    
    # LoRA配置
    if target_modules is None:
        target_modules = ["q_proj", "k_proj", "v_proj", "o_proj"]
    
    lora_config = LoraConfig(
        r=rank,
        lora_alpha=rank * 2,
        target_modules=target_modules,
        lora_dropout=0.0,  # QLoRA通常不需要dropout
        bias="none",
        task_type=TaskType.CAUSAL_LM,
    )
    
    model = get_peft_model(model, lora_config)
    
    return model
 
# 使用示例
model = get_qlora_model("meta-llama/Llama-2-70b-hf", rank=64)
model.print_trainable_parameters()
# trainable params: 167,772,160 || all params: 33,791,344,640 || trainable%: 0.497

5.2 训练配置

from transformers import TrainingArguments, Trainer
from datasets import load_dataset
from torch.utils.data import DataLoader
 
# 完整的QLoRA训练配置
training_args = TrainingArguments(
    output_dir="./qlora_output",
    per_device_train_batch_size=1,  # QLoRA显存占用低，可以增大batch
    gradient_accumulation_steps=16,  # 累积到16
    learning_rate=2e-4,
    num_train_epochs=3,
    warmup_ratio=0.03,
    lr_scheduler_type="cosine",
    logging_steps=10,
    save_steps=200,
    save_total_limit=2,
    bf16=True,
    max_grad_norm=0.3,
    gradient_checkpointing=True,
    # QLoRA特有配置
    optim="paged_adamw_32bit",  # 使用分页优化器
    # fp16=False,  # 不使用FP16，使用BF16
    report_to="tensorboard",
)
 
# 训练
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset,
    tokenizer=tokenizer,
    data_collator=DataCollatorForLanguageModeling(tokenizer, mlm=False),
)
 
trainer.train()

5.3 显存占用分析

def analyze_qlora_memory(model_size_billions, rank=64, batch_size=1, seq_len=2048):
    """
    分析QLoRA显存占用
    """
    
    # 量化模型权重 (NF4)
    weight_memory_nf4 = model_size_billions * 1e9 * 0.5  # 4-bit = 0.5 bytes
    
    # 反量化计算时需要BF16
    compute_memory_bf16 = model_size_billions * 1e9 * 2  # 16-bit = 2 bytes
    
    # LoRA参数 (BF16)
    num_layers = model_size_billions / 7 * 32  # 估算层数
    lora_memory = num_layers * rank * 4 * 2  # A,B矩阵
    
    # 梯度 (FP32，但可以用分页优化器管理)
    gradient_memory = model_size_billions * 1e9 * 4  # 4 bytes
    
    # 激活值（估算）
    activation_memory = batch_size * seq_len * model_size_billions * 1e9 * 1e-6  # 简化估算
    
    # 优化器状态（分页优化器管理）
    optimizer_memory = model_size_billions * 1e9 * 4  # 4 bytes per param
    
    return {
        "权重(NF4)": weight_memory_nf4 / 1e9,
        "计算(BF16)": compute_memory_bf16 / 1e9,
        "LoRA": lora_memory / 1e9,
        "梯度": gradient_memory / 1e9,
        "激活值(估算)": activation_memory,
        "优化器(分页)": optimizer_memory / 1e9,
        "总计(GB)": (weight_memory_nf4 + compute_memory_bf16 + lora_memory + 
                     gradient_memory + activation_memory + optimizer_memory) / 1e9
    }
 
# 分析不同规模模型的显存占用
for model_size in [7, 13, 33, 65]:
    result = analyze_qlora_memory(model_size)
    print(f"\n{model_size}B 模型 QLoRA 显存占用:")
    for key, value in result.items():
        print(f"  {key}: {value:.2f} GB")

6. QLoRA vs LoRA vs 全参数对比

6.1 详细对比表

维度	全参数微调	LoRA	QLoRA
量化精度	无	无	4-bit NF4
可微调规模（单卡24GB）	1-3B	7-13B	33-65B
可微调规模（单卡48GB）	13B	33B	65-70B
训练显存（7B）	~28GB	~18GB	~6GB
训练显存（13B）	~56GB	~36GB	~12GB
训练显存（65B）	~280GB	~180GB	~48GB
效果保持率	100%	~98%	~99%
推理速度	最快	快	略慢（需反量化）
实现复杂度	低	低	中

6.2 选型建议

Tip

选型决策树：

你有 4×80GB A100 集群？

→ 可以考虑全参数微调，效果最佳

你有单张 48GB A100 或专业卡？

→ QLoRA 是最佳选择

你有单张 24GB 消费级GPU？

→ QLoRA (33B) 或 LoRA (13B)

你有单张 12GB GPU？

→ QLoRA (7B) 或 LoRA (7B)

6.3 性能基准测试

# QLoRA vs LoRA 性能对比实验设计
experiments = [
    {
        "model": "LLaMA-2-7B",
        "dataset": "Alpaca-GPT4",
        "metrics": ["BLEU", "ROUGE-L", "GPT4-Score"],
        "results": {
            "full_ft": {"bleu": 45.2, "rouge": 52.1, "gpt4": 8.5},
            "lora": {"bleu": 44.8, "rouge": 51.8, "gpt4": 8.4},
            "qlora": {"bleu": 44.6, "rouge": 51.5, "gpt4": 8.3},
        }
    },
    {
        "model": "LLaMA-2-13B", 
        "dataset": "Alpaca-GPT4",
        "metrics": ["BLEU", "ROUGE-L", "GPT4-Score"],
        "results": {
            "lora": {"bleu": 48.1, "rouge": 55.2, "gpt4": 8.8},
            "qlora": {"bleu": 47.9, "rouge": 54.9, "gpt4": 8.7},
        }
    },
]
 
# 实验结论：QLoRA与LoRA性能差异在统计误差范围内

7. 实战配置示例

7.1 7B模型QLoRA配置

# qlora_7b.yaml
model:
  name: "meta-llama/Llama-2-7b-hf"
  
quantization:
  load_in_4bit: true
  bnb_4bit_compute_dtype: "bfloat16"
  bnb_4bit_use_double_quant: true
  bnb_4bit_quant_type: "nf4"
 
lora:
  r: 64
  lora_alpha: 128
  target_modules: ["q_proj", "k_proj", "v_proj", "o_proj"]
  lora_dropout: 0.0
  bias: "none"
 
training:
  per_device_batch_size: 4
  gradient_accumulation_steps: 4
  learning_rate: 2e-4
  num_epochs: 3
  warmup_ratio: 0.03
  max_grad_norm: 0.3
  weight_decay: 0.001
  
# 显存需求：~6GB

7.2 13B模型QLoRA配置

# qlora_13b.yaml
model:
  name: "meta-llama/Llama-2-13b-hf"
  
quantization:
  load_in_4bit: true
  bnb_4bit_compute_dtype: "bfloat16"
  bnb_4bit_use_double_quant: true
  bnb_4bit_quant_type: "nf4"
 
lora:
  r: 64
  lora_alpha: 128
  target_modules: ["q_proj", "k_proj", "v_proj", "o_proj"]
  lora_dropout: 0.0
  bias: "none"
 
training:
  per_device_batch_size: 2
  gradient_accumulation_steps: 8
  learning_rate: 2e-4
  num_epochs: 3
  warmup_ratio: 0.03
  max_grad_norm: 0.3
  
# 显存需求：~12GB

7.3 65B模型QLoRA配置

# qlora_65b.yaml
model:
  name: "meta-llama/Llama-2-70b-hf"  # 使用70B作为替代
  
quantization:
  load_in_4bit: true
  bnb_4bit_compute_dtype: "bfloat16"
  bnb_4bit_use_double_quant: true
  bnb_4bit_quant_type: "nf4"
 
lora:
  r: 64
  lora_alpha: 128
  target_modules: ["q_proj", "k_proj", "v_proj", "o_proj"]
  lora_dropout: 0.0
  bias: "none"
 
training:
  per_device_batch_size: 1  # 显存受限，降低batch
  gradient_accumulation_steps: 32
  learning_rate: 1e-4  # 较大模型用更小学习率
  num_epochs: 3
  warmup_ratio: 0.03
  max_grad_norm: 0.3
  optim: "paged_adamw_32bit"  # 必须使用分页优化器
  
# 显存需求：~48GB

7.4 完整训练脚本

#!/usr/bin/env python3
"""
QLoRA微调完整脚本
支持7B/13B/33B/65B模型
"""
 
import torch
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    TrainingArguments,
    Trainer,
    DataCollatorForLanguageModeling,
)
from peft import (
    LoraConfig,
    get_peft_model,
    TaskType,
    prepare_model_for_kbit_training,
    BitsAndBytesConfig,
)
from datasets import load_dataset
 
def load_qlora_model(model_name, rank=64, target_modules=None):
    """加载QLoRA模型"""
    
    # 量化配置
    bnb_config = BitsAndBytesConfig(
        load_in_4bit=True,
        bnb_4bit_compute_dtype=torch.bfloat16,
        bnb_4bit_use_double_quant=True,
        bnb_4bit_quant_type="nf4",
    )
    
    # 加载模型
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        quantization_config=bnb_config,
        device_map="auto",
        trust_remote_code=True,
    )
    
    # 准备训练
    model = prepare_model_for_kbit_training(model)
    
    # LoRA配置
    if target_modules is None:
        # 自动检测目标模块
        target_modules = ["q_proj", "v_proj"]  # 默认
    
    lora_config = LoraConfig(
        r=rank,
        lora_alpha=rank * 2,
        target_modules=target_modules,
        lora_dropout=0.0,
        bias="none",
        task_type=TaskType.CAUSAL_LM,
    )
    
    model = get_peft_model(model, lora_config)
    
    return model
 
def tokenize_dataset(dataset, tokenizer, max_length=2048):
    """数据预处理"""
    
    def preprocess_function(examples):
        inputs = []
        for instr, inp in zip(examples["instruction"], examples["input"]):
            text = f"指令: {instr}\n输入: {inp}\n回答: " if inp else f"指令: {instr}\n回答: "
            inputs.append(text)
        
        model_inputs = tokenizer(
            inputs,
            max_length=max_length,
            truncation=True,
            padding="max_length",
        )
        
        model_inputs["labels"] = tokenizer(
            examples["output"],
            max_length=max_length,
            truncation=True,
            padding="max_length",
        )["input_ids"]
        
        return model_inputs
    
    return dataset.map(
        preprocess_function,
        batched=True,
        remove_columns=dataset.column_names,
    )
 
def main():
    # ============ 配置 ============
    CONFIG = {
        "7b": {
            "model": "meta-llama/Llama-2-7b-hf",
            "rank": 64,
            "batch_size": 4,
            "grad_accum": 4,
        },
        "13b": {
            "model": "meta-llama/Llama-2-13b-hf",
            "rank": 64,
            "batch_size": 2,
            "grad_accum": 8,
        },
        "70b": {
            "model": "meta-llama/Llama-2-70b-hf",
            "rank": 64,
            "batch_size": 1,
            "grad_accum": 32,
        },
    }
    
    MODEL_SIZE = "7b"  # 选择模型规模
    config = CONFIG[MODEL_SIZE]
    
    # ============ 加载模型 ============
    print(f"Loading {MODEL_SIZE} model...")
    model = load_qlora_model(
        config["model"],
        rank=config["rank"],
        target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
    )
    model.print_trainable_parameters()
    
    tokenizer = AutoTokenizer.from_pretrained(
        config["model"],
        trust_remote_code=True,
    )
    tokenizer.pad_token = tokenizer.eos_token
    
    # ============ 加载数据 ============
    print("Loading dataset...")
    dataset = load_dataset("json", data_files="train.json")["train"]
    tokenized_dataset = tokenize_dataset(dataset, tokenizer)
    
    # ============ 训练 ============
    training_args = TrainingArguments(
        output_dir=f"./qlora_{MODEL_SIZE}",
        per_device_train_batch_size=config["batch_size"],
        gradient_accumulation_steps=config["grad_accum"],
        learning_rate=2e-4,
        num_train_epochs=3,
        warmup_ratio=0.03,
        lr_scheduler_type="cosine",
        logging_steps=10,
        save_steps=200,
        save_total_limit=2,
        bf16=True,
        max_grad_norm=0.3,
        gradient_checkpointing=True,
        optim="paged_adamw_32bit",
    )
    
    trainer = Trainer(
        model=model,
        args=training_args,
        train_dataset=tokenized_dataset,
        tokenizer=tokenizer,
        data_collator=DataCollatorForLanguageModeling(tokenizer, mlm=False),
    )
    
    print("Starting training...")
    trainer.train()
    
    # ============ 保存 ============
    print("Saving model...")
    model.save_pretrained(f"./qlora_{MODEL_SIZE}/final")
    print("Done!")
 
if __name__ == "__main__":
    main()

8. 常见问题与解决方案

问题	原因	解决方案
显存仍然不足	batch过大	启用gradient_checkpointing
量化后效果下降	量化精度过低	尝试INT8或提高rank
训练不稳定	学习率过高	降低lr，使用warmup
推理速度慢	每次都反量化	合并LoRA权重到量化模型
保存的模型无法加载	格式问题	使用model.save_pretrained()

Caution

QLoRA 训练后，不要直接保存整个模型。应该只保存LoRA适配器权重，然后在推理时重新加载量化模型并应用LoRA权重。

人工智能知识库

探索

关键词

概述

1. QLoRA核心思想

1.1 为什么需要QLoRA？

1.2 QLoRA的技术组合

1.3 QLoRA vs 其他方法

2. NF4量化详解

2.1 什么是NF4？

2.2 NF4量化原理

2.3 NF4 vs INT4/FP16 对比

3. 双重量化（Double Quantization）

3.1 量化误差的来源

3.2 双重量化原理

3.3 显存节省计算

4. 分页优化器（Paged Optimizers）

4.1 问题背景

4.2 分页优化器原理

4.3 显存对比

5. QLoRA完整实现

5.1 核心代码

5.2 训练配置

5.3 显存占用分析

6. QLoRA vs LoRA vs 全参数对比

6.1 详细对比表

6.2 选型建议

6.3 性能基准测试

7. 实战配置示例

7.1 7B模型QLoRA配置

7.2 13B模型QLoRA配置

7.3 65B模型QLoRA配置

7.4 完整训练脚本

8. 常见问题与解决方案

相关文档

关系图谱

目录

反向链接