上下文窗口深度解析

摘要

本文深入剖析大语言模型（LLM）的上下文窗口机制，详细对比主流模型的上下文限制，深入探讨”Lost in Middle”问题的成因与应对策略，分析位置编码与注意力衰减的技术原理，并提供实用的上下文窗口使用策略。

关键词速览

术语	英文	说明
上下文窗口	Context Window	模型一次能处理的最大token数量
Lost in Middle	Lost in Middle	中间信息被忽略的现象
位置编码	Positional Encoding	为序列位置信息编码的机制
注意力衰减	Attention Decay	距离增加导致注意力权重下降
RoPE	Rotary Position Embedding	旋转位置编码
ALiBi	Attention with Linear Biases	带线性偏置的注意力
稀疏注意力	Sparse Attention	只计算部分位置注意力
滑动窗口	Sliding Window	固定大小窗口的移动机制
KV Cache	Key-Value Cache	注意力计算中间结果缓存

一、上下文窗口基础概念

1.1 什么是上下文窗口

上下文窗口（Context Window）是指大语言模型在单次推理过程中能够处理和考虑的最大token数量。这个数字直接决定了模型能够”记住”多少前置信息，也影响着模型能否处理长文档、长对话和复杂推理任务。

上下文窗口的概念源于Transformer架构的注意力机制。在标准的Transformer中，自注意力计算的时间复杂度为 $O (n^{2})$ ，其中 $n$ 是序列长度。因此，上下文窗口的硬性限制往往是出于计算资源和内存的限制。

从实际应用角度，上下文窗口决定了：

单次对话可以包含的最大消息量
可以处理文档的最大长度
能否在生成时参考整个代码库
多轮对话时能够保留的历史信息量

1.2 主流模型上下文窗口对比

当前主流大语言模型的上下文窗口存在显著差异：

模型	上下文窗口	组织	发布时间
GPT-4o	128K tokens	OpenAI	2024年5月
Claude 3.5 Sonnet	200K tokens	Anthropic	2024年6月
Claude 4 Opus	1M tokens	Anthropic	2025年5月
Gemini 1.5 Pro	1M tokens	Google	2024年5月
Gemini 2.0 Flash	1M tokens	Google	2024年12月
DeepSeek V3	64K tokens	DeepSeek	2024年12月
Qwen 2.5	128K tokens	阿里	2024年9月

Token估算方法：通常英文以4个字符约等于1个token，中文以1-2个汉字约等于1个token。

二、Lost in Middle问题深度剖析

2.1 问题定义与发现

“Lost in Middle”问题是指当模型需要从长上下文中检索特定信息时，模型对位于序列开头和结尾的信息表现较好，而对位于中间位置的信息检索能力显著下降的现象。

这一发现来自Liu等人于2024年发表的论文《Lost in the Middle》。研究团队通过在长文档中插入关键问题-答案对，然后测试模型能否正确检索，发现了明显的”中间丢失”效应。

核心发现：

当关键信息位于上下文开头或结尾时，模型检索准确率可达90%+
当关键信息位于上下文中间时，检索准确率可能下降至50%以下

2.2 问题的技术成因

2.2.1 注意力机制的特性

Transformer的自注意力机制天然存在”位置偏好”：初始token会积累来自整个序列的信息，最终token同样会积累大量信息，而中间位置的信息需要经过多次跳转才能影响最终输出。

注意力权重分布示意：
开头:  ████████████████████  高
前部:  ██████████████░░░░░░  中高
中间:  ████████░░░░░░░░░░░░  低 ← Lost in Middle区域
后部:  ██████████████░░░░░░  中高
结尾:  ████████████████████  高

2.2.2 位置编码的影响

不同的位置编码方案对”中间丢失”问题有不同的影响：

旋转位置编码（RoPE）：通过旋转矩阵编码相对位置，在远程位置保持较好关系。

ALiBi：根据键-查询距离添加线性衰减，天然对远程位置赋予较低权重，可能加剧中间丢失问题。

2.3 应对策略

2.3.1 信息重排策略

将最关键的信息放在开头或结尾：

def reorder_context_for_llm(contexts: list, query: str) -> str:
    """
    根据与查询的相关性重排上下文
    最相关的放在开头或结尾，较相关的放中间
    """
    scored_contexts = []
    for ctx in contexts:
        score = calculate_relevance(ctx, query)
        scored_contexts.append((score, ctx))
    
    scored_contexts.sort(key=lambda x: x[0], reverse=True)
    
    if len(scored_contexts) >= 3:
        reordered = [scored_contexts[0][1]]
        reordered += [ctx for _, ctx in scored_contexts[1:-1]]
        reordered.append(scored_contexts[-1][1])
    else:
        reordered = [ctx for _, ctx in scored_contexts]
    
    return "\n\n---\n\n".join(reordered)

2.3.2 结构化提示工程

## 任务说明
请根据以下背景信息回答问题。只使用提供的信息。
 
## 背景信息
<context>
这里是关键背景信息...
</context>
 
## 问题
用户的问题是什么？
 
## 回答格式
请先说明你使用了哪些信息，然后给出回答。

三、位置编码与注意力衰减

3.1 位置编码的数学原理

3.1.1 旋转位置编码（RoPE）

RoPE通过旋转矩阵实现位置编码：

$f_{q} (x_{m}, m) = W_{q} \cdot R_{m, d}$

其中 $R_{m, d}$ 是旋转矩阵，使得内积编码相对位置信息。

优势：

编码相对位置而非绝对位置
在远程位置保持良好的注意力模式
计算效率高

3.1.2 ALiBi

ALiBi通过注意力分数的线性偏置实现位置感知：

$Attention_{i, j} = softmax (\frac{Q K ^{T}}{d _{k}} - ∣ i - j ∣)$

3.2 注意力衰减现象

自注意力的计算方式导致远程token之间的注意力权重天然较低。当序列很长时，每个token需要与数千个其他token竞争注意力资源，导致中间位置的token获得的注意力被稀释。

def analyze_attention_decay(attention_weights, seq_len):
    """分析注意力权重的衰减模式"""
    distances = list(range(1, seq_len))
    attentions = []
    
    for d in distances:
        diag_attentions = np.diag(attention_weights[0], k=d)
        attentions.append(np.mean(diag_attentions))
    
    return {"distances": distances, "attentions": attentions}

四、上下文窗口使用策略

4.1 窗口规划原则

组件	推荐占比	最大占比
System Prompt	5-10%	15%
Few-shot Examples	10-20%	30%
Retrieved Context	50-70%	80%
User Input	5-10%	15%
Output Reserved	15-20%	-

4.2 实战配置示例

import anthropic
 
client = anthropic.Anthropic()
 
class ContextWindowManager:
    def __init__(self, model: str = "claude-3-5-sonnet-20241022"):
        self.model = model
        self.max_tokens = 200000
        
    def estimate_tokens(self, text: str) -> int:
        """粗略估算token数"""
        chinese_chars = sum(1 for c in text if '\u4e00' <= c <= '\u9fff')
        english_words = len(text.split()) - chinese_chars
        return int(chinese_chars * 0.5 + english_words * 0.25)
    
    def compress_context(self, context: str, max_tokens: int) -> str:
        """压缩上下文"""
        sentences = context.replace('。', '。\n').split('\n')
        current_tokens = 0
        selected = []
        
        for sent in sentences:
            sent_tokens = self.estimate_tokens(sent)
            if current_tokens + sent_tokens <= max_tokens:
                selected.append(sent)
                current_tokens += sent_tokens
        
        return '\n'.join(selected)
    
    def call_with_optimized_context(
        self,
        system_prompt: str,
        user_query: str,
        retrieved_contexts: list
    ):
        """优化上下文后调用"""
        context_text = "\n\n".join(retrieved_contexts)
        
        # 优先保留开头和结尾
        if self.estimate_tokens(context_text) > 32000:
            half_size = 15000
            context_text = (
                context_text[:half_size] + 
                "\n\n...[内容已截断]...\n\n" + 
                context_text[-half_size:]
            )
        
        message = client.messages.create(
            model=self.model,
            max_tokens=4096,
            system=system_prompt,
            messages=[
                {
                    "role": "user",
                    "content": f"""## 背景信息\n{context_text}\n\n## 问题\n{user_query}"""
                }
            ]
        )
        
        return message.content

五、常见问题与解决方案

问题	原因	解决方案
模型忽略中间信息	注意力位置偏好	将关键信息放在开头或结尾
上下文被截断	内容超过窗口限制	压缩或分块处理
输出不连贯	历史信息丢失	定期总结对话历史
检索不准	语义匹配问题	使用更精确的embedding模型
成本过高	重复传递相似上下文	启用上下文缓存

六、相关主题

七、参考文献

Liu, N. F., et al. (2024). Lost in the Middle: How Language Models Use Long Contexts.
Vaswani, A., et al. (2017). Attention Is All You Need. NeurIPS.
Anthropic (2024). Claude Model Card.
Google DeepMind (2024). Gemini 1.5 Technical Report.

人工智能知识库

探索

上下文窗口深度解析

关键词速览

一、上下文窗口基础概念

1.1 什么是上下文窗口

1.2 主流模型上下文窗口对比

二、Lost in Middle问题深度剖析

2.1 问题定义与发现

2.2 问题的技术成因

2.2.1 注意力机制的特性

2.2.2 位置编码的影响

2.3 应对策略

2.3.1 信息重排策略

2.3.2 结构化提示工程

三、位置编码与注意力衰减

3.1 位置编码的数学原理

3.1.1 旋转位置编码（RoPE）

3.1.2 ALiBi

3.2 注意力衰减现象

四、上下文窗口使用策略

4.1 窗口规划原则

4.2 实战配置示例

五、常见问题与解决方案

六、相关主题

七、参考文献

关系图谱

目录

反向链接