Position Encoding 自测题

完成以下题目检验你的理解程度

🎮 交互式自测（推荐）

🎯 综合问答题

Q6: 实战问题

假设你训练了一个 RoPE 模型，max_seq_len=512。现在需要处理 2048 长度的文本，可能会遇到什么问题？如何解决？

点击查看参考答案

可能的问题：

性能下降：
- 虽然数学上可以外推，但模型没见过这么长的序列
- 长距离的注意力模式可能不准确
旋转角度过大：
- 位置 2000 的旋转角度是训练时的 4 倍
- 高频维度可能"转太多圈"，信息丢失

解决方案：

使用 YaRN（推荐）：
python
```
# 在 MiniMind 中启用
config.inference_rope_scaling = True
```
1
2
- 动态调整旋转频率
- 让长序列的旋转更"缓和"
Position Interpolation：
python
```
# 将位置缩放到训练范围内
pos_ids = pos_ids * (512 / 2048)
```
1
2
- 简单但有效
- 相当于"压缩"位置范围
继续训练：
- 用长序列数据微调模型
- 让模型适应长距离注意力

最佳实践：

训练时尽量用大的 rope_base（如 1e6）
推理时启用 YaRN
关键场景做测试验证

Q7: 概念理解

用你自己的话解释：为什么 RoPE 的点积只依赖相对位置？

点击查看参考答案

数学直觉：

假设：

位置 m 的 Query： $q_{m} = R (m θ) \cdot q$ （旋转 mθ 角度）
位置 n 的 Key： $k_{n} = R (n θ) \cdot k$ （旋转 nθ 角度）

点积：

q_{m} \cdot k_{n} = [R (m θ) \cdot q] \cdot [R (n θ) \cdot k]

关键性质：旋转矩阵的转置等于逆旋转

= q \cdot R (- m θ) \cdot R (n θ) \cdot k

= q \cdot R ((n - m) θ) \cdot k

结论：

点积只包含 $(n - m) θ$ ，即相对距离
不包含绝对位置 $m$ 或 $n$

直觉类比：

两个人面对面站着
无论他们站在房间的哪个位置
他们之间的"相对角度"是一样的

这就是为什么：

位置 (5, 8) 和位置 (100, 103) 的注意力分数相同
模型学到的是"相隔 3 个位置"的模式

✅ 完成检查

完成所有题目后，检查你是否达到：

[ ] Q1-Q5 全对：基础知识扎实
[ ] Q6 能提出 2+ 解决方案：具备实战能力
[ ] Q7 能清晰解释数学原理：深刻理解概念

如果还有不清楚的地方，回到 teaching.md 复习，或重新运行实验代码。

🎓 进阶挑战

想要更深入理解？尝试：

修改实验代码：
- 实现一个简单的绝对位置编码
- 对比 RoPE 的长度外推能力
- 测试不同 rope_base 的效果
阅读论文：
- RoFormer 原始论文
- YaRN 长度外推
实现变体：
- 实现 ALiBi（另一种位置编码）
- 对比 RoPE vs ALiBi

下一步：前往 03. Attention 学习注意力机制！

Position Encoding 自测题

🎮 交互式自测（推荐）

为什么 Attention 需要位置编码？

RoPE 的核心思想是什么？

为什么 RoPE 使用多个不同的频率？

RoPE 应用在 Attention 的哪些部分？

RoPE 相比绝对位置编码的主要优势是什么？

🎯 综合问答题

Q6: 实战问题

Q7: 概念理解

✅ 完成检查

🎓 进阶挑战

Position Encoding 自测题 ​

🎮 交互式自测（推荐） ​

为什么 Attention 需要位置编码？

RoPE 的核心思想是什么？

为什么 RoPE 使用多个不同的频率？

RoPE 应用在 Attention 的哪些部分？

RoPE 相比绝对位置编码的主要优势是什么？

🎯 综合问答题 ​

Q6: 实战问题 ​

Q7: 概念理解 ​

✅ 完成检查 ​

🎓 进阶挑战 ​

Position Encoding 自测题

🎮 交互式自测（推荐）

🎯 综合问答题

Q6: 实战问题

Q7: 概念理解

✅ 完成检查

🎓 进阶挑战