30分钟快速体验
通过 3 个关键实验理解核心设计选择
开始体验
核心问题: 为什么需要归一化?Pre-LN vs Post-LN? 时长: 1小时 | 状态: ✅ 完成
核心问题: 为什么选择 RoPE?如何实现长度外推? 时长: 1.5小时 | 状态: ✅ 完成
核心问题: QKV 的直觉是什么?为什么需要多头? 时长: 2小时 | 状态: ✅ 完成
核心问题: FFN 存储了什么知识?为什么需要扩张? 时长: 1小时 | 状态: ✅ 完成
git clone https://github.com/joyehuang/minimind-notes.git
cd minimind-notes
source venv/bin/activate# 实验: 为什么需要归一化?
cd modules/01-foundation/01-normalization/experiments
python exp1_gradient_vanishing.py
# 你会看到:
# ❌ 无归一化: 梯度消失
# ✅ 有 RMSNorm: 梯度稳定# 理解背后的原理
cat modules/01-foundation/01-normalization/teaching.md🎯 原理优先,而非命令复制
不是告诉你"运行这个命令就能训练模型",而是让你理解"为什么要这样设计"
🔬 对照实验验证
每个设计选择都通过实验回答两个问题:
💻 可在普通笔记本运行
所有实验基于 TinyShakespeare (1MB) 或 TinyStories (10-50MB) 无需 GPU,每个实验 < 10 分钟