🔧 大模型微调:SFT
Nachrichtenbereich: 🔧 Programmierung
🔗 Quelle: dev.to
做的“微调”到底是啥?
SFT 的流程是:
预训练模型(GPT-2)加载
准备(prompt → target)数据
用 Optimizer(你写的 Adam、SGD 等)训练
最小化 loss(交叉熵)
微调参数,让模型逐步“像训练数据一样说话”
它不像 RLHF 那样复杂,但它是整个 LLM 微调的“地基”。
你做的优化器对比,就是在 SFT... [Weiterlesen]