Lädt...

🔧 大模型微调:SFT


Nachrichtenbereich: 🔧 Programmierung
🔗 Quelle: dev.to

做的“微调”到底是啥?


SFT 的流程是:


预训练模型(GPT-2)加载
准备(prompt → target)数据
用 Optimizer(你写的 Adam、SGD 等)训练
最小化 loss(交叉熵)
微调参数,让模型逐步“像训练数据一样说话”


它不像 RLHF 那样复杂,但它是整个 LLM 微调的“地基”。

你做的优化器对比,就是在 SFT... [Weiterlesen]