今天
2024年06月21日 18:54,星期五 18:54
AlphaGo
R&D of OLM Instruction Fine-Tuning Models一、概览
6月6日,项目方提交了Snapshot 的 OLM 社区提案,该提案深入探讨了 OLM 指令微调模型的研究与开发(R&D)过程,包括技术进步、治理结构改进和社区参与策略等等。
二、提案核心内容
OLM Research 提案将 https://x.com/search?q=%24OLM&src=cashtag_click 总供应量的 1% 用于该项目的初始研发资金投入。
OLM Research 将通过人类反馈 (RLHF) 的监督指令调整来微调 OpenLM 模型。
大模型训练的三个阶段:Pretraining、SFT 与 RLHF。
在 SFT 阶段
该提案创建了两种数据集组合:
1. 人类数据混合(包括 FLAN V2、CoT、Dolly 和 Open Assistant 1)(排除了 SuperNI,因为 FLAN V2 包括 SuperNI 中的大多数任务)
2. 人类+GPT 数据混合,包括人类混合和三个额外的数据集,这些数据集由 OpenAI GPT模型生成,包括 GPT4-Alpaca、Code-Alpaca 和 ShareGPT等在 RLHF 阶段
RLHF 是一种模型训练过程,应用于微调的语言模型,以进一步使模型行为与人们偏好和指令遵循保持一致。验证符合优化结果的模型。该项目收集了具有代表性的几个用户偏好的数据,可以通过这些数据选择出最受喜欢的模型输出。探索了使用两种主要算法进行 RLHF 微调:
3. 直接策略优化(DPO)(Rafailov 2023)在控制产生观点的能力方面超过了基于 PPO的 RLHF,并且匹配或提高了多回合对话中的响应质量,同时实施和训练更加简单。
4. 抑制采样微调。从模型中抽取 K 个输出,并使用我们的奖励 .同样的重新排序策略LLMs 也被提出,其中奖励被看作是能量函数。在这里,更进一步,使用选定的输出进行梯度更新。对于每个提示,获取样本。项目将迭代地对的模型进行 RLHF,直到前四轮训练,只使用拒绝采样微调,之后,依次将两者结合起来,在再次采样之前在结果的拒绝采样检查点上应用 DPO。

除了技术端的改进以外,还特别提到了社区治理机制、安全机制、角色与执行的划分、决策流程等,特别是社区治理部分。

三、社区治理
激励计划
参与奖励:积极参与讨论和投票的成员可获得代B奖励。
贡献赏金:技术贡献者(如编码和审计)可获赏金。
教育计划
工作坊和网络研讨会:定期举办,教育成员了解区块链技术和治理流程。
文件资料:提供全面文件和教程,帮助成员更好理解和参与。

四、关于该提案的影响
运营效率提升:自动化和去中心化治理流程减少了管理负担,提高了决策速度和准确性。
安全性增强:多重签名钱包和完整的审计记录提升了资金管理的安全性和透明度,防止了单点故障和欺诈行为。
社区参与度提高:通过激励机制和教育计划,更多成员参与到治理和技术贡献中,增强了社区凝聚力。
模型性能改进:通过 RLHF 微调技术,模型在生成内容的情感控制和多轮对话质量方面得到了显著提升,更加符合人类偏好。
创新推动:持续的技术研究与开发推动了 OLM 在去中心化组织运营中的前沿应用,为未来的创新提供了坚实的基础。

本报告是针对提案进行的研究,非二级投*建议。
,
图片分享
图片分享