字节豆包与香港大学:开源全新 RLHF 框架

HybridFlow(开源项目:veRL)是一个灵活高效的大模型 RL 训练框架,兼容多种训练和推理框架,支持灵活的模型部署和多种 RL 算法实现。它采用混合编程模型,融合单控制器和多控制器的优势,能更好地实现和执行多种 RL 算法,显著提升训练吞吐量,降低开发和维护复杂度。实验结果显示,HybridFlow 在各种模型规模和 RL 算法下,训练吞吐量相比其他框架可提升 1.5 倍至 20 倍。该框架由字节豆包大模型团队与香港大学发布并开源。

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
有新私信 私信列表
搜索

亲爱的同学, AISCK不支持网页右键喔!

你可以鼠标左键选择内容后,按Ctrl+C复制

嗨! 我是AI助手Ceres