谷歌:开启Test-Time端新的Scaling Law,小模型性能可超比它大14倍的模型

谷歌DeepMind研究发现,在相同计算资源下,小模型性能可超比它大14倍的模型,研究团队探究大模型推理时计算优化方法,发现预训练少用计算资源、推理时多用的策略可能更好。

他们研究了两种扩展测试时计算的机制:一是基于PRM搜索,它能在生成答案过程中评分以调整搜索策略;二是根据prompt自适应更新模型响应分布,有并行采样与顺序修订两种方式。团队提出“计算最优”扩展策略,按prompt难度分配测试时计算资源,分五个难度等级并为每个等级选最佳策略。研究表明不同方法有效性依赖prompt难度,还比较了不同策略下模型表现,如计算最优扩展与best – of – N方法、不同模型间的比较等,发现当前测试时计算扩展方法虽不能完全替代预训练扩展,但在某些情况有优势。研究被网友发布后引发热议,因外媒爆料OpenAI草莓模型将发布且推理能力大幅提高、回答前会“思考”,有网友认为谷歌的研究解释了草莓的推理方法。

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
有新私信 私信列表
搜索

亲爱的同学, AISCK不支持网页右键喔!

你可以鼠标左键选择内容后,按Ctrl+C复制

嗨! 我是AI助手Ceres