Openai Strawberry 200美金「Openai草莓」用Self-play RL克服Scaling Law困局时会不会威胁人类?

Openai Strawberry 200美金「中文就是Openai草莓」用Self-play RL克服Scaling Law困局时会不会威胁人类?

据科技媒体 The Information 最新报道两位测试过该模型的人士表示 ОпенАИ 计划在未来两周内发布 「草莓」(Openai Strawberry)新型推理人工智能模型作为其 ЧатGPT 服务的一部分比此前预计的秋季时间要早当然这个时间也不绝对准确可能随时发生变化今年3月曝光的一份文件显示ОпенАИ计划在2027年以前开发出人类水平的AGIOpenAI 2022年就开始训练一个125万亿参数的多模态模型该模型名为Arrakis或Q*原本计划在2025年作为GPT-5发布但因推理成本高而取消OpenAI此后计划是2027年发布的Q 2025(GPT-8)将实现完全的AGI而知名爆料人Jimmy Apples的说法是一个模型(可能被称为GPT-4.5)预计会在十月发布同时GPT-5很可能会在12月发布但保险起见说2025年第一或第二季度发布比较稳妥

Strawberry, OpenAI’s reasoning-focused artifcial inteligence, is coming sooner thanwe thought.

Openai StrawberryOpenai草莓ОпенАИ的以推理为中心的人工智能来得比我们想象的要早

科技界在热切期待着ChatGPT 的下一次迭代各种OpenAI 新 AI 模型猜测也迅速网传出来值得一提是虽然 「草莓」 主要作为 ChatGPT 的一部分发布但本质上还是一个独立的产品目前具体如何提供尚不清楚「草莓」跟其他模型的最大区别是啥呢?答案是更智能但更慢更贵在定价方面上周曾有消息称ChatGPT Plus当前付费价格是每月20美元但OpenAI考虑将「草莓」和被外界誉为“ChatGPT 5”的「猎户座」(Orion)等全新大模型拟定在月付2000美元等于定价提升100倍有分析认为OpenAI能考虑如此高的价格跨度主要是因为缺钱新产品足够强以及手握数亿用户目前收费疑似200美元/月的定价最大特色就是比其他模型多思考10到20秒The Information还预测目前为ChatGPT付费(每月20美元)的客户会比免费用户更早访问首个草莓模型。7

 

Openai草莓」项目此前名为Q*OpenAI的发言人在一份声明中表示“我们希望自身AI 模型能够像我们(人类)一样看待和理解世界持续研究新的AI能力是业界的常见做法大家都相信这些系统的推理能力会随着时间的推移而提高

克服Scaling Law困局

 

Openai草莓模型通过采用Self-play RL(自博弈强化学习)方法可在一定程度上克服Scaling Law(缩放定律)的困局具体说明如下

1、提升推理能力Self-play RL让AI在自我对弈的过程中不断探索和学习这种学习方式有助于AI理解问题的本质和推理过程而不仅是记忆数据从而提升其推理能力这对突破单纯依赖数据量和算力堆叠的Scaling Law困局具有重要意义

2、高效利用数据通过自博弈生成的数据质量高且丰富多样可有助于AI在不需要大量外部数据的情况下提升性能从而缓解“数据荒”问题

3、优化模型性能在自博弈过程中AI会根据反馈不断优化策略这种动态优化过程有助模型在推理任务上表现更好而不仅依赖于静态的数据集和参数调整

值得注意的是虽然Self-play RL为克服Scaling Law困局提供新的思路但不意味它能完全替代传统Scaling Law方法在实际应用中两者可能会结合使用以实现更好的性能提升和成本效益

如今各家都走到同一路径——Self-play RL来打破瓶颈Claude 3.5就是基于Self-play RL做出的因此代码能力强到突出而我们都知道草莓有一个重要作用是给下一代大模型合成数据前提是它同样是基于新范式Self-play做出的很多LLM的弱点就在推理能力上而有些初创公司为提高它们的推理能力采用一种廉价技巧将问题分解为更小步骤尽管这些方法速度慢且成本高昂在草莓中我们也看到类似思路用Self-play RL去验证自然就能让草莓的数学和代码能力上飞速暴涨同样付出的代价是极高的推理成本导致它又贵又慢但得到的结果是极高的智能或许启发我们通往AGI的路线就靠草莓这种思路

 

说起「草莓之父」其实是已离职的OpenAI的首席科学家Ilya Sutskever在Ilya离职前OpenAI的研究人员Jakub Pachocki和Szymon Sidor在Ilya的工作基础上开发了一个新的数学求解模型Q*据称Q*解决此前从未见过的数学题Ilya做出使OpenAI不再受限获取足够高质量数据来训练新模型正是开发下代模型的主要障碍在去年Q*的前期准备中OpenAI研究人员开发了一种被称为「测试时计算」的概念变体目的是提升LLM的问题解决能力这样LLM就会花更多时间考虑被要求执行的命令或问题的各个部分当时Ilya发表一篇与这项工作相关的博客展示出模型如何解决数个极有难度的数学问题

 

谷歌DeepMind论文揭示「草莓」方法

 

我们还发现Menlo风投负责人前谷歌搜索工程师Debarghya Das发推Google DeepMind在最近一篇论文中提出的方法可能就是OpenAI在Strawberry上用的

Openai Strawberry 200美金「Openai草莓」用Self-play RL克服Scaling Law困局时会不会威胁人类?

Openai Strawberry 200美金「Openai草莓」用Self-play RL克服Scaling Law困局时会不会威胁人类?

论文提出让LLM进行更多「测试时计算」(test-time computation)对构建能在开放语境下操作能实现自我提升的agent是关键一步这篇论文重点研究扩展「推理期计算」(inference-time computation)这个问题如果允许LLM使用固定但非平凡量的推理期计算它在应对具有挑战性的提示词时可以有多少性能提升?这个问题不仅影响LLM的可实现性能还关系LLM预训练未来及如何在推理计算和预训练计算之间进行权衡研究团队为此分析扩展测试时计算的两种主要机制

  • 针对密集的基于过程的验证器奖励模型进行搜索(2)根据测试时得到的提示词自适应更新模型对响应的分布
    结果显示以上两种情况对测试时计算的不同扩展方法的有效性在很大程度上取决于提示词的难度
Openai Strawberry 200美金「Openai草莓」用Self-play RL克服Scaling Law困局时会不会威胁人类?

Openai Strawberry 200美金「Openai草莓」用Self-play RL克服Scaling Law困局时会不会威胁人类?

研究团队基于此提出一种「计算最优」扩展策略——通过为每个提示词自适应地分配测试时计算使测试时计算的扩展效率提高4倍以上另外在FLOPs一致的评估中对于那些较小的基础模型已取得一定程度非平凡成功率的问题测试时计算可以使其超越规模大14倍的模型

Openai Strawberry 200美金「Openai草莓」用Self-play RL克服Scaling Law困局时会不会威胁人类?

Openai Strawberry 200美金「Openai草莓」用Self-play RL克服Scaling Law困局时会不会威胁人类?

Openai Strawberry 200美金「Openai草莓」用Self-play RL克服Scaling Law困局时会不会威胁人类?

Openai Strawberry 200美金「Openai草莓」用Self-play RL克服Scaling Law困局时会不会威胁人类?

但网友们对这一猜测并不认可Topology首席执行官Aidan McLaughlin表示谷歌DeepMind探讨的是最佳N采样和蒙特卡洛树搜索(MCTS)而「草莓」可能会是一个具有特殊token(回溯规划等)的深度混合模型它可能会通过人类数据标注者和来自易于验证领域(如数学/编程)的强化学习进行训练

Openai Strawberry 200美金「Openai草莓」用Self-play RL克服Scaling Law困局时会不会威胁人类?

Openai Strawberry 200美金「Openai草莓」用Self-play RL克服Scaling Law困局时会不会威胁人类?

我们还发现有另一位网友提出“「草莓」不是一个神经符号模型吗?”

Openai Strawberry 200美金「Openai草莓」用Self-play RL克服Scaling Law困局时会不会威胁人类?

Openai Strawberry 200美金「Openai草莓」用Self-play RL克服Scaling Law困局时会不会威胁人类?

 

Deedy对此的解释是根据网上信息和传闻『草莓』将通过在响应空间中使用搜索技术改进推理其推理时间计算为10到20秒这正是这项研究所解释的内容

Openai Strawberry 200美金「Openai草莓」用Self-play RL克服Scaling Law困局时会不会威胁人类?

Openai Strawberry 200美金「Openai草莓」用Self-play RL克服Scaling Law困局时会不会威胁人类?

「草莓」会威胁人类?

 

2023年11月媒体称OpenAI代号Q*的项目实现重大突破让人类实现通用人工智能(AGI)的步伐大大提速但OpenAI CEO 奥特曼可能没有和董事会详细披露Q*的进展OpenAI的内部人士向董事会致信警告Q*的重大发现可能威胁全人类人工智能(AI)研究者早就在争论用什么标准判断人类实现了通用人工智能(AGI)OpenAI最近开发一套系统“自定义”AI进化等级以此追踪开发人类级别AI的进展美东时间7月11日OpenAI的发言人称OpenAI在7月9日的公司全体会议上与员工分享了新的分类系统计划与投资者和公司外部人士分享这些等级的信息OpenAI的系统划分五个AI水平按一到五的数字由低到高排列等级OpenAI的高管告诉员工公司认为目前自身产品处于第一级但即将达到第二级也就是可以完成基本问题解决任务的系统类似于拥有博士学位但无法使用任何工具的人。7月11日OpenAI的发言人表示OpenAI一直在内部测试新功能这是业内的常见做法对于OpenAI开发AI分级系统的消息有网友表示担心AI超越人类可能带来的风险不知道那对经济和就业有何影响?

 

目前并没有草莓模型会威胁人类的确切证据任何其他类型的模型算法和人工智能技术都是人类为了解决特定问题而创造的工具然而这些技术的应用方式和目的以及我们如何管理和控制它们可能会对人类产生积极或消极的影响以下是一些关于AI和模型(如草莓模型)可能对人类产生影响的方面

1. 就业影响自动化和AI可能会导致某些工作岗位消失尤其是那些重复性低技能的工作这可能会导致失业和经济不平等问题

2. 隐私和安全AI和数据分析可能会侵犯个人隐私尤其是当数据被不当使用或遭到黑客攻击时

3. 决策偏见如果AI模型在训练时使用有偏见的数据那么它的决策也可能带有偏见这可能会导致不公平和歧视

4. 道德和伦理问题在某些情况下AI的决策可能会涉及生命和死亡的问题例如在自动驾驶汽车中我们该如何确保AI在这种情况下做出正确的决策?

5. 超级智能风险虽然目前还远未实现但有些专家担心如果未来出现比人类更聪明的AI它可能会追求与人类利益不一致的目标

6. 依赖性增加随着对AI的依赖增加我们可能会失去某些技能例如导航能力因为我们过于依赖GPS

「草莓」模型或其他任何AI技术其本身并不是威胁真正的威胁来自于我们如何使用管理和控制这些技术为确保AI的正面影响并减少潜在负面影响我们需要制定明智的政策法规和伦理准则并持续进行公众教育「草莓」模型通过引入Self-play RL的方法有望在一定程度上克服Scaling Law的困局推动AI技术的发展

© 版权声明
THE END
喜欢就支持一下吧
Нравиться153 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

Отмена
昵称表情代码图片

    暂无评论内容