Openai Strawberry 200美金「Openai草莓」用Self-play RL克服Scaling Law困局时会不会威胁人类？ - Bate-papo jovemGpt-4 & Conta compartilhada Chatgpt Plus A conta Chatgpt 3.5 é de uso gratuito- Compra compartilhada de ID Apple，Douyin versão internacional tutorial de operação tiktok-compartilhamento de experiência de comércio eletrônico transfronteiriço-Young ChatGpt-4 & Conta compartilhada Chatgpt Plus A conta Chatgpt 3.5 é de uso gratuito- Compra compartilhada de ID Apple，Douyin versão internacional tutorial de operação tiktok - compartilhamento de experiência de comércio eletrônico transfronteiriço

Openai Strawberry 200美金「中文就是Openai草莓」用Self-play RL克服Scaling Law困局时会不会威胁人类？

据科技媒体 The Information 最新报道，两位测试过该模型的人士表示 OpenAI 计划在未来两周内发布「草莓」（Openai Strawberry）新型推理人工智能模型，作为其 Bate-papoGPT 服务的一部分，比此前预计的秋季时间要早。当然，这个时间也不绝对准确，可能随时发生变化。今年3月曝光的一份文件显示，OpenAI计划在2027年以前，开发出人类水平的AGI。OpenAI 2022年就开始训练一个125万亿参数的多模态模型，该模型名为Arrakis或Q*，原本计划在2025年作为GPT-5发布，但因推理成本高而取消。OpenAI此后计划是2027年发布的Q 2025（GPT-8）将实现完全的AGI。而知名爆料人Jimmy Apples的说法是一个模型（可能被称为GPT-4.5）预计会在十月发布。同时，GPT-5很可能会在12月发布，但保险起见，说2025年第一或第二季度发布比较稳妥。

Strawberry, OpenAI’s reasoning-focused artifcial inteligence, is coming sooner thanwe thought.

Openai Strawberry（Openai草莓），OpenAI的以推理为中心的人工智能，来得比我们想象的要早。

科技界在热切期待着ChatGPT 的下一次迭代，各种OpenAI 新 AI 模型猜测也迅速网传出来。值得一提是虽然「草莓」主要作为 ChatGPT 的一部分发布，但本质上还是一个独立的产品。目前具体如何提供尚不清楚。「草莓」跟其他模型的最大区别是啥呢？答案是，更智能，但更慢、更贵。在定价方面，上周曾有消息称ChatGPT Plus当前付费价格是每月20美元，但OpenAI考虑将「草莓」和被外界誉为“ChatGPT 5”的「猎户座」（Orion）等全新大模型拟定在月付2000美元，等于定价提升100倍。有分析认为OpenAI能考虑如此高的价格跨度主要是因为缺钱、新产品足够强以及手握数亿用户。目前收费疑似200美元/月的定价，最大特色就是比其他模型多思考10到20秒。The Information还预测，目前为ChatGPT付费（每月20美元）的客户会比免费用户更早访问首个草莓模型。7

「Openai草莓」项目此前名为Q*，OpenAI的发言人在一份声明中表示：“我们希望自身AI 模型能够像我们（人类）一样看待和理解世界。持续研究新的AI能力是业界的常见做法，大家都相信这些系统的推理能力会随着时间的推移而提高。

克服Scaling Law困局

Openai草莓模型通过采用Self-play RL（自博弈强化学习）方法可在一定程度上克服Scaling Law（缩放定律）的困局。具体说明如下：

1、提升推理能力：Self-play RL让AI在自我对弈的过程中不断探索和学习，这种学习方式有助于AI理解问题的本质和推理过程而不仅是记忆数据，从而提升其推理能力。这对突破单纯依赖数据量和算力堆叠的Scaling Law困局具有重要意义。

2、高效利用数据：通过自博弈生成的数据质量高且丰富多样，可有助于AI在不需要大量外部数据的情况下提升性能，从而缓解“数据荒”问题。

3、优化模型性能：在自博弈过程中，AI会根据反馈不断优化策略，这种动态优化过程有助模型在推理任务上表现更好，而不仅依赖于静态的数据集和参数调整。

值得注意的是虽然Self-play RL为克服Scaling Law困局提供新的思路，但不意味它能完全替代传统Scaling Law方法。在实际应用中，两者可能会结合使用，以实现更好的性能提升和成本效益。

如今各家都走到同一路径——Self-play RL来打破瓶颈。Claude 3.5就是基于Self-play RL做出的，因此代码能力强到突出。而我们都知道草莓有一个重要作用是给下一代大模型合成数据，前提是它同样是基于新范式Self-play做出的。很多LLM的弱点就在推理能力上，而有些初创公司为提高它们的推理能力采用一种廉价技巧将问题分解为更小步骤，尽管这些方法速度慢且成本高昂。在草莓中，我们也看到类似思路。用Self-play RL去验证，自然就能让草莓的数学和代码能力上飞速暴涨。同样，付出的代价是极高的推理成本，导致它又贵、又慢。但得到的结果是极高的智能，或许启发我们通往AGI的路线就靠草莓这种思路。

说起「草莓之父」，其实是已离职的OpenAI的首席科学家Ilya Sutskever。在Ilya离职前，OpenAI的研究人员Jakub Pachocki和Szymon Sidor，在Ilya的工作基础上开发了一个新的数学求解模型Q*。据称Q*解决此前从未见过的数学题。Ilya做出使OpenAI不再受限获取足够高质量数据来训练新模型，正是开发下代模型的主要障碍。在去年Q*的前期准备中，OpenAI研究人员开发了一种被称为「测试时计算」的概念变体，目的是提升LLM的问题解决能力。这样，LLM就会花更多时间考虑被要求执行的命令，或问题的各个部分。当时，Ilya发表一篇与这项工作相关的博客，展示出模型如何解决数个极有难度的数学问题。