200美元的ChatGPT Pro正式上线，聪明N倍的新模型草莓要来了。

489 2024-10-11

模型 AI 草莓 playRL AlphaGoZero

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：200美元的ChatGPT Pro正式上线，聪明N倍的新模型草莓要来了。

文章来源：

数字生命卡兹克

扫码关注公众号

OpenAI即将推出新的模型“草莓”，The Information的报道揭示了这一消息。与此同时，ChatGPT Pro会员服务上线，价格为200美元/月，相较于Plus会员的20美元/月价格显得异常昂贵，尤其是在目前并无新增功能或新模型的情况下。尽管如此，Pro会员提供了几乎无限的GPT-4o使用次数，而Plus会员则受到了使用限制。

草莓模型可能是基于Self-play强化学习（RL）的新范式所开发的。这种模型在数学和编码能力上有显著提升，并可能具备执行浏览器和系统操作的能力。Self-play RL是一种通过模型自我对弈来学习和进化的方法，使AI不只是重复已知数据，而是通过自我挑战和学习来理解因果关系。

GPT-5因其训练困难和模型规模的边际收益递减而面临挑战。大模型训练基本上是人类知识的极致利用，但现有的知识和方法已经达到瓶颈。大模型学习到的是相关性，而不是因果性，即它们能够告诉你两件事情经常一起发生，但不能解释为什么会这样。

Self-play RL的概念可以通过AlphaGo Zero的例子来理解，后者通过不断与自己对弈，从无知到达到围棋的最高水平，证明了自我对弈强化学习的威力。同样地，大模型结合Self-play RL可以通过自我博弈来不断进化。这种学习方式不仅关注最终结果的反馈，还能通过“思维链”对推理过程中的每一步进行评分，从而让AI学习真正的因果关系。

草莓模型的高昂成本主要源于其推理过程昂贵，这就是为什么ChatGPT Pro会员定价高昂的原因之一。草莓模型的基础是Self-play RL，它被认为是大模型合成数据的未来，并且可能对于实现通用人工智能（AGI）至关重要。预期草莓模型在数学和编程方面将有显著的能力提升，因为这些领域的结果容易验证。最终，自我对弈深化学习的概念被视为通往AGI的无障碍之路，预示着大模型技术的新爆发周期。

作者通过分析The Information的新闻和个人信息源，以及对现有大模型的局限性和Self-play RL的优势进行了细致的解释，并通俗地阐述了草莓模型所代表的技术进步和潜在的市场影响。他对未来大模型技术的发展持观望态度，并期待草莓模型的到来。

想要了解更多内容？

查看原文：200美元的ChatGPT Pro正式上线，聪明N倍的新模型草莓要来了。

文章来源：

数字生命卡兹克

扫码关注公众号