200美元的ChatGPT Pro正式上线,聪明N倍的新模型草莓要来了。
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
OpenAI即将推出新的模型“草莓”,The Information的报道揭示了这一消息。与此同时,ChatGPT Pro会员服务上线,价格为200美元/月,相较于Plus会员的20美元/月价格显得异常昂贵,尤其是在目前并无新增功能或新模型的情况下。尽管如此,Pro会员提供了几乎无限的GPT-4o使用次数,而Plus会员则受到了使用限制。
草莓模型可能是基于Self-play强化学习(RL)的新范式所开发的。这种模型在数学和编码能力上有显著提升,并可能具备执行浏览器和系统操作的能力。Self-play RL是一种通过模型自我对弈来学习和进化的方法,使AI不只是重复已知数据,而是通过自我挑战和学习来理解因果关系。
GPT-5因其训练困难和模型规模的边际收益递减而面临挑战。大模型训练基本上是人类知识的极致利用,但现有的知识和方法已经达到瓶颈。大模型学习到的是相关性,而不是因果性,即它们能够告诉你两件事情经常一起发生,但不能解释为什么会这样。
Self-play RL的概念可以通过AlphaGo Zero的例子来理解,后者通过不断与自己对弈,从无知到达到围棋的最高水平,证明了自我对弈强化学习的威力。同样地,大模型结合Self-play RL可以通过自我博弈来不断进化。这种学习方式不仅关注最终结果的反馈,还能通过“思维链”对推理过程中的每一步进行评分,从而让AI学习真正的因果关系。
草莓模型的高昂成本主要源于其推理过程昂贵,这就是为什么ChatGPT Pro会员定价高昂的原因之一。草莓模型的基础是Self-play RL,它被认为是大模型合成数据的未来,并且可能对于实现通用人工智能(AGI)至关重要。预期草莓模型在数学和编程方面将有显著的能力提升,因为这些领域的结果容易验证。最终,自我对弈深化学习的概念被视为通往AGI的无障碍之路,预示着大模型技术的新爆发周期。
作者通过分析The Information的新闻和个人信息源,以及对现有大模型的局限性和Self-play RL的优势进行了细致的解释,并通俗地阐述了草莓模型所代表的技术进步和潜在的市场影响。他对未来大模型技术的发展持观望态度,并期待草莓模型的到来。
想要了解更多内容?