GPT-4.1 偷摸开测?神秘模型登顶编程榜,社区细扒指向 OpenAI,网友:营销鬼才又来了!

整理 | 华卫、核子可乐

近日,一款名为“Quasar Alpha”、不知来源的神秘 AI 模型悄然上线,并迅速成为第三方平台 OpenRouter(一个提供统一接口访问多种 AI 语言模型的服务平台)上使用率排名第一的计算机编程类 AI 模型(基于连续数天的 token 消费量),甚至被评价“比现在出现的任何模型都要好”。更令人惊讶的是,多位模型体验者及业内研究人员从种种技术细节中发现,Quasar Alpha 很可能是 OpenAI 的新版本模型。

体验地址:https://www.quasar-alpha.org/

据了解,Quasar Alpha 在几天前被推出,其拥有 100 万 token 上下文窗口、能处理超长文本和复杂文档,代码生成能力出色、指令遵循能力强,支持联网功能和多模态功能,且完全免费提供使用。并且,在 Quasar Alpha 在 AI 社区引发热烈讨论后,另一款神秘模型 Optimus Alpha 又在昨日被推出,同样是免费开放的,再度点燃大家的关注热情。

目前所公开的信息

根据公开的项目公告,Quasar Alpha 是一个向社区提供的经过伪装处理的通用模型,目的是收集反馈意见。该模型的所有提示和生成内容都会由提供者记录下来,且可能会被用于改进该模型。

项目地址:https://openrouter.ai/openrouter/quasar-alpha

Quasar Alpha 的最大亮点在于其超长的上下文处理能力。100 万 token 的上下文长度意味着该模型能够一次性处理相当于数百页文档的信息量,这一特性使其在长序列任务中具备显著优势,尤其是在需要深度理解和复杂推理的场景中。

并且,该模型专门针对编码任务进行了优化,能够高效生成高质量代码,但其设计初衷仍定位于通用型 AI 工具,适用于从文本生成到数据分析的多样化应用。这种兼顾专业性与广泛性的设计,正在让 Quasar Alpha 在众多 AI 模型中脱颖而出,各类用例持续激增。

从概览页面来看,该模型正在迅速获得关注,目前已经在五大用例类别中挺进前十。根据 OpenRouter 提供的统计数据,调用 Quasar Alpha 的知名应用包括 Roo Code 与 Cline 等,二者均为依托 AI 编码的开源 VS Code 扩展,这也表明 Quasar Alpha 算是一款稳定可靠的模型。

另一款神秘模型 Optimus Alpha 同样具有 100 万 token 上下文窗口和表现卓越的编码能力。不同的是,Optimus Alpha 针对通用任务进行了优化,适用于现实世界中的各种应用场景。并且,Optimus Alpha 目前也获得多个知名应用的调用。

项目地址:https://openrouter.ai/openrouter/optimus-alpha

值得注意的是,Optimus Alpha 为 300 多家模型及供应商提供了一个与 OpenAI 兼容的补全 API,用户可以直接调用它,也可以使用 OpenAI 软件开发工具包来调用。此外,还有一些第三方软件开发工具包可供使用。

种种线索将来源指向 OpenAI

然而,Quasar Alpha 和 Optimus Alpha 的神秘性也引发了 AI 社区的一些疑问。其具体来源至今未明,有人猜测它可能是某大型科技公司(如 OpenAI 或 Google)的实验性项目,甚至可能是下一代旗舰模型的测试版。

X 用户 paradite_ 注意到,Quasar Alpha 的风格与 OpenAI 目前的顶级模型 GPT-4o 非常相似,这让人不禁怀疑 Quasar Alpha 是否出自 OpenAI,只是换了个名字而已。

并且,有许多关于 Quasar Alpha 或出自 OpenAI 之手的其他技术细节被一一披露出来,具体如下:

  • Quasar Alpha 的工具调用 ID 格式与 OpenAI 格式一致,这款新模型还在消息对象中支持“name”字段,该字段由 chat completion API 范式提供。目前只有两家 AI 提供商支持“name”字段,分别为 xAI 与 OpenAI。

  • 在生成细节中发现的 upstream ID 与 OpenAI 生成 ID 相同。

  • 存在一些与 OpenAI 高度相似的层次聚类模式。

X 用户 Pallav Agarwal 发布的一张与 Quasar Alpha 聊天的截图,也进一步显示出 Quasar Alpha 与 OpenAI 之间的关联。

为了进一步探究,AI 研究员 Sam Paech 针对模型输出结果,运用了被称为 PHYLIP 简约法(PHYLIP pars)的生物信息学聚类工具。这种方法通过找出模型回复内容中的细微差异,来检验各个模型之间的关联。与常规聚类方法不同,PHYLIP 简约法旨在寻找出最为简洁的模型谱系树。Paech 发现,Quasar Alpha 与 OpenAI 的模型极为相近,尤其是与 GPT 4.5 预览版,并且与其他模型存在显著差异。

另值得一提的是,据外媒昨日报道,OpenAI 将推出一系列全新 AI 模型,其中包括作为 GPT-4o 升级本的 GPT-4.1,同时还将推出出更轻量级的 GPT-4.1 mini 和 nano 版本,以满足不同应用场景的需求。

所有这些线索似乎都强烈表明:Quasar Alpha 归 OpenAI 所有,又或者有人正在极力模仿 OpenAI 的 API 设计。有不少网友猜测道,“ Quasar Alpha 可能是 GPT-4.1,而 Optimus Alpha 是 GPT-4.1 mini。”还有人甚至猜测,其神秘面纱背后隐藏的可能是 OpenAI 的 o4-mini-low 模型,“营销鬼才这是又想出新招来了”。

而就在今天,OpenAI 的 CEO Sam Altman 也公开称赞了 Quasar Alpha 模型,称其是“非常明亮的事物”。

至于为何 AI 实验室会选择在没有大规模宣传的情况下秘密推出一款模型,有观点认为,在不炒作的情况下于现实环境中进行测试,能够收集到开发者真实的反馈意见,同时保持低调可以减轻满足过高期望所带来的压力。秘密发布还能够促使这款模型与市场上的其他模型进行更为公平、客观的比较,而不会受到营销宣传言论的干扰。

此外,Quasar Alpha 的“隐秘”(Stealth)标签和预发布状态也让外界对其成熟度和稳定性存有好奇。专家指出,尽管 Quasar Alpha 在编码和长上下文任务中表现优异,但在其他通用场景下的全面性能仍需进一步验证。

性能超越任何现有模型?

目前的用户反馈显示,Quasar Alpha 表现出很强的能力,尤其是在编程和遵循指令方面。

据开源 AI 配对编程工具创建者 AiderPaul Gauthier 称,Quasar Alpha 运行起来似乎非常快,在 Aider 多语言编码基准测试中取得了 55% 的成绩,可与 o3 – mini – medium、DeepSeek V3 以及 Claude 3.5 Sonnet 相抗衡。

X 用户 paradite_ 在体验 Quasar Alpha 后表示,该模型在遵循指令方面比 Claude 3.5 Sonnet 和 Gemini 2.5 Pro 出色得多,并评价:“就我默认的编码测试提示而言,它给出了我目前为止所见过的最佳输出结果。 ”

对于关注 AI 领域的从业者与创业者来说,“谁是最强大语言模型”无疑是个值得探究的重要问题。一位模型体验者 Austin Starks 对 Optimus Alpha 和 Quaser Alpha 在进行一段时间的手动测试后称,对于复杂的 SQL 查询生成任务,OpenRouter 打造的这两款隐秘模型在 PURE 性能和准确率方面无疑是当今市面上最强大的选项。

从公布的数据来看,Optimus Alpha 和 Quasar Alpha 不单是完全可用,甚至远远超越了其他老牌经典模型。Optimus Alpha 的平均得分达到了 0.83,而 Claude 3.7 Sonnet 的平均得分仅为 0.66。至于 Gemini 2.0 Flash 和 Grok 3,它们的得分分别只有 0.717 和 0.747。此外,二者的其他指标,如成功率(即模型是否执行完成)亦位居榜首。更要命的是,这两款模型还完全免费。


各领先AI模型在SQL查询生成方面的性能比较

具体来讲,他在测试中尝试使用大模型处理股市变化的复杂性和噪音。图中所示,为如何使用大模型回答“在市值超过 200 亿美元的企业股票中,哪些股票的 RSI 指标最低?”等问题。其具体实现流程为:由大模型将自然语言问题转换为数据库查询;对数据库执行查询;由另一大模型对输出进行“评分”并确保结果合理;不断生成查询,直到结果准确无误。

为了评估各模型,他使用了开源 EvaluateGPT 进行测试,通过一组共 40 道金融问题可以看到各模型的平均处理性能,结果则完全出乎意料。在这项任务中,Quaser Alpha 和 Optimus Alpha 模型的表现远远优于其他所有模型,Optimus Alpha 亦成为响应速度最快的模型之一。

在成本方面,Quaser Alpha 和 Optimus Alpha 的输入和输出均免费,而成本第二低的是 Gemini 2.0 Flash,每百万输入 token 的成本为 0.10 美元,每百万输出 token 的成本为 0.40 美元。

Starks 认为,相较于还在按 token 收费的竞争对手,这些“世外高手”般的模型却正在重新定义零成本的可能性。虽然后续情况很可能发生变化,但这些不受限的模型当前确实可以随意使用。

(文:AI前线)

欢迎分享

发表评论