英伟达拜拜,全国产算力炼出的深度推理模型被我找到了

烂仓底的 H20 显卡压不倒自由的大模型,

真的,

现阶段唯一一个基于全国产算力训练的深度推理大模型-讯飞星火X1 又升级了。

这次是以 70B 的参数,比 DeepSeel R1 的 617B 小一个数量级的情况下,数学、逻辑推理、代码等效果对标 OpenAI o1 和 DeepSeek R1。

浅蓝色指标代表最高分

比起的之前体验感受,

这次讯飞星火更完整了。推理模型、基础模型、API、模型微调,支持网页、电脑端、手机端等等。

我很好奇现在的星火走到了哪一步,于是就有了今天这篇文章。

先来测测 X1 的模型能力吧,

🔗 xinghuo.xfyun.Cn/?ch=xh_420confer_04

测试模型的流程已经很成体系了,

我们这次就分基本对话联网搜索代码生成图片理解这四个维度衡量一下 X1 。

1. 如何理解“但丁真不会说中国话,但丁真会说中国话”

在没有开启联网能力的情况下,

X1先是被但丁真这个名字唬住了,到后面抓住了句子结构,识别出第二个但应该是转折,这样就可以区分出但丁丁真两个人了,接下来就是从时间变化、语境、双关语里选出了最可能的解析:

这是一个利用名字和连词“但”制造的文字游戏

OK,下一关

2. 用贴吧老哥的口吻锐评一下甲亢哥的中国行

甲亢哥的中国行结束不久,

大模型再快估计也没有将这次的信息收录到自己的训练数据里。从搜索结果上看,X1最终会选出六个网页综合信息,X1还帮我考虑了贴吧老哥不喜欢正面评价,过滤完了好评的城市,专注于吐槽。

接下来这个 case 算是推理模型的能力标配了,

3. 用python帮我实现一段俄罗斯方块的代码,要求游戏可以记录我的得分

编程能力没问题,该有的都有。

支持重启、暂停、计分、碰到顶端的时候能判负。

X1 也是能够支持图片理解的,

4. 这个是什么梗

X1将这个图理解成为人类在面对多个 AI 工具时的压力和无奈。有意思的是,X1将同一个机器猫的三个不同名字理解成AI模型大乱斗,

将汤姆指猫的动作解读为暗喻用户试图“关掉”或“逃离”某些AI,但发现根本停不下来(比如订阅制、依赖性)

这一幕还是挺讽刺的。。。

对我而言,星火代表的不只是一个模型,

在 MaaS 平台里还发布了 X1 的微调服务。

讯飞星辰MaaS平台🔗 training.xfyun.Cn

支持 ShareGPT、Alpaca 的数据格式。

而且这次还是可以薅 API Token 的羊毛,限时免费1个月到5月21号。

🔗 xinghuo.xfyun.Cn/sparkapi?ch=xhapi_420conf_04

无限 Tokens 看起来安全感太满了。

除了上面一大堆功能,

星火还在 APP 里上线了极简版本,

一次性满足两个需求,

极简基本只保留了对话框、深度推理和联网搜索。

当要上传个人知识库、创建智能体的时候,就可以切回专业版。

还有还有,我开始怀疑一篇文章装不下了

讯飞星辰的 Agent 开发平台支持上了 MCP。

不点开看看,

我是没想到可灵那么快被打包成 MCP Server了。

快薅快薅,

都不需要申请 API Key。


 写在最后 

可能会有人觉得讯飞很“傻”,

显卡存量很足,

短时间根本不需要全用国产算力做出来的模型。

但我要给星火鼓掌,

这是一条难走的路,

也是一条必须要走通的路,

正因为我们都对AI的未来充满信心,

才更需要像讯飞提前做好技术储备

这样当意外来临时,

我们才能

无惧风险。

@ 作者 / 卡尔 & 阿汤 @ 动手学AI知识库 / learnprompt.pro


(文:卡尔的AI沃茨)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往