资讯
国际
分享
大模型
学术
开源
机器人
关于我们

Attention is NOT all you need！这个「去Transformer」的玩意直接把我整懵了！

2025年3月25日16时作者 AGI Hunt

大家好！就在今天早上

我刚翻开社交媒体

就瞅见一条震撼科技圈的消息：

有开发者用区区8块GPU，就训练出

一个完全不用Transformer注意力的

72B大模型，性能竟超越GPT 3.5？！

往下瞅，发现这是PicoCreator团队

宣布发布的Qwerky-72B模型

他们不仅训练了72B版，还有32B版

这可不是小打小闹玩儿过家家

而是动了真格的

直接向「注意力是万能的」宗派宣战

还被开发者称为

「迄今为止最大的非Transformer注意力架构模型」

两个大模型在多项评测中不仅

完全不输同尺寸transformer

在某些测试中甚至胜出一筹！

先来看看他们的战绩到底咋样：

在ARC挑战赛上，Qwerky-72B达到63.82%

比Qwen2.5-72B-Instruct的63.23%还高

在Winogrande上，差距更明显：

Qwerky拿下79.56%，而Qwen只有76.32%

这分数可不是随便挑个软柿子来捏的

可都是AI理解力和推理能力的硬指标啊

这是怎么一回事呢？

他们到底用了什么黑科技？

原来，这个模型用了RWKV架构

不同于目前AI界的主流架构Transformer

它的计算复杂度不是平方级增长的

而是线性增长，也就是说

模型处理长文本时不像传统模型

又费算力又吃显存，效率高多了！

我寻思，这发现可不得了啊

来瞧瞧他们是咋做到的

（文：AGI Hunt）

分类分享标签 FFN/MLP架构、 Qwerky-72B、 RWKV架构、多语言处理、数据独立性、计算效率

独家！阿里云开启最大规模AI人才校招

Qwen2.5-VL-32B 更小更聪明！与grok、gemini同台打造“治愈老奶奶”，谁更强？

发表评论取消回复

评论

名称电子邮箱地址网站地址

在此浏览器中保存我的显示名称、邮箱地址和网站地址，以便下次评论时使用。

Δ

搜索

AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Meta OpenAI Python Sam Altman 人工智能人形机器人具身智能多模态大型语言模型大模型大语言模型字节跳动工业机器人开源强化学习微软扩散模型技术创新智能体木易机器学习深度学习清华大学生成式AI 用户体验百度腾讯自然语言处理英伟达谷歌阿里云阿里巴巴马斯克

分类

分享
国际
大模型
学术
开源
机器人
资讯

快讯炒菜机器人“入局”万亿中餐市场，中科新松发布睿可人形机器人，坤达移动储能机器人亮相，A-robot获约100亿韩元A轮投资
毅达资本领投！柔性智造领军人「增广智能」完成近亿元人民币规模融资！
爆火、融资、裁员，Manus在新加坡“重新”出发
「0天复刻Manus」的背后，这名95后技术人坚信：“通用Agent一定存在，Agent也有Scaling Law”| 万有引力
合作邀约与优秀案例征集启动2025 世界机器人大会——仿生机器人产业链技术与应用对接会

2025 年 7 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

« 6 月

归档

2025 年 7 月
2025 年 6 月
2025 年 5 月
2025 年 4 月
2025 年 3 月
2025 年 2 月
2025 年 1 月
2024 年 12 月
2024 年 11 月

AI新闻 | X平台｜ APK反编译｜京ICP备2024096144号｜

© 2025 每时AI • Built with GeneratePress

下载我们的APP，AI秒送达！立即下载

×