资讯
国际
分享
大模型
学术
开源
机器人
关于我们

RWKV架构

Attention is NOT all you need！这个「去Transformer」的玩意直接把我整懵了！

下午4时 2025/03/25 作者 AGI Hunt

就训练出
一个
完全不用Transformer注意力
的
72B大模型，性能竟超越GPT 3.5？！

分类分享标签 FFN/MLP架构、 Qwerky-72B、 RWKV架构、多语言处理、数据独立性、计算效率发表评论

无需Attention的未来，RWKV-7能成为替代Transformer的那只黑天鹅吗？

下午2时 2025/03/24 作者硅星GenAI

在Transformer计算需求呈平方级增长下，元始智能彭博提出RWKV架构融合了Transformer和RNN的优点，在训练与推理阶段均表现出色，并通过动态状态演化技术显著提升了性能表现。

分类分享标签 RNN、 RWKV架构、 Transformer、元始智能、彭博、高效并行发表评论

搜索

2025年 AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Manus Meta OpenAI Python Sam Altman 人工智能人形机器人具身智能大型语言模型大模型大语言模型字节跳动开源强化学习微软扩散模型技术创新智能体木易机器学习深度学习清华大学生成式AI 用户体验百度腾讯自然语言处理英伟达谷歌阿里云阿里巴巴马斯克

近期文章

如何挖掘文档解析及RAG框架研发方向—从开源项目更新历程视角
RAG＆KG＆LLM＆文档智能四大领域技术前沿：老刘说NLP技术社区持续对外纳新
百度居然悄悄拿了个榜单第一，关键是……他们自己好像还不知道？
Seed1.5-VL 问世：字节跳动的视觉语言新突破，60项测试夺38冠
爆！三大热门大型模型服务方案实测：VLLM、LLaMA.cpp、SGLang 谁才是你的最强生产力引擎？

分类

分享
国际
大模型
学术
开源
机器人
资讯

2025 年 5 月
一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

« 4 月

归档

2025 年 5 月
2025 年 4 月
2025 年 3 月
2025 年 2 月
2025 年 1 月
2024 年 12 月
2024 年 11 月

AI新闻 | X平台｜ APK反编译｜京ICP备2024096144号｜

© 2025 每时AI • Built with GeneratePress

下载我们的APP，AI秒送达！立即下载

×