Transformer
1000万上下文!新开源多模态大模型,单个GPU就能运行
Meta 最新开源模型 Llama 4 Scout 达到千万级上下文,拥有 1090 亿参数。其使用 NoPE 架构解决长度泛化问题,并通过优化训练流程和强化学习框架提升性能。
你了解大模型的生态体系吗?大模型从技术到应用的内容梳理
梳理了大模型体系构成和应用关系,介绍了神经网络作为机器学习的一种深度学习方式的基本原理及其在自然语言处理、计算机视觉等领域的结合应用,并阐述了不同架构如Transformer、RNN的工作机制,强调了神经网络并非万能及需要具体任务场景来发挥作用。
AI 应该上班,而不是上线
今天没有发布会,只是看到了一组数据:中国智能汽车销量Top5里有三款搭载了大模型。文章讨论了AI落地的变化,从被动服务到主动执行,以及AI在各种应用场景中的实际运行状态。强调模型需要稳定可靠地“上班”,而非只关注其功能和性能指标。
AI就是所有人疯狂竞争,最后Google赢得比赛的游戏?
2022年底ChatGPT推出后,Google被打了个措手不及。经过数月努力,Google推出了Gemini,并不断进行功能更新,使其与竞争对手OpenAI竞争。Gemini在图像编辑、开源模型、搜索融合及机器人技术方面取得进展,展示了Google在人工智能领域的潜力和决心。
ThinkLLM:大语言模型算法与组件实现
ThinkLLM是一个开源项目,包含了Transformer核心算法、模型训练与优化算法、高效推理与部署算法、长序列处理算法等,帮助开发者和研究者深入理解大模型的底层机制。
无需Attention的未来,RWKV-7能成为替代Transformer的那只黑天鹅吗?
在Transformer计算需求呈平方级增长下,元始智能彭博提出RWKV架构融合了Transformer和RNN的优点,在训练与推理阶段均表现出色,并通过动态状态演化技术显著提升了性能表现。