还得是华为!Pangu Ultra MoE架构:不用GPU,你也可以这样训练准万亿MoE大模型 下午4时 2025/05/29 作者 机器之心 万亿 MoE 模型,此前发布了英文技术报告[1]。最近华为盘古团队发布了 Pangu Ultra M
Claude 4 核心成员访谈:提升 Agent 独立工作能力,强化模型长程任务能力是关键 下午11时 2025/05/28 作者 Founder Park 的两位研究员,Sholto Douglas(专注于强化学习)和 Trenton Bricken(研究
LoRA中到底有多少参数冗余?新研究:砍掉95%都能保持高性能 下午4时 2025/05/02 作者 机器之心 明即使大幅减少 LoRA 的可训练参数,模型性能依然保持强劲。研究团队在数学推理、代码生成、安全对齐
ICLR 2025 Oral|差分注意力机制引领变革,DIFF Transformer攻克长序列建模难题 下午11时 2025/04/28 作者 机器之心 建模能力为语言理解与生成带来了前所未有的突破。 然而,随着模型规模的不断扩大和应用场景的日益复杂,传
只需 0.5B 参数,全面覆盖预训练+SFT + RL!极简自回归视觉生成框架SimpleAR 下午11时 2025/04/28 作者 极市干货 的极简自回归视觉生成框架。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿 本文目录 1 Si
提示工程101第五课:少样本学习与上下文学习 上午11时 2025/03/29 作者 PyTorch研习社 本文探讨少样本学习和上下文学习技术,使AI模型仅需少量示例就能完成复杂任务,特别适用于标注数据稀缺场景。
Roblox发布3D智能基础模型Cube,一句话生成游戏资产 下午11时 2025/03/21 作者 机器之心 AI 技术,进一步革新游戏的创作体验。 据了解,曾获选「儿童票选奖最受欢迎游戏」的 Roblox
ICLR 2025 小型AI也能懂人类?中山大学全新方法ADPA让小模型对齐实现大突破! 下午4时 2025/03/19 作者 PaperWeekly 型偏好对齐 背景 在 AI 的世界里,大型语言模型( LLMs )凭借强大的参数量和计算能力,已经能
深度学习的平衡之道:港科大、港城大等团队联合发布多目标优化最新综述 下午4时 2025/03/18 作者 机器之心 生陈巍昱、港城大在读博士生张霄远和港科广在读博士生林百炅为共同第一作者;林熙博士目前担任港城大博士后