跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

多任务学习

还得是华为!Pangu Ultra MoE架构:不用GPU,你也可以这样训练准万亿MoE大模型

下午4时 2025/05/29 作者 机器之心

万亿 MoE 模型,此前发布了英文技术报告[1]。最近华为盘古团队发布了 Pangu Ultra M

分类 学术、 资讯 标签 Ascend NPU、 MTP技术、 Pangu Ultra MoE、 多任务学习、 强化学习、 难例挖掘 发表评论

Claude 4 核心成员访谈:提升 Agent 独立工作能力,强化模型长程任务能力是关键

下午11时 2025/05/28 作者 Founder Park

的两位研究员,Sholto Douglas(专注于强化学习)和 Trenton Bricken(研究

分类 资讯 标签 互联网网站内容分析、 任务完成效率、 全美国屏幕录像、 多任务学习、 用户满意度评分、 社交媒体活动数据 发表评论

喝下这一碗模型汤,掌握向量模型的训练秘方

下午11时 2025/05/09 作者 AI工程化

这两项技术嘴角都压不住笑。如果说
Ensemble Learning代表了上个时代的机器学习,那么

分类 分享 标签 多任务学习、 文档检索、 模型汤、 融合处理、 语义相似度、 问答 发表评论

LoRA中到底有多少参数冗余?新研究:砍掉95%都能保持高性能

下午4时 2025/05/02 作者 机器之心

明即使大幅减少 LoRA 的可训练参数,模型性能依然保持强劲。研究团队在数学推理、代码生成、安全对齐

分类 学术、 资讯 标签 95%、 LORA、 低秩矩阵分解、 参数调整、 多任务学习、 适配器融合 发表评论

ICLR 2025 Oral|差分注意力机制引领变革,DIFF Transformer攻克长序列建模难题

下午11时 2025/04/28 作者 机器之心

建模能力为语言理解与生成带来了前所未有的突破。
然而,随着模型规模的不断扩大和应用场景的日益复杂,传

分类 学术、 资讯 标签 DIFF Transformer、 噪声抵抗、 多任务学习、 差分注意力、 文本处理、 自注意力机制 发表评论

只需 0.5B 参数,全面覆盖预训练+SFT + RL!极简自回归视觉生成框架SimpleAR

下午11时 2025/04/28 作者 极市干货

的极简自回归视觉生成框架。
>>
加入极市CV技术交流群,走在计算机视觉的最前沿
本文目录
1 Si

分类 学术 标签 INT8计算、 MLM预训练、 Transformer架构、 ViT模型、 多任务学习、 模型剪枝 发表评论

提示工程101第五课:少样本学习与上下文学习

上午11时 2025/03/29 作者 PyTorch研习社

本文探讨少样本学习和上下文学习技术,使AI模型仅需少量示例就能完成复杂任务,特别适用于标注数据稀缺场景。

分类 分享 标签 上下文学习、 多任务学习、 少样本学习、 情感分类、 指示工程、 评估方法 发表评论

Roblox发布3D智能基础模型Cube,一句话生成游戏资产

下午11时 2025/03/21 作者 机器之心

AI 技术,进一步革新游戏的创作体验。
据了解,曾获选「儿童票选奖最受欢迎游戏」的 Roblox

分类 学术、 资讯 标签 3D物体、 Roblox、 VQ-VAE、 多任务学习、 离散形状编码、 自监督损失 发表评论

ICLR 2025 小型AI也能懂人类?中山大学全新方法ADPA让小模型对齐实现大突破!

下午4时 2025/03/19 作者 PaperWeekly

型偏好对齐
背景
在
AI
的世界里,大型语言模型(
LLMs
)凭借强大的参数量和计算能力,已经能

分类 大模型、 学术 标签 Adaptive Distillation with Advantage、 优势函数、 多任务学习、 小型AI模型、 标准AI性能指标、 策略蒸馏 发表评论

深度学习的平衡之道:港科大、港城大等团队联合发布多目标优化最新综述

下午4时 2025/03/18 作者 机器之心

生陈巍昱、港城大在读博士生张霄远和港科广在读博士生林百炅为共同第一作者;林熙博士目前担任港城大博士后

分类 学术、 资讯 标签 多任务学习、 大语言模型、 强化学习、 推荐系统、 神经架构搜索、 计算机视觉 发表评论
较早文章
页面1 页面2 页面3 下一页 →

2025年 AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Manus Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克

近期文章

  • DeepSeek更新刷榜!R1-0528改进编码性能,媲美o3 High和Claude 4
  • PaddleOCR 3.0发布:OCR精度跃升13%,支持多语种、手写体与高精度文档解析
  • DeepSeek-R1 更新,思考更深,推理更强
  • DeepSeek-R1-0528 打榜、20+案例全面实测,全球网友狂点赞:实力堪称R2!
  • 地平线子公司融资1亿美元,汽车供应链争做具身智能“卖铲人”

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
2025 年 5 月
一 二 三 四 五 六 日
 1234
567891011
12131415161718
19202122232425
262728293031  
« 4 月    

归档

  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×