日期: 2025 年 2 月 21 日
Transformer教学项目:fun-transformer
Transformer教学项目:fun-transformer课程涵盖编码器和解码器实现,并在无深度学习框架环境下使用基础库实践,最后应用于机器翻译任务。
Hugging Face 发布并开源大模型训练书籍《Ultra-Scale Playbook》
Hugging Face发布了《Ultra-Scale Playbook》一书,介绍大模型训练中的5D并行性、ZeRO等技术,并分享了相关实验和工具的使用经验。
OpenAI官方博客发了篇推理类模型的最佳实践,指导大家如何更好的使用o1、o3这类推理模型
OpenAI发布了推理模型的最佳实践,包括何时使用这些模型(如模糊任务、大海捞针)、如何有效利用以及一些基本原则和技巧。
爬虫效率暴增5倍!清华开源智能爬虫系统:支持无缝接入LLM预训练!
Crawl4LLM是清华与卡内基梅隆联合开源的智能爬虫系统,通过评估网页对语言模型预训练的价值,节省50%以上资源并提升抓取效率和质量。
18家平台接入 DeepSeek R1 满血版,无限免费用(爆肝整理篇)。
DeepSeek R1满血版接入多平台,涵盖科研、办公、金融等多个领域。火山引擎、腾讯AI搜索、问小白等平台支持R1模型的实时推理及多种应用场景。
OpenAI:未受DeepSeek影响,周活用户已破4亿!马上推出GPT-5
OpenAI宣布ChatGPT周活跃用户突破4亿,同比增长33%。首席运营官Brad Lightcap表示这是由于产品的实用性不断提高及消费者采用的增长。同时,企业用户增长更是惊人,从去年9月到现在翻了一倍,达到200万用户。
断交OpenAI后,人形机器人独角兽首秀:一个神经网络控制整个上身,能听懂人话可抓万物
Figure发布首个成果Helix,一个端到端通用控制模型。只需自然语言提示,机器人就能拿起任何东西。它展示了强大的对象泛化能力,在未见过的物体上执行任务的能力。
剧本自动生成3D动画!北航中大等提出新方法,破解多人交互难题 ICLR 2025
Sitcom-Crafter提出了一种基于场景感知的多人交互运动生成方法,能够自动生成符合逻辑的3D角色动画。该技术解决了现有自动化方案难以满足复杂剧情需求的问题,并且采用了数据规范化策略和多模块协同设计,提高了创作效率和动作质量。