预训练语言模型归档

huggingface发布了3B参数里的SoTA模型 smollm3

2025年7月10日8时作者 NLP工程化

Hugging Face 发布了3B参数的SOTA模型 Smollm3，支持Think/No-Think模式，默认不支持汉语，未来将发布其详细信息及构建方法。

2025年5月15日16时作者 PaperWeekly

人已经成为日常场景中不可或缺的智能伴侣，然而，传统的聊天机器人通常依赖被动响应机制，需用户主动发起话

2025年5月15日16时作者量子位

字节Seed团队提出AttentionInfluence方法，利用小型预训练模型选择对大语言模型推理能力有显著提升的数据。通过屏蔽关键头部并计算损失差异来评估数据重要性，最终在多个基准测试中提高了模型性能。

2025年4月16日14时作者智能涌现

跑的姿势更加重要。
文
｜
周鑫雨
‍
‍
编辑
｜
苏建勋
2025年4月中旬，快手和字节这两个老

2025年3月6日23时作者机器之心

工作为首个NoPE外推HeadScale、注意力分块外推LongHeads、多视觉专家大模型MouS