预训练语言模型
字节最新大模型秘籍:只挑能有推理潜力的数据训练!1.3B模型无需标签自动挑选
字节Seed团队提出AttentionInfluence方法,利用小型预训练模型选择对大语言模型推理能力有显著提升的数据。通过屏蔽关键头部并计算损失差异来评估数据重要性,最终在多个基准测试中提高了模型性能。
组团开源,Qwen2.5-VL转角遇见DeepSeek Janus-Pro!
今天除夕,阿里千问开源了Qwen2.5-VL模型,包含3B、7B和72B三个尺寸,并具有感知丰富世界、作为视觉Agent、理解长视频和捕捉事件、精准的视觉定位及结构化输出等新特性。