全新预训练数据筛选方案,让数据效率提升10倍!配置仅需fastText评分器|港科大vivo出品

香港科技大学和vivo AI Lab提出PreSelect方法,通过预测强度计算公式量化评估数据对特定能力的贡献。该方法利用基于fastText的评分器减少10倍计算需求,具有客观性、泛化性和轻量级优势,相比现有SOTA方法提升显著。