全新预训练数据筛选方案,让数据效率提升10倍!配置仅需fastText评分器|港科大vivo出品

香港科技大学和vivo AI Lab提出PreSelect方法,通过预测强度计算公式量化评估数据对特定能力的贡献。该方法利用基于fastText的评分器减少10倍计算需求,具有客观性、泛化性和轻量级优势,相比现有SOTA方法提升显著。

Scaling Law不总是适用!尤其在文本分类任务中,vivo AI Lab提出数据质量提升解决方法

vivo AI Lab提出数据质量提升(DQE)方法,通过更少的数据获得更高的文本分类任务准确率。实验表明,在多个数据集中DQE选择的数据比全量数据表现出显著的性能提升,并有效提升了大语言模型指令跟随能力。