全新预训练数据筛选方案,让数据效率提升10倍!配置仅需fastText评分器|港科大vivo出品
香港科技大学和vivo AI Lab提出PreSelect方法,通过预测强度计算公式量化评估数据对特定能力的贡献。该方法利用基于fastText的评分器减少10倍计算需求,具有客观性、泛化性和轻量级优势,相比现有SOTA方法提升显著。
香港科技大学和vivo AI Lab提出PreSelect方法,通过预测强度计算公式量化评估数据对特定能力的贡献。该方法利用基于fastText的评分器减少10倍计算需求,具有客观性、泛化性和轻量级优势,相比现有SOTA方法提升显著。
浙大与vivo联合提出LearnAct多智能体框架和LearnGUI基准,通过少量示范学习大幅提升手机GUI智能体的性能。该方法能够有效应对多样化应用中的长尾场景挑战。
vivo AI Lab提出数据质量提升(DQE)方法,通过更少的数据获得更高的文本分类任务准确率。实验表明,在多个数据集中DQE选择的数据比全量数据表现出显著的性能提升,并有效提升了大语言模型指令跟随能力。