经验分享!从0开始做一篇Benchmark
MLNLP社区致力于推动自然语言处理领域的学术交流与进步,涵盖硕博生、高校老师及企业研究人员等多个群体。文章详细介绍了如何构建高质量的Benchmark,包括数据准备、清洗、审核、模型评估等步骤及其重要性。
MLNLP社区致力于推动自然语言处理领域的学术交流与进步,涵盖硕博生、高校老师及企业研究人员等多个群体。文章详细介绍了如何构建高质量的Benchmark,包括数据准备、清洗、审核、模型评估等步骤及其重要性。
第五届中国情感计算大会(CCAC 2025)将于7月18-20日在四川成都举办,邀请多位知名学者作特邀报告,并汇聚青年才俊展示最新成果与动态。会议涵盖特邀报告、前沿趋势论坛等多环节,同时提供学生研讨会和闭幕式等活动。
MLNLP社区致力于促进国内外机器学习与自然语言处理的交流合作。福建福耀科技大学聘请李开复博士为理事会理事,助力‘高等教育+AI’创新教育模式。李开复分享了AI在教育领域的应用,并期望培养具备创新能力和全球视野的人才。
浙大与vivo联合提出LearnAct多智能体框架和LearnGUI基准,通过少量示范学习大幅提升手机GUI智能体的性能。该方法能够有效应对多样化应用中的长尾场景挑战。
PaperCoder 是一个多智能体LLM系统,能自动实现机器学习论文中的代码。它解决了顶会论文代码共享不足的问题,目前在基准测试中表现优于其他框架,并且77%的原作者对生成的代码表示认可。
上汽大众与Momenta在2025年上海车展上宣布合作,标志着中国汽车从’技术输血’到’智能造血’的历史性转变。这次合作被视为合资车企的里程碑时刻,预示着中国汽车标准将走向全球引领。
小米发布大模型MiMo-7B,参数70亿,在数学和代码测试中表现优异。MiMo-7B架构简单且效率高,通过MTP模块加速推理。训练数据集包含多种合成推理任务生成的数据,采用三阶段混合策略优化分布。后训练阶段通过SFT调整预训练模型,并使用高质量的强化学习数据提升性能。