首个AI翻译实战榜单出炉!GPT-4o稳坐天花板,文化方面Qwen系列一马当先丨开源
首个应用型AI翻译测评榜单TransBench上线,新增幻觉率、文化禁忌词等指标。TransBench评测数据集已全面开源,涵盖多种语言,针对电商和文化特性等方面进行实战考核。目前发布的首期测评结果中,GPT-4o、DeepL Translate、Qwen系列表现突出。
首个应用型AI翻译测评榜单TransBench上线,新增幻觉率、文化禁忌词等指标。TransBench评测数据集已全面开源,涵盖多种语言,针对电商和文化特性等方面进行实战考核。目前发布的首期测评结果中,GPT-4o、DeepL Translate、Qwen系列表现突出。
清华大学和上海人工智能实验室提出测试时强化学习(TTRL),通过在无标签数据上利用多数投票等方法估计奖励信号来提升大规模语言模型性能。
上海人工智能实验室开源生成式世界模型AETHER,首次实现大模型在真实世界中的3D空间决策与规划能力。通过「重建-预测-规划」一体化框架和几何空间建模,大幅提升模型空间推理的准确性与一致性,并成功实现在合成数据上零样本泛化至真实场景。
ICLR 大会在新加坡召开,机器之心联合多家机构举办「云帆・ICLR 2025 AI Talent Meetup」晚宴,为青年才俊提供与企业交流的机会。活动包括技术分享、互动体验和招聘宣讲等内容。
上海人工智能实验室提出的OpenING基准评估了多模态生成模型的性能,涵盖23个现实领域和56个具体任务,包含高质量标注数据和可靠裁判模型IntJudge。
本文提出参数冗余微调范式NoRM,在LoRA基础上通过SVD分解和Sim-Search方法去除冗余参数,显著提升指令微调、数学推理和代码生成任务性能。
北京理工大学等4大名校联合发布Mini DALL·E 3,无需额外训练即可为多数主流大模型添加文成图多模态输出能力。该系统由语言模型、路由器、适配器和图像生成模型四大模块组成,实现了用文本生成图像。
上海人工智能实验室发布通用具身智能仿真平台GRUtopia 2.0,通过通用模块化框架、场景资产自动化生成和高效数据采集系统三大革新,实现仅用三行代码定义任务,数据采集效率最高提升20倍。
上海人工智能实验室联合东北大学提出GENOME(+)框架,创新性地将进化算法引入大语言模型的优化中,无需梯度优化即可实现模型群体动态优化,在多个数据集上表现出明显性能优势。