速递|红杉中国进军AI测评赛道:xbench为何要“摆脱智力题”考察AI的真实效用?

红杉中国推出全新AI基准测试xbench,采用双轨评估体系和长青评估机制,旨在提高AI系统在真实场景中的效用价值。该测试包含科学问题解答和中文互联网深度搜索两个核心评估集,并提出多项创新举措以解决现有评测方法的问题。