打破AI能力的惯性评估方式,红杉中国推出全新双轨基准测试xbench| 下午4时 2025/05/26 作者 甲子光年 的基准测试 (Benchmark) 却面临一个日益尖锐的问题:想要真实地反映AI的客观能力正变得越来