为什么千问模型总在AI基准测试中被「忽略」？

阿里的AI模型为何总是「神秘失踪」？

当大家还在热议全球电动车市场格局时，一位AI研究员却从一张不起眼的数据表中嗅出了一丝「数据缺失」的怪异。

这位来自法国国家科学研究中心（CNRS）的首席AI/ML工程师Maziyar Panahi一针见血地指出：为什么所有的AI基准测试中，阿里的Qwen模型总是「mysteriously missing」？

这不禁让人想起这张电动车收入排名表。表上清清楚楚地标注着「不包括中国」，这让整个排名看起来就像是「缺了一块」。

难道AI领域也在上演着类似的「选择性忽略」吗？

这个现象确实值得深思。

要知道，阿里的Qwen（通义千问）可不是什么默默无闻的小模型。

作为中国科技巨头阿里巴巴推出的大语言模型，它在多项测试中都展现出了不俗的实力。

Panahi更是直言不讳地问道：「难道存在某种行业制裁，让所有人都不能在基准测试中加入Qwen相关模型吗？」

这个问题背后折射出的，是整个AI评测体系的「偏见」问题。

就像那张电动车收入榜单刻意排除了中国企业一样，AI领域的基准测试似乎也在有意无意地「遗漏」着某些重要玩家。

这种「选择性失明」不仅影响了整个行业的评估准确性，更可能导致技术发展的偏差。

毕竟，一个不完整的竞争格局分析，怎么可能得出真实可靠的结论？

作为一个快速发展的领域，AI需要的是公平、全面、客观的评测体系，而不是带着「有色眼镜」的片面观察。

就像电动车市场，如果不把中国企业算进去，那么特斯拉953.1亿美元的收入看起来确实遥遥领先。但加入比亚迪等中国企业后，整个格局可能就会发生翻天覆地的变化。

同样，在AI领域，只有打破偏见，真正实现全球范围内的公平竞争，才能推动这个行业健康发展。

正如Panahi所说，这种「correlation」值得我们深思。

中国模型虽然未必最佳，但不应该被排除！

（文：AGI Hunt）