“北极星”基础教育大模型评测场V1.0及榜单正式发布

含有基础教育特色的大模型测评场。

来源|多知

多知7月12日消息，北京师范大学智能技术与教育应用教育部工程研究中心（以下简称“工程研究中心”）发布“北极星”基础教育大模型评测场V1.0及榜单。

“北极星”由北京师范大学智能技术与教育应用教育部工程研究中心、北京教育科学研究院、‌北京智源人工智能研究院联合建设，是一款含有基础教育特色的大模型评测场。

在团体标准《人工智能基础教育大模型评测指标和方法》（标准编号：T/CESA 1395-2025）的指导下，“北极星”具有紧扣新课标、聚焦教育应用、多学科多场景的特点，更加关注启发引导、素养导向、情境创设等能力评估。

目前“北极星”评测场已覆盖初中“语文/数学/英语/物理/化学/生物/历史/地理/信息技术”9门学科、“备/教/练/考/评/管”6大教育场景，支持110多个维度的评测。

据官方介绍，现有大模型大多数能力离实际应用尚有差距，例如解题性能会因题目改写受到较大影响，实验探究方面效果欠佳；智能出题方面，大模型题目和解析的准确性仍有待提升。

经过测评，“北极星”评测结果与具备丰富教学经验的资深教师越来越相近。

“北极星”V1.0版本已正式上线（www.bnueval.com），同时其全面评测50多个主流大模型，评测榜单通过网站向公众公布。

对于接下来的布局思路，据介绍“北极星”基础教育大模型评测场将继续迭代更新，以更全面的评测维度、更科学的评测方法推动基础教育大模型应用安全、健康发展。

（文：多知）