“北极星”基础教育大模型评测场V1.0及榜单正式发布

含有基础教育特色的大模型测评场。


来源|多知



多知7月12日消息,北京师范大学智能技术与教育应用教育部工程研究中心(以下简称“工程研究中心”)发布“北极星”基础教育大模型评测场V1.0及榜单。


“北极星”由北京师范大学智能技术与教育应用教育部工程研究中心、北京教育科学研究院、‌北京智源人工智能研究院联合建设,是一款含有基础教育特色的大模型评测场。


在团体标准《人工智能 基础教育大模型评测指标和方法》(标准编号:T/CESA 1395-2025)的指导下,“北极星”具有紧扣新课标、聚焦教育应用、多学科多场景的特点,更加关注启发引导、素养导向、情境创设等能力评估。



目前“北极星”评测场已覆盖初中“语文/数学/英语/物理/化学/生物/历史/地理/信息技术”9门学科、“备/教/练/考/评/管”6大教育场景,支持110多个维度的评测。


据官方介绍,现有大模型大多数能力离实际应用尚有差距,例如解题性能会因题目改写受到较大影响,实验探究方面效果欠佳;智能出题方面,大模型题目和解析的准确性仍有待提升。


经过测评,“北极星”评测结果与具备丰富教学经验的资深教师越来越相近。


“北极星”V1.0版本已正式上线(www.bnueval.com),同时其全面评测50多个主流大模型,评测榜单通过网站向公众公布。


对于接下来的布局思路,据介绍“北极星”基础教育大模型评测场将继续迭代更新,以更全面的评测维度、更科学的评测方法推动基础教育大模型应用安全、健康发展。

(文:多知)

发表评论