OpenAI加码写作赛道?阿里最新大模型通用写作能力基准WritingBench,揭秘深度思考能否增进文学表达

阿里联合人大交大开源WritingBench评估基准,覆盖6大领域100个细分场景。通过四阶段人机协同流程构建评测集,基于写作意图动态生成评测指标,实现87%的人类一致性得分。团队发现带思维链模型在创意写作中表现更优,但长文本生成仍面临挑战。