
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com



-
论文题目:A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models
-
论文链接:https://arxiv.org/abs/2501.15147
-
项目主页:https://lotbench.github.io


-
精选具有人类高质量创新内容 (HHCR) 的日式冷吐槽游戏的数据,构建 MLM task,即要求 LLM 每一轮根据图文信息,生成 Rt 补全给定文字空缺;
-
判断生成的 Rt 和 R (即 HHCR) 是否是异曲同工之妙 (different approach but equally satisfactory outcome, DAESO)。若是,则开始通过轮数计算创造力分数,否则进入第 3 步;
-
要求待测 LLM 根据测评时历史交互信息,提出一个一般疑问句 Qt. 测评系统根据 HHCR,返回 Yes 或者 No;
-
整理当前轮交互的所有信息,和系统提供的提示,称为下一轮的 history prompt,重新进入第 1 步生成创新响应环节。





(文:机器之心)