奥赛级AI基准来了:难倒所有模型,GPT-4o仅考34分,上海交大出品
上海交通大学GAIR Lab推出OlympicArena多学科认知推理基准测试,评估模型综合解决问题能力。尽管GPT-4也仅得34.01%整体准确率,但其他开源模型的整体准确率难以达到20%。该平台覆盖7大领域11163道题目,难度偏高,旨在检验AI的多学科综合认知能力,并提供资源支持研究。
上海交通大学GAIR Lab推出OlympicArena多学科认知推理基准测试,评估模型综合解决问题能力。尽管GPT-4也仅得34.01%整体准确率,但其他开源模型的整体准确率难以达到20%。该平台覆盖7大领域11163道题目,难度偏高,旨在检验AI的多学科综合认知能力,并提供资源支持研究。
间。
责编 | 王启隆
出品丨AI 科技大本营(ID:rgznai100)
主持人:
大家好,我是
OpenAI的新版GPT-4图像生成功能因复刻吉卜力风格图像引发版权争议,用户和律师函事件频发。尽管OpenAI表示正在限制图像生成速率,但是否涉嫌侵权仍存争议。
的收购计划——在 4 月 5 日 TikTok 禁令大限即将来临之际,这家成立仅两年的公司于官网发布
VisualSimpleQA 提出了一个面向事实查询的多模态评测基准,旨在有效评估大型视觉语言模型(LVLMs)在事实问答任务中的表现。该基准采用了解耦评估框架和明确的样本难度标准,能够区分不同模型的表现,并揭示了当前前沿 LVLMs 在视觉和语言模块上的改进空间。
一键生成完整故事视频的AI工具Story-Flicks,支持多种文本及图像生成模型和TTS服务。通过输入故事主题即可自动生成包含剧情、图片、音频和字幕的高清视频,极大地简化了短视频创作过程。
AIxiv专栏发布了一篇关于3D意图定位的研究文章,该技术能够根据用户的意图在3D场景中检测目标物体,而非仅依赖于明确的物体描述。通过引入GPT-4生成意图文本,并采用多模态融合和自适应学习方法,实现了优于现有模型的效果。