新智元
GPT-4o再暴露「弱智」缺陷,大模型无一幸免!港中文等发布「视觉听觉」基准AV-Odyssey:26个任务直指死角问题
顶尖多模态大模型在AV-Odyssey基准测试中表现不佳,无法正确分辨声音大小。研究团队提出DeafTest和AV-Odyssey评估基准,揭示音频感知仍是大模型的主要瓶颈。
ChatGPT深夜福利,Canvas生产力神器史诗级升级!跑代码改bug,AGI界面大革新
OpenAI Day 4直播展示了Canvas新功能,用户可以直接使用Canvas编辑文档、运行Python代码并检查语法。此外,研究人员还演示了如何将Canvas整合进自定义GPTs中。
DeepMind悄悄发布PaliGemma二代,最易微调「视觉语言全能王」来了,多项任务登顶SOTA
谷歌发布的PaliGemma 2模型在多个视觉语言任务上取得领先成绩,支持多种分辨率和参数规模,并且在OCR、表格识别、乐谱识别及医学报告生成等任务中表现突出。
73页,开源「后训练」全流程!AI2发布高质量Tülu 3系列模型,拉平闭源差距,比肩GPT-4o mini
新智元报道
编辑:LRS
【新智元导读】
Allen Institute for AI(AI2)发布
1600万视频解锁「空间智能」?智源3D生成模型See3D全套开源
国内智源研究院推出的See3D模型从大规模无标注的互联网视频中学习,生成相机可控且几何一致的多视角图像,支持零样本和开放世界的3D生成,并开源了相关代码。
Grok祭出首款生图模型Aurora!两位95后华人立大功,耗时6月自研MoE
新智元报道
编辑:桃子 好困
xAI发布自研图像生成模型Aurora,集成到Grok中。耗时6个月研发完成,采用MoE架构训练的自回归混合专家模型提升了Grok的图像生成能力。