图像理解归档 - 每时AI

马斯克最贵 AI 首批实测炸了！Grok 4 一边封神一边翻车，网友：2 万块就这？

2025年7月11日23时作者 APPSO

拿昨天的 Grok 4 来说，马斯克放话「这是地球上最聪明的 AI」，还没上线，就已经把话题度拉满了

统一架构新思考，北大团队UniWorld-V1统一大模型

2025年6月6日23时作者 AI寒武纪

北大袁粒课题组提出UniWorld-V1统一大模型架构，在多个基准上性能表现优异，并且开源了全部代码、模型权重与数据集，支持图像生成、编辑等多种任务。

刚刚，OpenAI发布GPT-4.1！全系支持百万token上下文，全方位碾压GPT-4o并且价格更低

2025年4月15日8时作者机器之心

含了三个模型，分别是
GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano，它们仅

Llama4凌晨突然发布！以超高性价比开启原生多模态AI和开源MoE的新时代，并公开训练策略！

2025年4月6日14时作者 GiantPandaCV

Llama 4
系列中的首批模型，这些模型将使人们能够构建更个性化的多模态体验。
Llama 4 S

Long-VITA：突破百万Tokens限制！开源多模态大模型新标杆

2025年3月1日16时作者 PaperWeekly

落后于闭源模型。部分专注于长上下文场景的开源模型在短上下文场景（如短视频或静态图像）中又表现不佳。

LLaVA-Mini来了！每张图像所需视觉token压缩至1个，兼顾效率内存

2025年2月6日12时作者机器之心

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000

全球首个全模态理解开源端模型：长语音自动总结，图文音啥都会！300%推理速度领先，来自无问芯穹

2024年12月16日14时作者量子位

全球首个端侧全模态理解开源模型Megrez-3B-Omni发布，支持图片、音频、文本三种模态数据，在多种测评基准中表现优异。