AI 看片写 App!Gemini 2.5 首创音视频+代码原生融合+视频理解 SOTA,构建案例来了~
Google更新了两款Gemini新模型Gemini 2.5 Pro和Gemini 2.5 Flash,在视频理解和生成方面表现突出,能生成互动应用、p5.js动画及精准描述视频片段。
Google更新了两款Gemini新模型Gemini 2.5 Pro和Gemini 2.5 Flash,在视频理解和生成方面表现突出,能生成互动应用、p5.js动画及精准描述视频片段。
谷歌发布升级版Gemini 2.5 Pro,横扫文本、视觉和WebDev Arena基准,编程能力超越Claude 3.7。新版模型支持代码转换、编辑及复杂的AI智能体工作流,引发开发者广泛关注。
谷歌发布的Gemini 2.5 Pro I/O预览版在编码能力上显著提升,尤其在前端开发和视频内容转化方面表现突出。尽管减少API“幻觉”进步获得肯定,但AI在高级代码抽象、软件架构设计及非主流技术栈的处理仍存审慎态度。
Google DeepMind的Gemini 2.5 Pro更新提升了编程能力和多模态推理功能,可构建Web应用、游戏和模拟程序,并根据自然图像生成代码。
Ovis2是阿里巴巴提出的新型多模态大模型架构,显著提升了小规模和大规模模型的能力密度,并增强了思维链推理能力、视频处理能力和多语言OCR能力。它已在OpenCompass上展示了卓越的性能,并在多个数学推理榜单中排名前列。
北京航空航天大学团队发布小尺寸简易视频理解框架TinyLLaVA-Video,其参数量不超过4B,在多个视频理解基准上优于7B以上模型。该项目开源模型权重、训练代码和数据集,并支持模块化设计和自定义训练策略,降低研究门槛。
阿里巴巴达摩院发布VideoLLaMA3多模态基础模型,支持看懂视频内容、理解图片并能对话,基于Qwen2.5架构。
Uni-AdaFocus 是一个通用的高效视频理解框架,通过降低时间、空间和样本冗余性实现了统一建模,并已在多个数据集上验证了其有效性。