刚刚,o4-mini发布!OpenAI史上最强、最智能模型
今天凌晨
1点,
OpenAI发布了最强、最智能模型o4-mini和满血版o3。
o4-mini在AIME2024和2025中分别达到了93.4%和92.7%,比满血版o3还强。同时具备多模态处理能力,可以调用工具辅助推理。
今天凌晨
1点,
OpenAI发布了最强、最智能模型o4-mini和满血版o3。
o4-mini在AIME2024和2025中分别达到了93.4%和92.7%,比满血版o3还强。同时具备多模态处理能力,可以调用工具辅助推理。
SpatialLM是群核科技开源的一款空间理解多模态模型,能够从普通手机拍摄的视频中重建精细3D场景,并标注房间结构、家具摆放和通道宽度等信息。其核心功能包括生成3D场景、提升机器人的空间认知能力、降低数据采集成本以及在虚拟现实中提供丰富场景支持。
Qwen2.5-Omni 是一款端到端的多模态模型,旨在感知包括文本、图像、音频和视频在内的多种模态,并以流式方式生成文本和语音响应。其关键特性包括Thinker-Talker架构、TMRoPE位置嵌入技术以及跨模态卓越性能等。
阿里巴巴开源的Qwen2.5-Omni大模型支持全模态感知与生成、实时交互和语音生成。Cursor Auto Register帮助用户自动化注册Cursor账号。字节跳动开发的FlowGram.AI是节点式工作流引擎,利用AI能力增强工作流程。n8n MCP Server是一个让AI助手通过自然语言控制n8n工作流的模型上下文协议服务器。LangGraph CUA库构建具有计算机操作能力的智能代理系统。
今日OpenAI发布GPT-4o原生多模态模型,其生图能力震撼亮相,超越Gemini等竞品。作为200刀的Pro会员,用户可直接用嘴实现生图和改图需求。
IBM Research 的 SmolDocling-256M-preview 是一个多模态文档处理模型,专注于将图像文档转换为结构化文本,并支持 OCR、代码块识别、数学公式转换和表格/图表解析等。其核心特性包括高效处理和精准元素识别,具备轻量级模型(基于 2.56 亿参数的 Idefics3 架构)以及开源协议。
HyperAI超神经上线了使用vLLM部署Gemma-3-27B-IT教程,该模型支持文本和图像输入,适用于问答、摘要和推理等多种任务。