DeepSeek和OpenAI神仙打架!一文速览春节假期AI热点

欢迎围观“AI新榜”的「AI日报」栏目。本期为各位奉上春节期间AI大新闻特别盘点,建议星标我们,AIGC前沿资讯,及时拿捏!

【1分钟速看版】

🏆 DeepSeek登顶100多个国家AppStore免费应用榜

📈 郭明錤称DeepSeek爆红加速AI模型“设备端化”趋势

🏅 阿里Qwen2.5-Max在大模型竞技场榜单上反超DeepSeek-V3

📊 阿里通义千问全新视觉理解模型Qwen2.5-VL开源

🆕 OpenAI发布o3-mini推理模型:性能提升24%,首次向ChatGPT免费用户开放

👏 OpenAI CEO:DeepSeek-R1令人印象深刻,将推出更好的模型

🌐 DeepSeek-R1模型已上线英伟达NIM微服务平台、亚马逊云科技

🔎 ChatGPT推出“深度研究”功能,助力复杂信息查询与分析

🔥 ChatGPT订阅用户数已达1550万,较一年前增长近两倍

🤝 人形机器人公司Figure终止与OpenAI的合作,称自研端到端取得“重大突破”

💰 消息称OpenAI新一轮融资至多400亿美元,估值将达3000亿美元

👓 OpenAI申请新商标,暗示将涉足人形机器人、智能硬件等领域

🎙️ Anthropic将为Claude AI引入双向语音模式

🤖 微软Copilot开放“深度思考”AI功能,OpenAI o1推理模型免费用

💻 JetBrains推出全新AI编程工具Junie,以开发者为中心可生成风格一致代码

国内资讯

1. DeepSeek登顶100多个国家AppStore免费应用榜


1月20日,幻方量化旗下AI公司深度求索(DeepSeek)正式发布DeepSeek-R1模型,并同步开源模型权重。自发布以来,DeepSeek已登顶过包括美国在内的100多个国家的苹果AppStore免费应用榜。据彭博社报道,DeepSeek在140个市场中成为下载量最多的移动应用。


据悉,DeepSeek AI助手采用总参数超600B的DeepSeek-V3大模型,支持智能对话、AI 搜索、深度思考、文件上传等功能。


据官方介绍,DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。



第三方基准测试显示,DeepSeek-R1超越了包括OpenAI、Meta和Anthropic在内的部分人工智能公司。


1月28日凌晨,DeepSeek宣布开源全新的视觉多模态模型Janus-Pro-7B,其在GenEval和DPG-Bench基准测试中击败了Stable Diffusion和OpenAI的DALL-E 3。(综合消息)


2. 郭明錤称DeepSeek爆红加速AI模型“设备端化”趋势


2月3日,分析师郭明錤发文称,随着DeepSeek的爆红,AI“设备端化”趋势将加速。他表示,此前台积电与英伟达均预测设备端AI将在2026年显著增长,因此英伟达专注于设备端的AI PC处理器N1X/N1预计将在今年第四季度和2026年上半年开始量产。


然而DeepSeek的爆红改变了这一情况,相应DeepSeek R1模型在设备端取得了较高的性能,且不少用户实际上对各大云端联网模型存在顾虑。因此DeepSeek爆红实则引发业界加速引入设备端AI,郭明錤预计未来会有更多类似DeepSeek的开源模型。


3. 阿里Qwen2.5-Max在大模型竞技场榜单上反超DeepSeek-V3


2月4日,阿里Qwen2.5-Max在大模型竞技场榜单上超越DeepSeek-V3、Claude 3.5 Sonnet、Llama 3.1 405B等模型,以总分1332的成绩位列总榜第七。在编程、数学等方面表现格外突出,能够与满血o1、DeepSeek-R1并列第一。


据悉,Chatbot Arena是由LMSYS Org推出的大模型性能测试平台,目前集成了190多种模型,采用模型两两组队交给用户盲测,根据真实对话体验对模型能力进行投票。Chatbot Arena LLM Leaderboard是全球顶级大模型的最权威、最重要的竞技场。在其新开的网页应用开发WebDev榜单上,Qwen2.5-Max也冲进了前十。

4. 阿里通义千问全新视觉理解模型Qwen2.5-VL开源


1月28日,阿里通义千问宣布开源全新的视觉理解模型Qwen2.5-VL——Qwen 模型家族的旗舰视觉语言模型,并推出了3B、7B和72B三个尺寸版本。


Qwen2.5-VL的主要特点如下:


视觉理解:Qwen2.5-VL不仅擅长识别常见物体,如花、鸟、鱼和昆虫,还能够分析图像中的文本、图表、图标、图形和布局。


代理:Qwen2.5-VL直接作为一个视觉Agent,可以推理并动态地使用工具,初步具备了使用电脑和使用手机的能力。


理解长视频和捕捉事件:Qwen2.5-VL能够理解超过1小时的视频,并且这次它具备了通过精准定位相关视频片段来捕捉事件的新能力。


视觉定位:Qwen2.5-VL可以通过生成bounding boxes或者points来准确定位图像中的物体,并能够为坐标和属性提供稳定的JSON输出。


结构化输出:对于发票、表单、表格等数据,Qwen2.5-VL支持其内容的结构化输出,惠及金融、商业等领域的应用。


据官方介绍,其旗舰模型Qwen2.5-VL-72B-Instruct在一系列涵盖多个领域和任务的基准测试中表现出色,包括大学水平的问题、数学、文档理解、视觉问答、视频理解和视觉Agent。Qwen2.5-VL在理解文档和图表方面具有优势,并且能够作为视觉Agent进行操作,而无需特定任务的微调。(来源:IT之家)


海外资讯


5. OpenAI发布o3-mini推理模型:性能提升24%,首次向ChatGPT免费用户开放

2月3日,OpenAI正式推出发布o3-mini推理模型,并首次向ChatGPT的免费用户开放体验,只需在聊天栏中选择Reason功能即可,速率限制与现有的GPT-4o限制类似。开发者可以通过OpenAI的API服务(包括Chat Completions API、Assistants API和Batch API)使用o3-mini。



o3-mini默认使用中等推理强度,付费用户可以选择o3-mini-high,以获得更高智能的版本,但响应生成时间会稍长。


此外,OpenAIPlus和Team用户的每日消息限制提高3倍,达到每天150条,Pro用户则可以无限使用o3-minio3-mini-high。


在性能方面,o3-mini比o1-mini响应速度提升24%,答案准确性也有所提高。与o1-mini类似,o3-mini会展示推理过程,而非仅提供答案。据悉,该模型在数学代码等基准测试中刷新SOTA,相关测试中o3-mini(high)在准确率和校准误差(Calibration Error)均是最优。


OpenAI联合创始人、首席执行官Sam Altman在o3-mini发布后的在线问答中透露,“在未来几周,满血版o3即将上线。”(综合消息)


6. OpenAI CEO:DeepSeek-R1令人印象深刻,将推出更好的模型,重新考虑开源战略


1月28日,OpenAI CEO Sam Altman在X上发文称,DeepSeek-R1令人印象深刻,尤其是考虑到其价格和功能性后。另外,他还表示新的对手令人振奋,同时将推出更好的模型。


1月31日,据外媒Seeking Alpha报道,Altman在社交媒体平台Reddit上的“Ask Me Anything”活动中表示,OpenAI需要“弄清楚另一种开源战略”,但并非团队所有人都持有这种观点,并且弄清楚该策略不是“我们当前的最高优先事项”。OpenAI首席产品官Kevin Weil在同一活动中表示,公司正在考虑开源较旧的AI模型(综合消息)

7. DeepSeek-R1模型已上线英伟达NIM微服务平台、亚马逊云科技


1月31日,英伟达宣布DeepSeek-R1模型现已在build.nvidia.com上作为NVIDIA NIM微服务预览版提供。DeepSeek-R1 NIM微服务可以在单个NVIDIA HGX H200系统上每秒提供多达3872 tokens。


同日,亚马逊云科技也宣布用户可以在Amazon Bedrock和Amazon SageMaker AI中部署DeepSeek-R1模型。


官方表示,Amazon Bedrock适合希望通过API快速集成预训练模型的团队;Amazon SageMaker AI则非常适合自己进行高级定制、训练和部署、调用基础设施的团队。用户还可以通过Amazon EC2、Amazon SageMaker AI,使用Amazon Trainium和Amazon Inferentia,用更具性价比的方式部署DeepSeek-R1-Distill。(综合消息)

8. ChatGPT推出“深度研究”功能,助力复杂信息查询与分析


2月3日,OpenAI宣布为ChatGPT推出一项名为“深度研究”(Deep Research)的新功能,旨在帮助用户进行深入、复杂的信息查询与分析。该功能主要面向金融、科学、政策、工程等领域的专业人士,以及需要进行详细研究的消费者,例如购买汽车、家电或家具等场景。



与ChatGPT传统的快速回答不同,“深度研究”功能适用于需要从多个网站和来源综合信息的场景。用户只需在ChatGPT的输入框选择“深度研究”模式并输入问题。


目前,“深度研究”功能已向ChatGPT Pro用户开放,每月限100次查询。ChatGPT Plus、Team以及企业版用户将在未来推出。OpenAI计划在一个月内向Plus用户推出该功能,并承诺付费用户的查询限制将“显著提高”。不过,该功能在英国、瑞士和欧洲经济区的发布时间尚未确定。



OpenAI表示,“深度研究”功能目前仅支持文本输出,但未来计划增加嵌入式图片、数据可视化和其他分析性输出。此外,OpenAI还计划扩展功能,支持连接更多专业数据源,包括订阅资源和内部资源。


值得一提的是,谷歌Gemini在2024年11月也推出过一款同名的AI功能,旨在提供类似的信息查询服务。(综合消息)


9. ChatGPT订阅用户数已达1550万,较一年前增长近两倍


近日,OpenAI对部分股东表示,尽管面临来自谷歌、Anthropic和Meta等竞争对手旗下聊天机器人的竞争,ChatGPT的付费订阅者仍较一年前的580万增加了近两倍,2024年订阅用户数达到1550万。此外,OpenAI服务的API调用量同比增加了7倍。

Sam Altman还谈及了对于DeepSeek的看法。他表示,“它(DeepSeek)确实是一个非常好的模型,OpenAI会开发出更好的模型,但我们不会像往年那样保持那么大的领先优势了。”


他还表示OpenAI正在讨论一个新的开源策略。“我个人认为,在这个问题上我们站错了队,需要想出一个不同的开源策略;不是OpenAI的每个人都持有这种观点,而且这也不是我们目前的最高优先级。”(来源:The Information


10. 人形机器人公司Figure终止与OpenAI的合作,称自研端到端取得“重大突破”


2月5日,位于硅谷的机器人新创企业Figure在社交平台X宣布终止与OpenAI的合作关系。该公司声称在完全端到端的机器人AI方面取得了重大突破,且完全自主研发。


公司创始人布雷特・阿德科克虽未透露技术细节,但表示将在30天内推出“颠覆人形机器人行业”的创新成果。



据悉,作为Figure的早期投资者,OpenAI去年曾与其达成合作协议,共同开发面向人形机器人的新一代AI模型。去年夏季双方曾宣布,Figure 02人形机器人将搭载OpenAI的自然语言交互系统。


据外媒TechCrunch报道,阿德科克解释合作破裂源于技术整合难题。他指出,OpenAI作为通用人工智能领域的巨擘,其技术路线与专注实体机器人的具身智能存在本质差异。“要实现真正可商用的机器人智能,必须建立从硬件到软件的垂直整合体系。就像我们自主研制机械关节,AI大脑也必须量身定制。”相比之下,专门为机器人打造完整的端到端人工智能系统,才是Figure AI认为的正确道路。

11. 消息称OpenAI新一轮融资至多400亿美元,估值将达3000亿美元


近日,据外媒报道,OpenAI正在就新一轮融资进行谈判,拟筹资金额高达400亿美元,估值将达到3000亿美元。据悉,日本软银集团可能会在本轮融资中领投,投资最高达250亿美元。(来源:华尔街日报


12. OpenAI申请新商标,将涉足人形机器人、智能硬件等领域


近日,OpenAI向美国专利商标局(USPTO)提交了一份新的商标申请。根据申请文件,OpenAI计划开发一系列硬件产品,包括耳机、眼镜、遥控器、笔记本电脑和手机保护壳、智能手表、智能珠宝,以及用于“人工智能辅助交互、模拟和训练”的虚拟现实(VR)和增强现实(AR)头显设备。

据悉,去年OpenAI确认正与前苹果设计师乔尼・艾维合作开发硬件项目。OpenAI首席执行官萨姆・阿尔特曼在接受韩国媒体The Elec采访时表示,公司希望通过与多家企业合作,开发由人工智能驱动的消费级硬件产品。不过,阿尔特曼也坦言,即使完成一款AI设备的原型,也可能需要“数年时间”。

13. Anthropic将为Claude AI引入双向语音模式


近日,Anthropic CEO达里奥・阿莫代伊在瑞士达沃斯世界经济论坛期间接受《华尔街日报》采访时透露,Anthropic计划为旗下的Claude AI聊天机器人增加“双向语音模式”,有望为Claude带来类似ChatGPT高级语音模式类似的交互体验。


与此同时,Anthropic声称他们还计划增强Claude的记忆功能,以赋予其个性化能力。允许AI长期记忆用户在对话中的偏好,例如“用户对某项运动或手工编织的喜爱”,从而后续交流中为用户提供更加贴合个性化需求的互动体验。


14. 微软Copilot开放“深度思考”AI功能,OpenAI o1推理模型免费用


1月30日,Microsoft AI公司首席执行官Mustafa Suleyman在X平台发布推文,宣布所有Microsoft Copilot用户现在都可以免费使用OpenAI的o1推理模型。


这意味着深度思考(Think Deeper)功能将不再局限于付费的Copilot Pro用户,所有用户都能利用这项功能进行更复杂的多步骤结构化推理。


Suleyman还暗示微软正在计划进一步的AI扩展:“我们还有很多正在筹备中的项目,我迫不及待地想告诉大家。”


据悉,深度思考功能于2024年10月在Copilot Labs首次推出,该功能利用OpenAI的o1模型,专注于思维链推理,旨在提高回复的深度和准确性。

15. JetBrains推出全新AI编程工具Junie,以开发者为中心可生成风格一致代码


2月1日,JetBrains宣布推出一款名为Junie的全新AI编程工具,官方称这款AI工具既能执行简单的代码生成与检查等基础任务,也能应对“编写测试、验证结果”等更复杂的项目,从而为开发者提供高效支持。



根据SWEBench Verified基准测试结果,Junie能在单次执行中完成53.6%的程序开发任务,JetBrains认为这一成绩显示出Junie已具备足够的实用性,“能够应对当前开发环境中高强度、多样化的挑战”。


目前,Junie支持IntelliJ IDEA Ultimate和PyCharm Professional,未来还将扩展到WebStorm。开发者只需安装相关插件,即可在自己熟悉的IDE中启用Junie。官方称这种设计确保开发者无需大幅调整现有工作流程,即可快速上手。


JetBrains额外提到,Junie特别强调以开发者为中心,AI进行的每次代码修改和建议都需要经过开发者审核。此外Junie也能够遵循团队的代码风格与规范,生成风格一致的代码。


JetBrains现已开启早期体验计划,目前仅支持macOS和Linux平台开发者申请试用,未来官方将加入对Windows系统的支持。(来源:IT之家)


(整理:月山橘)

(文:AI新榜)

欢迎分享

《DeepSeek和OpenAI神仙打架!一文速览春节假期AI热点》有1条评论

发表评论