日期: 2024 年 11 月 27 日
跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本
CLIP 模型通过对比学习实现了视觉与文本的对齐。然而其文本处理能力有限,研究团队提出 LLM2CLIP 方法利用大语言模型提升 CLIP 的多模态表示学习能力,显著提升了 CLIP 在中文检索任务中的表现,并在复杂视觉推理中提升了 LLaVA 模型的表现。
深度|OpenAI创始人哈佛访谈:未来会被与AI互动的体验所取代,而我们会从中获得某种形式的陪伴感
图片来源:Harvard Business School 官网
Z Highlights
大幅提升科
Sora半夜泄露3小时,物理效果惊人!奥特曼急拔网线,艺术家抗议被白嫖
OpenAI的Sora API深夜泄露,艺术家因不满商业化营销方式抗议并公开API接口。泄露版本效果显著,OpenAI立即关闭艺术家权限。艺术家控诉称被白嫖,并呼吁使用开源工具来摆脱大公司控制。
微软准备开源LazyGraphRAG大大提升信息检索与生成的效果,管理 Cursor 编辑器的 AI 聊天记录,支持搜索和导出
LazyGraphRAG是一种高效图神经网络架构,结合图结构化信息和生成模型提升信息检索和生成效率。OminiControl是简约强大的通用控制框架,支持扩散变换器模型的多种生成任务。Freeze-Omni是智能低延迟语音对话模型,基于冻结的文本大语言模型。OpenReasoningEngine是一个模块化的开源推理引擎,通过开放协作提升模型能力。Cursor Chat Browser是一款Web应用程序,用于管理AI聊天记录,提供搜索和导出功能。
Anthropic开源MCP:大模型接入数据有了“统一插头”,Agent平台慌了?
Anthropic开源的模型上下文协议(MCP)旨在解决大模型无法灵活调用不同数据源的问题,通过统一的标准协议连接本地资源和远程资源。
Kimi数学模型正式上线,这是新鲜出炉的测评结果!
木易公众号分享的Kimi新上线数学模型k0-math功能介绍及测试体验,该模型通过强化学习和思维链技术提升复杂问题处理能力,但用户反馈认为其回答过程繁琐冗长,不如其他同类模型简洁直接。