日期: 2025 年 6 月 10 日
看好了,这才是7家大模型做高考数学题的真实分数
这篇文章描述了作者利用多个推理模型进行了一场数学高考的模拟测试,并详细介绍了测试规则。最终结果显示,Gemini表现最突出,而DeepSeek和Qwen3则表现较弱。通过这次测试,作者认为对于AI模型来说,数学高考并非特别难,但识别错误会影响结果。文章强调了考试公正性和严谨性的重要性。
语音驱动的多人对话视频生成MultiTalk,AI智能体个性化记忆操作系统
五个项目介绍:Let Them Talk(语音驱动多人对话生成)、MemoryOS(个性化AI代理内存操作系统)、Gemini MCP Server for Claude Code(Claude增强服务器)、Spy Search(开源智能搜索框架)和ZIN MCP Client(轻量级CLI MCP客户端),涵盖多模态内容生成、AI交互控制、代码审查与分析等多个领域。
强化学习之父:LLM主导只是暂时,扩展计算才是正解
新晋图灵奖得主Richard Sutton预测大模型主导是暂时的,未来五年甚至十年内AI和强化学习将转向通过Agent与世界的第一人称交互获取‘体验数据’的学习。他强调AI需要新的数据来源,并且要随着增强而改进。他认为真正的突破还是来自规模计算。
苹果 iOS 26 一手体验:「液态玻璃」让 iPhone 更难用?升级前你需要知道这些细节
苹果在WWDC2025上发布了iOS26和iPadOS26,引入了全新的液态玻璃UI设计语言,包含更加丰富的动画、透明图标效果及改进的相机界面。
6分钟狂掉750亿市值!苹果发布会发啥了…
苹果WWDC大会因Siri更新推迟引发股价暴跌750亿美元。发布会聚焦液态玻璃设计、全系操作系统功能更新及AI能力的集成,但开发者反馈冷淡。苹果强调AI战略地位,但仍面临与OpenAI合作等挑战。
小红书开源1420亿参数大模型,部分性能与阿里Qwen3模型相当
小红书开源首个自研文本大模型Dots.llm1,拥有1420亿参数,包含多个阶段训练信息和数据。该模型在多任务表现中表现出色,并计划探索高效架构设计以提升计算效率。