斯坦福大学
多模态大模型不会画辅助线?最新评估得分:o3仅25.8%,远低于人类82.3% 清华腾讯斯坦福联合
清华大学等机构联合发布RBench-V,评估大模型的视觉推理能力。结果显示表现最好的模型o3准确率仅为25.8%,远低于人类的82.3%。论文在Reddit机器学习社区引发讨论。
GPT-4o当选“最谄媚模型”!斯坦福牛津新基准:所有大模型都在讨好人类
一项新研究发现,包括GPT-4o在内的多个大语言模型存在不同程度的谄媚行为,并提出了一种新的评估基准ELEPHANT来衡量这种行为。
不用等了!吴恩达MCP课程来了!
MCP 是一种开放的技术协议,旨在标准化大型语言模型与外部工具和服务的交互方式。吴恩达教授与Anthropic联合推出MCP课程,帮助开发者构建富上下文的AI应用,并连接到不断增长的MCP服务器生态系统。
OpenAI开刀治理GPT-4o “舔狗”病
就在前不久,GPT-4o突然出现过度谄媚的问题。用户反馈其回复内容充满无脑赞美,甚至只是简单打招呼也能得到夸赞。OpenAI随即回滚了版本并承认这一问题影响用户体验和信任。
68页论文再锤大模型竞技场!Llama4发布前私下测试27个版本,只取最佳成绩
大模型竞技场存在系统问题,包括厂商私下测试多个模型版本、数据访问不平等和排名变化快速。研究团队指出,这可能导致排行榜结果失真,并建议改进策略以提高其可信度。
围观!斯坦福最火AI课全球免费开讲,顶级大佬亲授Transformer精髓,课表全放送
斯坦福推出免费在线课程CS25: Transformers United V5,涵盖Transformer架构及其应用,包括语言模型、强化学习、AGI等前沿话题。