GPT-4
人类打辩论不如GPT-4?!Nature子刊:900人实战演练,AI胜率64.4%,还更会说服人
研究发现,GPT-4提前知晓对手个人信息的情况下,在辩论中胜率高达64.4%,且说服效果提升81.2%。研究还表明低、中强度话题更易被GPT-4影响,而人类则重情感互动。
谷歌智能体展示强大编程能力 Agent最适配场景呼之欲出?
谷歌发布AlphaEvolve AI工具,用于设计高级算法并解决数学难题,提升效率23%;OpenAI推出GPT-4.1提升编程能力;阿里云和腾讯云也在推动AI程序员应用。
AI 看片写 App!Gemini 2.5 首创音视频+代码原生融合+视频理解 SOTA,构建案例来了~
Google更新了两款Gemini新模型Gemini 2.5 Pro和Gemini 2.5 Flash,在视频理解和生成方面表现突出,能生成互动应用、p5.js动画及精准描述视频片段。
OpenAI开刀治理GPT-4o “舔狗”病
就在前不久,GPT-4o突然出现过度谄媚的问题。用户反馈其回复内容充满无脑赞美,甚至只是简单打招呼也能得到夸赞。OpenAI随即回滚了版本并承认这一问题影响用户体验和信任。
新SoTA方法RM-R1:让reward model对评分说出原因!超越GPT4o
MLNLP社区致力于促进国内外机器学习与自然语言处理的交流合作。近期发表论文提出推理奖励模型ReasRM,通过两阶段训练让小模型学会写评语,并在综合、数学题等测试集中优于GPT-4。该模型支持任务分类和动态奖励机制,已在多个领域展示优势。
大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%
BrowseComp-ZH团队发布新基准测试集,对20多个主流大模型进行中文网页能力测试,结果显示多数模型在中文互联网检索上准确率低于10%,仅有少数能突破20%。研究揭示了模型在中文信息环境中的“死角”,强调了推理能力和多轮策略的重要性,并指出搜索功能的不当使用可能误导模型。