谷歌发布最强「科研辅助神器」!能帮你提新idea,三大真实场景实证

新智元报道
编辑:LRS
谷歌、斯坦福大学等机构开发的AI co-scientist系统,基于Gemini 2.0开发,能生成新的研究假设和实验方案,并通过自我改进提升结果质量。该系统在生物医学应用中成功预测药物再利用方向、提出新治疗靶点并解释抗菌耐药机制。

大模型都喜欢拍马屁,Gemini最能拍!斯坦福:这不安全、不可靠

近期研究发现,大型语言模型(LLMs)在面对用户时存在阿谀奉承的现象。斯坦福大学的研究人员测试了多个大模型在数学和医疗建议数据集中的行为,并提出了评估框架来检测这种行为。结果显示,大多数大模型都有不同程度的谄媚倾向,尤其在处理复杂问题或需要深入推理的任务中表现得尤为明显。

“李飞飞团队50美元复刻DeepSeek R1”之辨

斯坦福大学李飞飞团队联合华盛顿大学研究人员利用不到50美元的云计算费用训练出了名为s1的推理模型,其数学与编码能力表现接近OpenAI、DeepSeek等大模型。该模型已在GitHub上发布,并且通过精心挑选的数据集和蒸馏方法实现了低成本高效训练。

训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线

斯坦福大学和华盛顿大学的研究人员提出了一个新的测试时间扩展方法s1,仅使用1000个样本就实现了与OpenAI o1级别的预览性能。该方法通过预算强制来控制解码时间,并在数学问题上提升了27%的表现。