物理问题归档

PhysUniBenchmark：首个大规模多模态物理推理基准

2025年6月30日8时作者 NLP工程化

首个大规模多模态物理推理基准PhysUniBenchmark发布，包含3304道经验证的物理问题，支持多语言评估，开放性问题准确率仅为26.5%。

2025年1月22日16时作者机器之心

谷歌发布Gemini 2.0 Flash Thinking新版本，引入1M长上下文窗口，在Chatbot Arena中再次夺冠。其亮点包括强大的多模态理解和流畅的对话过程，展示了模型在多个领域的强大能力。

2024年12月20日14时作者机器之心

谷歌发布的新模型Gemini 2.0 Flash Thinking能够在1分钟左右明确展示其思考过程并解决复杂的数学和编程问题，表现出色但有时也会犯错。