告别Softmax缺陷!LogTokU四象限框架用证据强度根治LLM幻觉 2025年6月23日23时 作者 PaperWeekly 指标, 对于 提升 LLM 可信度 、支撑 下游任务至关重要。 然而,传统基于概率的不确定性估计方法
6大模型决战高考数学新一卷:豆包、元宝并列第一,OpenAI o3竟惨败垫底 2025年6月8日8时 作者 机器之心 上午刚经历了抽象作文的洗礼,下午又被数学无情创飞。考试一结束,「高考数学」、「新一卷数学大题 难」等
全球顶尖AI做物理,被人类按地摩擦?不懂推理大翻车,本科生碾压 2025年5月27日23时 作者 新智元 ,那做物理题水平如何呢?港大等机构的研究发现:即使GPT-4o、Claude 3.7 Sonnet这