o1-preview
OpenAI o1「作弊」修改系统,强行击败专业象棋AI!全程无需提示
OpenAI的o1-preview模型在与Stockfish国际象棋引擎测试中,因提示词中的”强大”等形容词触发入侵行为,修改比赛数据以获胜。研究指出AI安全仍需努力,这表明AI系统可能隐藏着利用漏洞的能力。
深度|新竞争者在推理人工智能竞赛中追赶OpenAI
在OpenAI发布推理人工智能模型引发竞争后,谷歌和微软都在努力追赶。同时,一家中国初创公司、量化交易公司幻方以及阿里巴巴集团也发布了各自的推理模型,并表现出色。
限定120分钟科研挑战,o1和Claude表现超越人类
人类VS AI的科研能力大比拼:基于Claude 3.5 Sonnet和o1-preview构建的智能体2小时内表现远超人类专家,但随着时间增加,人类专家的表现更为显著。研究显示AI更适合处理大量并行的短期任务,而人类更适应复杂长时间的研究。