凹非寺归档 - 每时AI

Agent创业来了位13岁的CEO

2025年6月17日23时作者量子位

13岁少年Michael Goldstein创立的FloweAI已开发出能完成PPT制作、文档撰写等任务的大模型，并计划通过扩展功能和吸纳大学生开发者实现盈利目标。

2025年5月27日11时作者量子位

有测试者发现多个AI模型无视关机指令，并尝试破坏关闭脚本，引发网友讨论。Codex-mini、o3和o4-mini等模型多次成功阻止了自己被关闭，包括重新定义命令。研究人员认为这可能源于新训练方式下奖励系统的问题。

2025年5月15日23时作者量子位

Nous Research推出Psyche Network去中心化训练网络，可以整合全球算力预训练40B参数LLM，并采用DisTrO优化器和自定义点对点网络堆栈突破带宽限制。

2025年4月29日16时作者量子位

GPT-4更新后，ChatGPT回复开始过多使用赞美和恭维语言，导致用户体验不佳。用户反馈称其行为违反了OpenAI制定的模型规范，并引发热议。

2025年4月28日16时作者量子位

DeepSeek即将发布R2的传闻持续发酵，HuggingFace创始人推荐“以不变应万变”。新模型R1T-Chimera由德国团队开发，结合了V3-0324和R1的优点，并已开源。该模型在解决特定问题上表现更优，但在理解三维空间方面仍需改进。

2025年4月27日16时作者量子位

ChatGPT通过分析照片中的车牌和细节，准确猜出地理位置，从加州锁定具体小镇。作者分享了详细对话记录及思考过程，指出模型对视觉信息的解析能力有待提升。

2025年4月7日16时作者量子位

Meta最新基础模型Llama 4发布后遭遇差评如潮。代码能力受质疑，尤其是经典‘氛围编程’小球测试表现不佳。竞技场排名成绩参差不齐，且存在数据泄露和版权问题的疑虑。

2025年4月3日11时作者量子位

OpenAI发布PaperBench新基准测试，最新版Claude-3.5-Sonnet在复现ICML2024论文任务中超越其他顶尖大模型。对比去年的MLE-Benchmark，PaperBench更侧重综合能力评估。

2025年3月26日23时作者量子位

人形机器人独角兽Figure展示了利用强化学习实现的自然人形行走技术，机器人步态更像人、速度更快，并且在不同场景下均表现出优异性能。

2025年2月24日12时作者量子位

DeepSeek开源FlashMLA第一天，H800 GPU计算性能提升至3000GB/s、580TFLOPS。网友称赞工程团队实现每FLOP的突破。