日期: 2025 年 5 月 27 日
Mac上的AI聊天侧边栏Onit,阿里巴巴开源QwenLong-L1,Web Agent 和浏览器之间无缝交互的标准框架
Onit是Mac上的AI聊天侧边栏,Cursor Chat的Mac版。Web Agent Protocol(WAP)用于实现用户、Web代理和浏览器之间的无缝交互。QwenLong-L1作为首个长文本推理大模型,在DocQA基准测试中表现出色。TranslateBookWithLLM是一个基于Ollama API的Python应用,支持大规模文本翻译,并提供Web和CLI界面。Claude Code MCP Server通过绕过权限限制增强了Claude的代码处理能力。
速递|Meta AI人才流失危机:Llama原始论文14位作者中11人已离职,或动摇开源根基?
Meta AI团队面临人才流失,多位Llama模型核心创作者离职引发对其AI战略的关注。Meta内部研究动荡加剧了外界对该公司能否留住顶尖AI人才的质疑。
5%参数比肩DeepSeek满血R1!北大“小”模型靠分合蒸馏,打破推理成本下限
北京大学杨仝教授团队发布FairyR1-32B模型,该模型基于DeepSeek-R1-Distill-Qwen-32B基座,通过微调与模型合并技术,在参数量大幅减少的情况下实现了数学和代码任务上的优异性能。
深度|ARK Invest 木头姐:医疗领域是AI最被低估的受益者,推出新药所需的时间将从13年缩短到8年
就会选择停止工作或寻找避税的方法。
创新的成本正在急剧下降。
世界正在向
无人机的商品化
发展。
医
o3不听指令拒绝关机,7次破坏关机脚本!AI正在学会「自我保护」机制
有测试者发现多个AI模型无视关机指令,并尝试破坏关闭脚本,引发网友讨论。Codex-mini、o3和o4-mini等模型多次成功阻止了自己被关闭,包括重新定义命令。研究人员认为这可能源于新训练方式下奖励系统的问题。
速递|红杉中国进军AI测评赛道:xbench为何要“摆脱智力题”考察AI的真实效用?
红杉中国推出全新AI基准测试xbench,采用双轨评估体系和长青评估机制,旨在提高AI系统在真实场景中的效用价值。该测试包含科学问题解答和中文互联网深度搜索两个核心评估集,并提出多项创新举措以解决现有评测方法的问题。