实测天工4.0,比肩o1,力压kimi,推理能力大增!
昆仑万维发布「天工大模型」4.0版本,免费向用户开放。Skywork o1在数学和代码基准测试中表现优于国产模型。对比其他模型,其推理能力和学习能力有所提升。
昆仑万维发布「天工大模型」4.0版本,免费向用户开放。Skywork o1在数学和代码基准测试中表现优于国产模型。对比其他模型,其推理能力和学习能力有所提升。
罗永浩发布首款AI产品J1 Assistant,集短信、搜索、笔记、ChatGPT等功能于一体,支持多任务并发处理。它能准确执行复杂的指令和任务,包括通知多人开会、制定减肥计划等,展示了较强的交互能力和复杂任务完成能力。
快手可灵1.6模型升级发布,相比Veo2在物理世界、人物动作及复杂场景方面均有提升。对比测试中可以看出1.6版本视频更加真实自然。
DeepSeek V3 是一款6710亿参数的开源模型,在训练成本上仅需278.8万GPU小时。其技术创新包括多头潜在注意力(MLA)和混合专家架构(MoE),展示了在推理效率和成本控制上的潜力,引发了业界对于更经济实惠AI路径的关注与讨论。
年底沉寂的AI 行业,突然被一家中国公司刷屏。DeepSeek-v3 发布后,性能比肩GPT-4、Claude 3.5等开源模型。作为华裔,Alexandr Wang 称其为“全球最佳开源LLM”,并称赞其高效生成方式和成本优势。
OpenAI在12天直播中推出了新的推理模型o3和o3 Mini,并开放外部安全研究人员进行测试。o3在SWE-Bench Verified测试中的准确率达到71.7%,比前代产品o1高出约20%;数学能力上表现突出,在AIME 2024数学竞赛中得分96.7%。