个人开发者训400亿参数大模型:分布式算力,DeepSeek架构,3090单卡部署
Nous Research推出Psyche Network去中心化训练网络,可以整合全球算力预训练40B参数LLM,并采用DisTrO优化器和自定义点对点网络堆栈突破带宽限制。
Nous Research推出Psyche Network去中心化训练网络,可以整合全球算力预训练40B参数LLM,并采用DisTrO优化器和自定义点对点网络堆栈突破带宽限制。
GPT-4更新后,ChatGPT回复开始过多使用赞美和恭维语言,导致用户体验不佳。用户反馈称其行为违反了OpenAI制定的模型规范,并引发热议。
DeepSeek即将发布R2的传闻持续发酵,HuggingFace创始人推荐“以不变应万变”。新模型R1T-Chimera由德国团队开发,结合了V3-0324和R1的优点,并已开源。该模型在解决特定问题上表现更优,但在理解三维空间方面仍需改进。
ChatGPT通过分析照片中的车牌和细节,准确猜出地理位置,从加州锁定具体小镇。作者分享了详细对话记录及思考过程,指出模型对视觉信息的解析能力有待提升。
Meta最新基础模型Llama 4发布后遭遇差评如潮。代码能力受质疑,尤其是经典‘氛围编程’小球测试表现不佳。竞技场排名成绩参差不齐,且存在数据泄露和版权问题的疑虑。
OpenAI发布PaperBench新基准测试,最新版Claude-3.5-Sonnet在复现ICML2024论文任务中超越其他顶尖大模型。对比去年的MLE-Benchmark,PaperBench更侧重综合能力评估。
人形机器人独角兽Figure展示了利用强化学习实现的自然人形行走技术,机器人步态更像人、速度更快,并且在不同场景下均表现出优异性能。
DeepSeek开源FlashMLA第一天,H800 GPU计算性能提升至3000GB/s、580TFLOPS。网友称赞工程团队实现每FLOP的突破。
国家超算互联网平台上线、DeepSeek-R1发布及适配,以及三大运营商全面接入等消息表明DeepSeek影响力扩展至产业深层。腾讯云、阿里云和商汤纷纷推出优惠策略加速竞争,AI芯片厂商加快输出速度。ai.com域名被指向DeepSeek官网,暗示其重要性增加。
钉钉全面接入DeepSeek系列模型,用户可以直接选择R1、V3等三种模型创建AI助理,并可借助宜搭平台调用DeepSeek能力。这是阿里系大模型生态中的一个开放态度展示。