DeepSeek R2没来,Kimi K2来了,VLLM,SGLang首发支持
杨植麟提出开源路线,Moonshot AI发布Kimi K2大语言模型,采用混合专家架构,参数量达1万亿,表现出色并在多个基准测试中创造新SOTA记录。核心技术包括MuonClip优化器、大规模Agent数据合成和通用强化学习框架。模型提供两种版本,并通过修改版MIT协议开源。
杨植麟提出开源路线,Moonshot AI发布Kimi K2大语言模型,采用混合专家架构,参数量达1万亿,表现出色并在多个基准测试中创造新SOTA记录。核心技术包括MuonClip优化器、大规模Agent数据合成和通用强化学习框架。模型提供两种版本,并通过修改版MIT协议开源。
Kimi研究团队提出的MoBA注意力机制显著提升了处理1M和10M长文本的速度,相比传统方法快了6.5倍和16倍。MoBA通过将上下文划分为块,并采用参数无关的top-k门控机制选择最相关的块来高效处理长序列数据。
月之暗面Kimi因DeepSeek热潮暂缓‘烧钱’投放。近期大模型六小虎中有五家公司减少或暂停广告投放。月之暗面对推广动作进行相应调整,并推出新模型Kimi Latest,聚焦长文本输入与上下文长度控制。
月之暗面创始人被前一次创业的部分投资人申请仲裁一事闹得沸沸扬扬。朱啸虎质疑月之暗面与循环智能签署的拆分协议有效性并爆料张予彤持股问题,杨植麟回应称该股份是通过多年兑现方式获得,并非因董事会决议而拥有。对于仲裁内容主要集中在程序瑕疵和利益冲突两方面,最终判断认为该决议有效且张予彤未违反信义义务。
金沙江创投主管合伙人朱啸虎回应月之暗面创始人杨植麟和联合创始人张宇韬被提起仲裁事件,指出张予彤隐瞒重大利益冲突导致董事决议无效。
金沙江创投主管合伙人朱啸虎在朋友圈发文回应月之暗面争议,称‘分拆’循环智能项目月之暗面临时未获股东决议签字。文章指出张予彤隐瞒利益冲突、欺诈行为及被解雇等问题,引发广泛关注。