硅星GenAI
知乎直答,正在让AI搜索迈向“AI+人类专家”的协作时代
知乎直答通过增强与社区创作者的连接,追溯回答来源到具体知乎答主的原创内容上,提升了AI搜索结果的信息可信度和专业性,并实现了功能层面和思路上的升级。
无需Attention的未来,RWKV-7能成为替代Transformer的那只黑天鹅吗?
在Transformer计算需求呈平方级增长下,元始智能彭博提出RWKV架构融合了Transformer和RNN的优点,在训练与推理阶段均表现出色,并通过动态状态演化技术显著提升了性能表现。
「独家」实时物理AI仿真平台松应科技完成天使轮融资 中科创星领投
松应科技完成天使轮融资,中科创星领投。公司产品为国产物理AI仿真平台ORCA,旨在提升具身智能大脑训练效率并降低成本。目前已有近20家商业客户,包括央国企、科研中心等。本轮资金将用于产品研发和扩充团队。
DeepSeek开源周Day 4:并行优化策略三连发,梁文峰亲自参与开发
DeepSeek发布三项开源项目,包括DualPipe、EPLB和Profile-data,旨在优化模型训练中的并行策略,减少通信开销,提升GPU利用率。
实测万相2.1,全球首个中文文字生成开源模型,吊打Sora了?
DeepSeek开源周内,阿里发布了Wan2.1模型。该模型支持文生视频和图生视频任务,并且采用了宽松的Apache2.0协议。万相2.1在VBench评测中表现出色,但在文本生成、物理细节理解和变形处理等方面仍存在不足。通过采用3D时空变分自动编码器(Wan-VAE),模型能在消费级显卡上运行并优化内存使用和生成速度。
DeepSeek开源周Day 3:DeepGEMM——300行代码性能飙升2.7倍,比英伟达更懂如何优化英伟达?
DeepSeek开源的DeepGEMM库在Hopper GPU上实现FP8 GEMM,最高可达1350+ FP8 TFLOPS。它仅约300行代码,设计简洁,性能表现与专家调优的复杂库相当甚至更好,在各种矩阵形状和模型类型上均保持优势。
DeepSeek开源周Day 1: FlashMLA——大家省,才是真的省
DeepSeek发布首个开源项目FlashMLA,专为英伟达Hopper GPU设计,实现了高效MLA解码内核,提供3000GB/s内存带宽和580TFLOPS计算性能,已在GitHub上吸引5000+星。
DeepSeek开源周Day 2: DeepEP——解锁MoE模型通信瓶颈
DeepEP是针对Hopper GPU优化的MoE模型训练与推理高效通信库,支持FP8和低延迟推理解码,通过NVLink和RDMA提升效率。