MoE架构
字节新推理模型逆袭DeepSeek,200B参数战胜671B,豆包史诗级加强?
字节最新研发的Seed-Thinking-v1.5模型在数学、代码推理任务中表现优异,参数规模较小。该模型通过创新的数据处理方法、强化学习算法及基础设施优化提升了性能,并与其他领先模型进行了对比分析。
大,就聪明吗?论模型的“尺寸虚胖”
文章介绍了Gemma-3和DeepSeek V3在参数量上的对比,并指出模型效果不仅仅取决于参数大小。通过详细解释Dense和MoE架构的区别及其实际应用效果,强调了参数数量并不能直接反映模型性能优劣的观点。同时讨论了知识蒸馏技术如何让小模型继承大模型的能力,而不仅仅是关注模型的规模大小。
汤姆猫:AI产品已接入豆包、DeepSeek等模型能力,将开启海外市场的AI硬件布局
汤姆猫披露接待调研公告,公司AI机器人产品销售情况良好,并计划推进线上线下营销推广。团队详细介绍了机器人产品的售价、升级计划及竞争优势等内容。
支持“秒回”!腾讯推出混元新一代快思考模型 Turbo S了
腾讯发布混元 Turbo S模型,实现首字时延降低44%和吐字速度翻倍,重新定义人机交互即时性标准,揭示中国AI技术路径从’堆参数’到’拼效率’的转向。
【揭秘】AI幻觉:DeepSeek是如何产生幻觉的?如何应对与发挥创造力价值!
文章介绍了AI幻觉的概念及其对用户的影响,并探讨了DeepSeek大模型中存在的问题及解决方案。通过技术方案和技术策略的有效应用,可以减少AI幻觉对用户的负面影响,同时发掘其潜在创造力价值。
汤姆猫AI机器人底层模型有西湖心辰定制模型,也调用了豆包、DeepSeek
汤姆猫公司介绍了其AI情感陪伴机器人的底层模型、售卖进展及核心优势。产品采用MOE架构,并搭载了定制化的垂直情感模型,可覆盖老人小孩等任何年龄段用户使用。
R1满血版+联网+传文件+超级速度,我终于找到这款AI了
问小白提供满血版DeepSeek R1服务,支持联网及上传文件功能,并且速度快、功能全、响应及时。实测证明其在速度和功能上表现优秀,还有丰富的定制化选项如写诗、撰写宣传文案等。此外,还提供了针对AI教育的实用建议。