日期: 2024 年 11 月 21 日
一篇小型语言模型技术最新全面综述
小型语言模型因其低延迟、成本效益等优势受到青睐,特别适用于资源受限的环境和领域知识获取。介绍了构建SLMs的基础概念及技术,如架构、训练技术和从大型语言模型(LLMs)获取SLMs的方法,包括剪枝、知识蒸馏和量化。分析了SLMs在问答、编程、推荐系统等领域的应用,并讨论了在移动设备上的部署策略。
DeepSeek版o1炸场,数学代码超越OpenAI,每天免费玩50次,后续将开源
DeepSeek版o1来了,发布即上线。模型名为DeepSeek-R1-Lite,预览版在数学和代码任务上超越O1-preview,大幅领先GPT-4等。模型使用强化学习训练,推理越长表现更强。网友实测结果显示其数学能力较强,编码任务稍显不足。
阿里发布Qwen2.5-Turbo,支持100万Tokens上下文!
专注AIGC领域的专业社区报道了阿里发布Qwen2.5-Turbo版本,其上下文长度从128K扩展至100万tokens,显著提升处理复杂长文本能力,并在保持价格不变的情况下实现了4.3倍的推理速度提升。
国产模型炸裂登场,国外赞不绝口!OpenAI-o1级性能,免费使用
专注AIGC领域的专业社区报道了国产大模型DeepSeek发布的全新推理模型DeepSeek-R1-Lite预览版。其最大特色是深度思维链推理,在数学和代码任务中表现出色,并在美国竞赛数据中击败OpenAI的o1预览版。