大型语言模型
IBM 悄无声息的发布了 granite-3.2-8b 开源模型
Granite-3.2-8B-Instruct-Preview 是一款早期发布的 8B 长上下文模型,专为增强推理能力而进行微调,基于 Granite-3.1-8B-Instruct 构建,并使用开放许可开源数据集和合成数据训练。
大神Karpathy更新AI科普视频,小白友好!
Andrej Karpathy 在 YouTube 上发布了一段长达 2 小时的学习视频,详细介绍了如何使用大型语言模型(LLM),涵盖模型生态系统、交互示例和多种应用场景。
Search-R1:高效、可扩展的强化学习训练框架
高效、可扩展的强化学习训练框架Search-R1,支持3B规模的基础LLM,通过规则化奖励机制让LLM自主学会推理和搜索,提供完整的训练流程和工具支持。
Karpathy更新AI科普视频,网友:原本周末打算结个婚,改看视频了
Andrej Karpathy发布了一个长达2个多小时的学习视频,介绍了如何使用大型语言模型(LLM),涵盖从基础交互到高级数据分析等多方面内容。
免费获取微软《AI + CX 转型实战指南》!营销、销售、服务难题迎刃而解~
专注AIGC领域的专业社区,聚焦大语言模型(LLM)及客户体验。通过嵌入AI功能提升运营效率和客户满意度,帮助企业实现营销、销售和服务转型。
大模型轻量化系列解读 (八):降低 LLM 中因 Activation Spikes 导致的量化误差
型语言模型在后训练量化时面临的激活量化挑战,发现GLU激活中的“激活尖峰”会导致显著的量化误差。为此
深度|领英创始人:DeepSeek后, 中国已经参与AI游戏,人类需要以人性化且富有同情心的方式应对新技术
了效率,所以问题不在于它是否会有回报,问题是我们要进行哪些投资以及在什么时间范围内投资
我认为会有多