大模型归档 - 第81页共97页 - 每时AI

澳国立推出A³-CodGen框架：多维知识融合助力代码仓库级别代码生成

上午8时 2024/12/30 作者 PaperWeekly

论文提出A³-CodGen框架，通过整合本地、全局和第三方库信息提升LLMs生成高质量代码的能力。该框架包括知识构建、三类知识检索及代码生成三个阶段。实验表明，全面知识增强显著提升了LLMs的复用能力和正确性。

用Python实现RLHF奖励模型构建，全方位提升模型表现！

下午10时 2024/12/29 作者 AI技术研习社

从 0 到 1：用 RLHF 和 Python 构建奖励模型，全面提升语言模型能力！

AI Weekly『12月23-29日』：DeepSeek-V3开源发布，xAI完成60亿美元C轮融资！

下午2时 2024/12/29 作者 AI信息Gap

本周最受关注的进展包括DeepSeek发布6710亿参数模型DeepSeek-V3、智谱开源GLM-PC基座模型CogAgent-9B、阶跃星辰推出增强型AI图像模型Step-1X-Medium、阿里通义千问开源视觉推理模型QVQ-72B-Preview、马斯克xAI完成60亿美元C轮融资以及Cursor融资1亿美元。这些进展涵盖了AI领域的算法优化、模型性能提升及投资动态，体现了技术进步和行业发展的前沿方向。

造梦师手记：低幼又性感的真人国风

上午10时 2024/12/29 作者路过银河AI

推荐Pony 5.0C大模型，能够显著提升画质效果，并针对亚洲人进行了优化。支持多种服饰和场景设定，提供丰富的面部细节和光影处理。

国产AI之光，正在超越ChatGPT！

下午4时 2024/12/28 作者路过银河AI

DeepSeek V3发布技术报告，其高效能和低算力依赖使其成为当前最强开源基础模型。预训练阶段成本仅为557万美元，性能对标GPT-4o及Claude-3.5-Sonnet。

大模型的嵌入——Embedding与向量——Ve ctor

下午2时 2024/12/28 作者 AI探索时代

最近研究RAG后思考了嵌入与向量在大模型中的作用；嵌入解决数据向量化问题，向量则描述数据间关系；前者本质上是映射到高维矩阵中以捕捉语义关系，而后者则是数学概念中表示有方向和大小的量。

OpenAI转营利，躺赢的竟然是DeepSeek？！

下午2时 2024/12/28 作者 AI信息Gap

木易分享了OpenAI公司结构的重大变革，旨在通过将营利性子公司转变为特拉华州公共利益公司(PBC)来吸引传统投资，并确保其使命——确保通用人工智能造福全人类的实现。

如何提升预训练LLMs：从零打造到微调优化的全攻略

下午2时 2024/12/27 作者 AI技术研习社

文章介绍了在现有预训练模型基础上进行微调的方法，包括监督式微调、偏好对齐方法（如基于人类反馈的强化学习和直接偏好优化）、单体偏好优化等，强调了其在提升模型实用性和适应特定任务中的优势。

新晋AI国产之光，这下实至名归了！

下午2时 2024/12/27 作者 AI信息Gap

木易介绍了自己的公众号“AI信息Gap”，专注于分享AI知识，并介绍了国产AI公司DeepSeek的技术和产品。DeepSeek发布了一系列模型，包括V3，并且在性能上表现出色，如参数量大、训练高效等。同时提供了多种使用方式。

长文本+o1？评估LLM在真实世界长文本多任务中的深度理解与推理能力

下午2时 2024/12/27 作者 PaperWeekly

近年来，长文本大语言模型的研究取得了显著进展，模型的上下文窗口长度已经从最初的 8k 扩展到 128