澳国立推出A³-CodGen框架:多维知识融合助力代码仓库级别代码生成
论文提出A³-CodGen框架,通过整合本地、全局和第三方库信息提升LLMs生成高质量代码的能力。该框架包括知识构建、三类知识检索及代码生成三个阶段。实验表明,全面知识增强显著提升了LLMs的复用能力和正确性。
大语言模型
论文提出A³-CodGen框架,通过整合本地、全局和第三方库信息提升LLMs生成高质量代码的能力。该框架包括知识构建、三类知识检索及代码生成三个阶段。实验表明,全面知识增强显著提升了LLMs的复用能力和正确性。
本周最受关注的进展包括DeepSeek发布6710亿参数模型DeepSeek-V3、智谱开源GLM-PC基座模型CogAgent-9B、阶跃星辰推出增强型AI图像模型Step-1X-Medium、阿里通义千问开源视觉推理模型QVQ-72B-Preview、马斯克xAI完成60亿美元C轮融资以及Cursor融资1亿美元。这些进展涵盖了AI领域的算法优化、模型性能提升及投资动态,体现了技术进步和行业发展的前沿方向。
DeepSeek V3发布技术报告,其高效能和低算力依赖使其成为当前最强开源基础模型。预训练阶段成本仅为557万美元,性能对标GPT-4o及Claude-3.5-Sonnet。
最近研究RAG后思考了嵌入与向量在大模型中的作用;嵌入解决数据向量化问题,向量则描述数据间关系;前者本质上是映射到高维矩阵中以捕捉语义关系,而后者则是数学概念中表示有方向和大小的量。
木易分享了OpenAI公司结构的重大变革,旨在通过将营利性子公司转变为特拉华州公共利益公司(PBC)来吸引传统投资,并确保其使命——确保通用人工智能造福全人类的实现。
文章介绍了在现有预训练模型基础上进行微调的方法,包括监督式微调、偏好对齐方法(如基于人类反馈的强化学习和直接偏好优化)、单体偏好优化等,强调了其在提升模型实用性和适应特定任务中的优势。
木易介绍了自己的公众号“AI信息Gap”,专注于分享AI知识,并介绍了国产AI公司DeepSeek的技术和产品。DeepSeek发布了一系列模型,包括V3,并且在性能上表现出色,如参数量大、训练高效等。同时提供了多种使用方式。