大语言模型
DeepMind最新研究:逆向思维训练LLM可大幅提升AI推理能力
Google DeepMind的研究表明逆向思维训练大模型(LLMs)能显著提升其推理能力,通过构建包含正反向问题的数据集并利用知识蒸馏框架优化模型。
谷歌DeepMind推出“可微缓存增强”新方法了
谷歌DeepMind团队提出了一种名为‘可微缓存增强’的技术,该技术通过引入外部协处理器来增强大语言模型(LLMs)的键值(kv)缓存,显著提升了推理性能,并在多个基准测试中提高了准确率和性能。
AAAI 2025|多场景行人属性识别基准数据集MSP60K:57个类别和8个特定场景
本文提出了一种新的大规模跨域行人属性识别数据集MSP60K,以及一种名为LLM-PAR的大语言模型增强框架用于提升行人属性识别的准确性。
深夜发布!英伟达 Jetson Orin Nano“掌中超算”到底有多强?
英伟达发布Jeston Orin Nano超算,体积小至信用卡大小,内置CUDA核心和ARM CPU,提供高达每秒70万亿次的计算能力。耗电仅25瓦,价格从上代的Jetson Orin NX下降到249美元。老黄定义其为机器人处理器,支持本地信息采集训练、视觉AI处理及生成式AI应用。未来可应用于智能城市和智能家居领域。但因反垄断调查影响,普通用户暂时无法使用。
全面超越CoT!Meta田渊栋团队新作:连续思维链
Meta田渊栋团队提出的新范式Coconut(连续思维链)在LLM推理任务中性能更强、效率更高,通过移除模型头尾的LLM head和embedding层,并使用中间状态进行自回归。