性能提升
向视觉版o1出击,阶跃张祥雨团队推出“慢感知”,实现感知层面的推理时scaling
研究团队提出’慢感知’概念,通过分解复杂几何图形为基本形状单元简化处理,并引入’感知流动’机制进行逐步推理。该方法旨在提高视觉模型对复杂几何结构的理解能力,提升多模态大模型在几何解析任务上的表现。
仅缩小视觉Token位置编码间隔,轻松让多模态大模型理解百万Token!清华大学,香港大学,上海AI Lab新突破
文章介绍了V2PE(Variable Vision Position Embedding),一种用于增强视觉-语言模型在长上下文场景表现的位置编码方法。通过实验验证了其有效性和优势,为视觉-语言模型的发展带来了新的机遇。
比RAG(检索增强生成)快40倍的CAG(缓存增强生成)
CAG(缓存增强生成)技术通过将所有知识预先加载到模型上下文中,实现了比RAG快40倍的知识获取速度,并在多个基准数据集上提升了准确率和连贯性。
RAG评估框架:RAG Triad框架及其实战
RAG三元组由三个关键指标组成:答案相关性、忠实度和上下文相关性。通过合理调整这些超参数,可以优化每个评估指标,实现更高效和准确的问答系统。使用deepeval库中的评估方法简单易行。