超越o1&QwQ-32B,中科院SolutionRAG大幅提升复杂工程方案设计能力

🔍 摘要速览

研究痛点复杂工程方案设计是人类生产活动中极为重要的任务,但现有的检索增强生成(RAG)技术在处理复杂工程方案设计任务时表现不佳,缺乏对多约束条件的全面考虑和可靠解决方案的生成能力。

创新突破:中科院&通义实验室提出了一个新的基准测试集SolutionBench,用于评估系统在多约束复杂工程问题上的解决方案生成能力。同时,提出并开源了一种基于树状探索和双点思维的新型系统SolutionRAG,通过灵活的方案改进过程和设计-审查交替机制,逐步提升方案的可靠性和完整性。
提出了复杂工程方案设计任务,并提出了一种新系统,该系统可以通过双点思维树生成可靠的解决方案。
应用价值实验结果表明,SolutionRAG在SolutionBench上取得了最先进的性能,显著优于现有的深度思考模型(o1-2024-12-17、GLM-Zero-Preview、QwQ-32B-Preview)和传统RAG方法(Self-RAG、RQ-RAG、Rerank-RAG)
例如,在采矿领域,SolutionRAG的技术得分比Naive-RAG提高了10.4分,比Self-RAG提高了8.9分。这表明SolutionRAG能够为复杂工程问题提供更完整、更可靠的解决方案,有望在实际应用中提升工程方案设计的自动化和可靠性。
🧠 方案详情

SolutionRAG的示意图,在图中将每个节点的子节点数量设置为2,以便于展示。

SolutionRAG采用基于树的探索来寻找最优的解决方案改进过程,通过双点思维确保生成的解决方案满足所有约束条件,并利用剪枝机制来平衡效率和性能。


  1. SolutionBench基准测试集:从多个工程领域的权威期刊中收集技术报告,通过模板化提取和人工验证构建高质量数据集,涵盖环境、采矿、交通等八大领域,包含数千个复杂工程问题和专家解决方案。

  2. 树状探索机制:SolutionRAG通过树状结构进行方案改进,每个分支代表一种改进方向,避免固定推理模式的局限性,动态探索最优改进路径。

  3. 双点思维机制:在树的生长过程中,交替进行方案设计和审查,通过设计-评论-改进的循环,逐步提升方案的完整性和可靠性,确保满足所有约束条件。

  4. 节点评估与剪枝:基于节点的可靠性评分和评论的有用性评分进行剪枝,保留最有潜力的方案和最有帮助的评论,平衡推理效率和性能。

用于计算分析分数和技术分数的Prompt,以标准解决方案、解释以及对应的分析知识和技术知识为参考,使GPT-4o能够评估系统解决方案是否充分考虑了复杂约束带来的挑战,并应用适当的技术来解决需求中的复杂约束。
      https://arxiv.org/pdf/2502.20730DeepSolution: Boosting Complex Engineering Solution Design via Tree-based Exploration and Bi-point Thinkinghttps://github.com/Li-Z-Q/DeepSolution

      (文:PaperAgent)

      发表评论

      ×

      下载每时AI手机APP

       

      和大家一起交流AI最新资讯!

      立即前往