27个大模型混战电商领域,DeepSeek-R1&V3仍是最强丨首个中文电商问答基准评估结果

ChineseEcomQA是淘天集团研发的首个聚焦电商领域的可扩展问答基准,旨在精准评估大模型对电商基础概念的理解。它通过覆盖20个行业的1800组高质量问答数据来提升模型性能,并探讨了RAG在增强LLM知识方面的作用。

微软开源用于专业领域问题的RAG系统:PIKE-RAG

微软开源的PIKE-RAG系统解决了传统RAG处理专业领域知识的局限性。它通过提取和应用领域特定知识,逐步引导LLM生成准确答案。包含多个模块来满足不同功能需求,并在医疗、工业制造等领域提高了问答准确性。