未来生活实验室归档

27个大模型混战电商领域，DeepSeek-R1&V3仍是最强丨首个中文电商问答基准评估结果

2025年3月15日16时作者量子位

ChineseEcomQA是淘天集团研发的首个聚焦电商领域的可扩展问答基准，旨在精准评估大模型对电商基础概念的理解。它通过覆盖20个行业的1800组高质量问答数据来提升模型性能，并探讨了RAG在增强LLM知识方面的作用。

2025年1月19日16时作者机器之心

AIxiv专栏介绍及论文《Token Preference Optimization with Self-Calibrated Visual-Anchored Rewards》内容。该研究提出一种创新方法缓解视觉大模型幻觉现象，提升多模态偏好对齐效率和自动化水平。