ACL 2025 多维阅卷,智识觉醒:打开多模态大模型看图写作评估的认知之门
研究构建首个面向MLLM的细粒度AES基准EssayJudge,采用10项细粒度评分维度,涵盖词汇、句子和文章三个层级,评价作文质量。
研究构建首个面向MLLM的细粒度AES基准EssayJudge,采用10项细粒度评分维度,涵盖词汇、句子和文章三个层级,评价作文质量。
OpenAI悄悄推出两小更新:高级语音模式更自然,引入‘先思考再搜索’机制。新版ChatGPT在处理情绪化句子和复杂问题时会暂停几秒进行思考,提升答案准确性但增加等待时间。
清华大学与墨尔本大学团队揭示了开源大模型微调过程中隐藏的安全风险,通过后门注入技术秘密窃取下游私有数据。该研究指出攻击者可从5000条微调数据中恢复接近4000条完整查询。
一种名为HtmlRAG的新方法让RAG系统能够充分利用HTML结构信息,大幅提升知识检索准确性。通过HTML清理、块树构建及两阶段剪枝技术,HtmlRAG解决了传统RAG系统的「近视」问题,显著提高了效率和准确性。