大模型归档 - 第96页共97页 - 每时AI

视觉语言模型能否实现鲁棒的数学推理？UC伯克利发布测评基准DynaMath

下午1时 2024/12/11 下午8时 2024/11/23 作者 PaperWeekly

本文介绍了一项新的动态生成的测评基准DynaMath，用于评估和研究视觉语言模型在处理多模态数学问题时的推理能力。通过分析当前最强的一些视觉语言模型（如GPT-4o）在简单数学题上的表现，发现它们存在漏洞和鲁棒性不足的问题。DynaMath提供了501个高质量、多主题的种子问题及其变体，评估了14个最先进的视觉语言模型的表现，揭示了其推理稳健性的局限性。

北大、清华等提出LLaVA-o1，视觉语言模型中的o1来了！

下午2时 2024/12/15 上午12时 2024/11/23 作者 PaperWeekly

论文标题：
LLaVA-o1: Let Vision Language Models Reason

让CLIP更加精简！字节豆包大模型团队首创无文本编码器方法，高效提速不掉点

下午2时 2024/11/21 作者每时AI

近日，字节跳动豆包大模型团队提出 SuperClass，一个超级简单且高效的预训练方法。该方法首次舍

EMNLP 2024最佳论文：从反向传播矩阵来理解Transformer的运作机制

下午2时 2024/11/21 作者每时AI

论文标题：
Backward Lens: Projecting Language Model Gra

自我纠错如何使OpenAI o1推理能力大大加强？北大、MIT团队给出理论解释

下午2时 2024/11/21 作者每时AI

©作者 |
王奕森
单位 |
北京大学
自我纠错（Self Correction）能力，传统上被视为

精度与通用性不可兼得，北大、华为理论证明低精度下Scaling Law难以实现

下午2时 2024/11/20 作者每时AI

大模型量化通过降低精度来提高推理速度，但研究发现不同精度下大语言模型在基本数学任务上的表现显著下降。研究证明足够的精度是解决这些任务的重要前提，而量化会严重损害大模型的数学推理能力。

NeurIPS 2024 多样任务真实数据，亚马逊提出在线购物领域评测基准Shopping MMLU

下午2时 2024/11/20 作者每时AI

在线购物是现代生活中必不可少的组成部分。2023 年，在线购物销售额已经占到中国全部销售额的 46%

CVPR 2025已截稿！来自测论文接收率有多高

下午2时 2024/11/20 作者每时AI

文章介绍了撰写高质量学术论文的关键要素及审稿流程，并强调了选择合适的期刊、提升实验性能的重要性。同时提到了如何组织论文结构、写好回应信等内容。

Wiley Advanced系列将陆续上线六种期刊，包括两种聚焦人工智能领域期刊

下午1时 2024/11/19 作者每时AI

全球出版商Wiley宣布扩展其Advanced系列期刊至生命科学和医学领域，新增六种新期刊，并计划到2026年底在细胞、分子生物学等重要学科发布更多期刊。这一举措旨在为科研工作者提供跨学科优势，助力解决全球挑战如癌症治疗、气候变化及粮食安全等问题。

NeurIPS 2024 利用概念激活向量破解大模型的安全对齐，人大&港科大揭示LLM重要安全风险漏洞

下午1时 2024/11/19 作者每时AI

随着大语言模型能力的快速提升，其潜在的安全隐患愈发显著。尽管开发者进行了大量安全对齐工作，以避免模型被用于恶意 … 阅读更多