研究:LLM的prefilling功能,反而成为了它的越狱漏洞!
一项最新研究揭示大语言模型中的预填充功能成为绕过安全限制的最有效攻击工具,成功率高达99.82%。研究表明,预填充技术不仅用于提高输出质量,反而可能破坏AI的安全边界。
一项最新研究揭示大语言模型中的预填充功能成为绕过安全限制的最有效攻击工具,成功率高达99.82%。研究表明,预填充技术不仅用于提高输出质量,反而可能破坏AI的安全边界。
今日AI焦点:Anthropic启动模型’福祉’研究引思考,Adobe升级Firefly创意工具,xAI拟融资200亿美元;微软、OpenAI进展动态,Google发布Recall功能和ZAPBench数据集。
学术研究团队提出了一种名为 ScholarCopilot 的智能大模型框架,专门用于精准生成带有准确引用的学术文本。ScholarCopilot 采用动态机制,在生成过程中实时检索并插入文献引用,提高了引用准确性与相关性。
近期,香港科技大学研究团队提出了一种新算法Falcon,通过将轨迹预测算法融入社交导航任务中,实现了长期动态避障并提升导航性能。该算法已在ICRA 2025接收,并构建了两个新的数据集Social-HM3D和Social-MP3D作为社交导航的新基准。
2025年arXiv论文将自动生成博客风格概述。alphaXiv结合Mistral OCR和Claude 3.7生成清晰易懂的文章,大幅提高科研效率。
MLNLP社区致力于促进国内外机器学习与自然语言处理领域的交流合作。近日,一篇关于LLM的论文提出TokenSkip方法,通过跳过不重要token来压缩思维链,提高推理速度和用户体验。
GitHub 上的 Customize-arXiv-Daily 工具允许用户通过自定义提示词获取感兴趣的每日 arXiv 论文推荐,支持本地模型 Ollama 和 DeepSeek,并提供电子邮件摘要和推荐。
南开大学等机构提出的新方法1Prompt1Story无需额外训练即可实现人物形象一致的文图生成,通过整合多个提示、奇异值重加权和身份保持交叉注意力技术,解决了现有方法存在的问题。
微软推出的PIKE-RAG旨在提高大型语言模型在复杂工业应用中的性能,其亮点包括在HotpotQA上的高准确率、多领域知识支持及灵活的模块化设计。