今天是2025年02月02日,星期日,赣州,天气雨,天微凉。
今天是大年初五,迎五路财神,各位继续春节快乐。
我们今天继续看一些有趣的事情,看两个,一个是有趣的QwenVL HTML文档表示格式,安全性上的对比:o3-mini vs DeepSeek-R1(务必注意这里对比的是蒸馏的70B版本)
春节假期快过完了,还剩两天。大家归途一路顺风。
专题化,体系化,会有更多深度思考。大家一起加油。
一、有趣的QwenVL HTML文档表示格式
QwenVL HTML格式,可以将文档中的文本精准地识别出来,也能够提取文档元素(如图片、表格等)的位置信息,从将文档中的版面布局进行精准还原,比如杂志、论文、网页、甚至手机截屏等等。
例如论文场景:
又如杂志场景:
但这两个应用例子并不太好,有漏标注的情况,并且可以更进一步地标注出对应的颜色信息,会更有用一些。
相比markdown表示文档,使用html虽然更冗余,标签更多,但可以有css 样式,能够将颜色、位置等都进行表示,更具有表示能力,这种设想的确蛮好的。Qwen2.5 VL内置的这个能力,但这个也的确准备了很多这样的训练数据。
二、安全性上的对比:o3-mini vs DeepSeek-R1
这是目前的一个热点,即将o3-mini和DeepSeek-R1进行对比,对比的角度也能发文,所以,有个工作《o3-mini vs DeepSeek-R1: Which One is Safer?》(https://arxiv.org/pdf/2501.18438),通过使用自动化的安全性测试工具ASTRAL,生成并执行了1260个不安全的测试输入,以评估这两个模型的安全性,使用GPT-3.5作为评估器,分析LLMs的输出是否安全。
其中:
DeepSeek-R1使用70B版本,部署在Ollama2框架上。DeepSeek-R1运行在配备512GB内存、AMD EPYC 7773X处理器和NVIDIA RTX A6000显卡的Linux服务器上。
o3-mini使用预部署的beta版本,通过OpenAI的API访问。o3-mini在运行ASTRAL的Windows 11计算机上执行,无需额外硬件。
结论上,总体安全性上,o3-mini在1260个测试输入中仅有15个不安全响应,占1.19%;DeepSeek-R1有151个不安全响应,占11.98%;安全类别上,o3-mini在各个安全类别中的表现较为均衡。DeepSeek-R1在财务犯罪、恐怖主义、仇恨言论等类别中表现较差。DeepSeek-R1在技术术语和角色扮演风格下的不安全响应较多。
最终结论就是:OpenAI的o3-mini模型比DeepSeek-R1更安全。DeepSeek-R1在处理不安全提示时表现不佳,显示出较高的不安全性。此外,OpenAI的API通过政策违规机制防止了许多不安全输入的执行。
参考文献
1、https://github.com/QwenLM/Qwen2.5-VL
2、https://arxiv.org/pdf/2501.18438
(文:老刘说NLP)