DeepSeek与Qwen组团开源了模型，冲!

几乎就在同一天，两个国内著名大模型厂商DeepSeek与阿里通义千问组团开源了模型：DeepSeek-V3-0324（更美观的网页和游戏前端），Qwen2.5-VL-32B-Instruct（以小博大）：

Qwen2.5-vl-32B模型

72B 对 VLM 来说太大？7B 不够强！那么可以使用32B 模型

响应更符合人类偏好：调整输出样式以提供更详细、格式更好的答案，使其更符合人类偏好。
数学推理：显著提高解决复杂数学问题的准确性。
细粒度图像理解与推理：增强图像解析、内容识别、视觉逻辑推理等任务的准确性和细节分析。

Blog: https://qwenlm.github.io/blog/qwen2.5-vl-32b/Qwen Chat: https://chat.qwen.aiHF: https://huggingface.co/Qwen/Qwen2.5-VL-32B-InstructModelScope: https://modelscope.cn/models/Qwen/Qwen2.5-VL-32B-Instruct

DeepSeek-V3-0324模型

DeepSeek是在昨晚悄悄开源的新版本V3模型的，此次最大的亮点是编程能力，性能比肩Claude 3.7

前端 Web 开发，提高了代码的可执行性，更美观的网页和游戏前端

汉语写作能力，与 DeepSeek-R1 写作风格保持一致中长篇写作质量更高
函数调用，改进提高了函数调用的准确性，工具/MCP调用更加稳健

https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main测试示例：https://github.com/KCORES/kcores-llm-arena/tree/mainMCP调用：https://x.com/localhost_4173/status/1904396718801932656

（文：PaperAgent）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复