AI先锋官
DeepSeek外还有全球屠榜的Qwen 2.5 Max,看下它和o3-mini 的 PK
阿里云Qwen2.5-Max在最新排行榜上位列全球第七,并在数学和编程等领域表现出色。其功能强大且适应能力强,不仅继承了DeepSeek的通用能力优势,还通过垂直领域深耕开辟出差异化赛道。模型采用MoE架构及超大规模数据预训练等技术优化提升性能。
“李飞飞团队50美元复刻DeepSeek R1”之辨
斯坦福大学李飞飞团队联合华盛顿大学研究人员利用不到50美元的云计算费用训练出了名为s1的推理模型,其数学与编码能力表现接近OpenAI、DeepSeek等大模型。该模型已在GitHub上发布,并且通过精心挑选的数据集和蒸馏方法实现了低成本高效训练。
Google三大模型齐发,均进Lmarena前十,实测对比Deepseek、Qwen推理能力大增
Google近期发布了三款新模型:Gemini 2.0 Pro实验版、Gemini 2.0 Flash-Lite和Gemini 2.0 Flash Thinking。其中Gemini 2.0 Pro在编程能力上表现优异,在多项榜单中位居前列。
OpenAI 急推 o3-mini 救场,实测与DeepSeek谁是最强推理大模型
OpenAI CEO发布o3-mini模型,主打低成本推理功能。与DeepSeek R1相比,o3-mini价格较高但性能不输。通过8道推理题测试对比,显示o3-mini在部分推理任务上表现不如DeepSeek R1。
除夕无休! DeepSeek 推多模态大模型Janus-Pro,实测生图效果一般
DeepSeek在Hugging Face发布全新Janus-Pro 7B和1.5B版本,参数优化使其具备本地部署能力,并在文生图基准测试中超越DALL-E 3和Stable Diffusion 3-Medium。
实测豆包全家桶 ,推理、视觉、语音能力大增,唱歌居然跑调
临近春节,豆包1.5 Pro发布,包含基础模型、视觉和实时语音模型。测试显示其推理能力、视觉理解能力和语音识别能力均有提升,但仍有待提高。基础模型已开始灰度测试,其他两个模型已上线。