Seed1.5-VL:一款强大的视觉-语言基础模型,专为通用多模态理解和推理而设计,能在多种复杂任务中提供卓越表现。亮点:1. 高效架构,仅用5.32亿视觉编码器和200亿参数的MoE LLM,实现顶尖性能;2. 在60个公共基准测试中,38个达到最佳水平;3. 擅长复杂推理、OCR、图解理解、视觉定位、3D空间理解及视频理解等多种能力。


参考文献:
[1] http://github.com/ByteDance-Seed/Seed1.5-VL
[2] https://seed.bytedance.com/en/tech/seed1_5_vl
[3] https://huggingface.co/spaces/ByteDance-Seed/Seed1.5-VL
[4] https://seed.bytedance.com/zh/tech/seed1_5_vl
[5] https://arxiv.org/abs/2505.07062
知识星球服务内容:Dify源码剖析及答疑,Dify对话系统源码,NLP电子书籍报告下载,公众号所有付费资料。加微信buxingtianxia21进NLP工程化资料群。
(文:NLP工程化)