精准识别目标对象归档

AI能看懂细节了！IDEA研究院多模态目标检测模型DINO-XSeek，自然语言精准定位目标

下午11时 2025/03/06 作者量子位

基于多模态大语言模型的DINO-XSeek目标检测模型实现了精准感知和理解复杂场景中的目标，能够通过自然语言描述识别出具体细节，如人物的穿着、位置等信息。该模型结合了视觉与语言理解能力，在实际应用中可应用于工业制造、安防、农业等多个领域。