震撼!首个开源的交互式全模态大语言模型,GPT-4o realtime的开源实现。
南京大学AI团队发布的VITA-1.5开源项目是一款接近实时的多模态大型语言模型,支持中英文,显著降低交互延迟,并在语音处理和图像理解方面取得提升。
南京大学AI团队发布的VITA-1.5开源项目是一款接近实时的多模态大型语言模型,支持中英文,显著降低交互延迟,并在语音处理和图像理解方面取得提升。
本周解读③个值得关注的AI及机器人领域要事,包括「空间推理」成为各大公司竞逐的关键技术方向;模型越强反而可能变得保守,以及LeCun关于AGI等议题的新见解。重点探讨了空间推理的重要性及其在多领域的潜在应用。