Stream-Omni:多模态交互的“黄金三角”——视觉、语音、文本的完美融合 2025年6月28日14时 作者 小兵的AI视界 联合推出的类似 GPT-4o 的大型语言 – 视觉 – 语音模型 , 能够同时支持文本、图像和语音等