Stable Audio Open Small 开源,为手机实现音频生成部署

Stability AI与Arm联合发布了一种名为Stable Audio Open Small的小型文本到音频模型,能够在智能手机上运行并实现约7秒生成11秒立体声音频的效果。该模型基于ARC技术开发,参数量减少至3.41亿,内存使用量降至3.6GB,适合移动设备使用。

Langchain创始人最新分享:如何跨越“原型惊艳”到“生产可靠”的鸿沟

LangChain创始人Harrison Chase在Interrupt大会上发表了主题演讲,指出AI行业面临的痛点是将大模型转化成可靠应用的困难。他提出智能体工程师需要掌握提示工程、工程能力、产品思维和机器学习知识,并分享了LangChain对智能体开发的洞察与策略预判。

字节开源高效解析文档图像的新型多模态模型Dolphin,快速将复杂的文档图像转化为结构化数据。

Dolphin是基于单一视觉语言模型的两阶段文档图像解析模型,采用自然阅读顺序生成元素序列和异构锚点提示进行高效并行解析。支持页面级和元素级解析,性能卓越。