EchoMimic全面升级!从数字脸到数字人,输入图+音频+手势即可!
蚂蚁集团开源数字人技术EchoMimic,可用于虚拟主播、视频编辑等。EchoMimic基于音频驱动生成逼真动画,提供多种功能并支持WebUI和GradioUI界面。
蚂蚁集团开源数字人技术EchoMimic,可用于虚拟主播、视频编辑等。EchoMimic基于音频驱动生成逼真动画,提供多种功能并支持WebUI和GradioUI界面。
微软发布LazyGraphRAG新方法,索引成本低至0.1%,在查询效率和准确性上优于多种传统方法。该技术无需对源数据进行预先总结,采用轻量级索引结合NLP技术快速识别和提取关键概念及其关系。
LazyGraphRAG是一种高效图神经网络架构,结合图结构化信息和生成模型提升信息检索和生成效率。OminiControl是简约强大的通用控制框架,支持扩散变换器模型的多种生成任务。Freeze-Omni是智能低延迟语音对话模型,基于冻结的文本大语言模型。OpenReasoningEngine是一个模块化的开源推理引擎,通过开放协作提升模型能力。Cursor Chat Browser是一款Web应用程序,用于管理AI聊天记录,提供搜索和导出功能。
Sudoku-RWKV是专门为解数独而训练的RWKV模型;ComfyUI_AdvancedRefluxControl调整Redux模型中的图像条件控制;DINO-X在物体检测和理解方面表现优异;aisuite简化多个生成式AI服务访问;oneShotCodeGen通过单一提示快速生成全栈Web应用。
在今年的Microsoft Ignite 2024上,企业通过Copilot Studio创建了数万智能体,并且可以使用Azure目录中的1800个LLM模型。微软还宣布将在Microsoft 365中引入新的智能体,包括用于项目管理的新项目经理智能体、协作会议中的新Facilitator智能体、帮助员工理解和分享知识的Agent以及提供自助服务支持的员工自助服务智能体。
阿里开源Marco-o1,旨在解决缺乏明确标准且奖励难以量化的开放式问题。Marco-o1结合链式思考、蒙特卡洛树搜索等技术增强推理能力,在MGSM上提高了准确性,并展示了扩展解决方案空间和利用更细粒度动作策略的优势。
小型语言模型因其低延迟、成本效益等优势受到青睐,特别适用于资源受限的环境和领域知识获取。介绍了构建SLMs的基础概念及技术,如架构、训练技术和从大型语言模型(LLMs)获取SLMs的方法,包括剪枝、知识蒸馏和量化。分析了SLMs在问答、编程、推荐系统等领域的应用,并讨论了在移动设备上的部署策略。