Open Manus 具有 Manus 的核心功能,支持网页分析、SEO 报告等任务
OpenManus 是一个开源的平替工具,支持网页分析和SEO报告等任务,并且可以免费本地部署。它整合了浏览器使用等Python工具包,具有多个协同工作的AI智能体。
OpenManus 是一个开源的平替工具,支持网页分析和SEO报告等任务,并且可以免费本地部署。它整合了浏览器使用等Python工具包,具有多个协同工作的AI智能体。
该项目使用Whisper.cpp将音频/视频中的音频转为文字,兼容多种平台且性能优越。相较于传统方法,使用Whisper.cpp可以在大约2-3分钟内转录2小时的音频。
人大和阿里开源的GraphAgent是一个利用大型语言模型来模拟人类行为并生成动态社交图的框架,适用于在线社交媒体、电子商务和论文创作等场景。它通过生成带有文本属性的社会图,揭示网络中的互动,并在多个指标上优于现有方法。
Sesame 发布逼真语音助手 Maya,通过情感智能、上下文记忆和高保真语音生成技术成功跨越了语音恐怖谷效应。CSM-1B 基础模型公开,拥有 10 亿参数规模,并允许商业用途。
究方向
|
强化学习、世界模型
LS-Imagine 通过纯视觉观测来玩 Minecraft,仿照人
研究提出块离散去噪扩散语言模型(BD3-LMs),结合扩散和自回归模型的优点,实现任意长度序列生成,并在多个语言建模基准上达到新的SOTA困惑度水平。
吴恩达认为尽管AI会自动化部分编程工作,但学习编程依然非常重要。他建议人们不仅要学会使用人工智能工具,还要掌握足够的编程知识以便有效地与这些工具互动。
本文提出TechSinger,一种支持五种语言与七种歌唱技巧精细控制的歌声合成系统,克服传统方法在可控性和艺术表达上的局限。