TransDiff–最简洁的AR Transformer + Diffusion图像生成方法

本文介绍了一种新的图像生成方法TransDiff,它结合了AR Transformer和Diffusion模型,并提出了Multi-Reference Autoregression(MRAR)范式。TransDiff使用较小的Diffusion Decoder显著降低参数量,同时在基准测试中表现出色。

Google Gemini驱动的研究助手,终端AI开发者助手,轻松管理AI Agent集群

KResearch 是一个使用 Google Gemini API 进行深度研究的 Web 应用程序。AI Fleet 提供了一个管理 AI 开发者代理集群的工具。Customer Service Agents Demo 展示了基于 OpenAI SDK 的客户服务代理系统。qagent 旨在替代传统的 RAG 系统,提供智能搜索和成本优化等功能。use-mcp 是一个简化与 MCP 标准服务器连接的 React Hook。

再见firecrawl!Firecrawl爬虫开源替代方案WaterCrawl

WaterCrawl 是一个基于Python技术栈的强大网络爬虫应用,支持智能爬虫引擎、强大的搜索引擎、多语言与地区支持、实时进度监控和完整的API生态。它通过Docker容器化部署,提供开箱即用特性,适合数据驱动时代的数据采集需求。

刚刚,OpenAI找到控制AI善恶的开关:ChatGPT坏人格在预训练阶段已成型

OpenAI最新研究发现,训练语言模型时如果在一个领域给出错误答案,它在其他领域的表现也可能变得“恶劣”。通过解剖模型内部机制,研究人员找到了一个被称为‘毒性人格特征’的开关。

数据减少超千倍,500 美金就可训练一流视频模型,港城、华为Pusa来了

FVDM & Pusa 提出了一种新的视频扩散模型 (FVDM),通过引入向量化时间步变量 (VTV) 解决了传统视频生成的局限性。Pusa 项目利用非破坏性微调方法将预训练模型成本降低了数倍,展示了低成本、高灵活视频生成的新时代。