CLIP 归档 - 每时AI

Flux Kontext Dev发布，免费开源一句话P图的时代到来了！

2025年6月29日11时作者路过银河AI

Flux Kontext Dev终于发布开源版本支持一句P图功能，但需要至少20G显存。本文详细介绍了如何使用基础版和带DeepSeek中文翻译版工作流进行操作，并分享了加载模型、处理图片的基本步骤以及各种常见功能演示，同时提供了官方提示词技巧和解决常见问题的方法。

2025年6月13日8时作者极市干货

DynAlign 框架通过结合 GPT-4、SAM 和 CLIP，实现了跨域语义分割中前所未有的无监督动态类别对齐能力。该方法无需目标域标注，在智能驾驶和城市管理等场景中表现出色。

2025年5月22日23时作者机器之心

OpenAI的GPT-4o展示了顶级图像理解与生成能力。BLIP3-o采用自回归+扩散框架，研究者对比了三种设计选择，并最终选择了CLIP + Flow Matching方案和顺序训练策略构建BLIP3-o模型。

2025年4月3日16时作者机器之心

研究者提出了一种新的视觉自监督学习模型Web-SSL，它能够在不依赖语言监督的情况下，在大规模数据集上与CLIP模型媲美，并在多种视觉问题解答任务中表现出色。

2025年1月1日16时作者量子位

Alec Radford离职OpenAI后揭示更多细节，他在Jupyter notebooks上发明了GPT和CLIP。尽管未取得博士学位，他仍对人工智能研究做出了重大贡献，包括参与多项重大突破并作为一作发表论文。

2024年12月25日14时作者新智元

新智元报道
编辑：编辑部 HYZ
【新智元导读】
Sakana AI联合MIT、OpenAI等机构提

2024年12月25日12时作者机器之心

机器之心报道
编辑：Panda
2024 临近尾声，AI 又给了所有人一个大惊喜，这次可以用来自动发

2024年12月20日12时作者 AI寒武纪

Alec Radford从OpenAI离职，并计划独立进行研究。他以GPT、DALL-E、CLIP等项目知名，推动了自然语言处理、多模态技术和语音识别领域的革新。

2024年12月17日8时作者 GitHubStore

MMAudio 是一个用于生成同步音频的项目，利用多模式联合训练从给定视频和/或文本输入中生成音频。它允许对广泛的数据集进行训练，并将生成的音频与视频帧对齐。

2024年12月9日14时作者机器之心

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000