大模型
大语言模型
谷歌 Gemini 2.0 Flash 被玩疯了:去水印还能这么秀?
谷歌发布的Gemini 2.0 Flash模型不仅支持文本聊天,还具备原生生图功能。其去水印能力惊艳,仅需几秒钟即可去除图片中的水印标识,并能自动填补因去除水印而留下的空白,但有时会引入自己的水印或影响其他文字部分的清晰度。
造梦师手记:真实而又有诗意的画面
今天推荐的AI绘画模型Fluxmania更新至5.0,展示了乡村风肖像、沙漠月夜、月下剑士等多幅作品。其中包括人物穿着复古服装站在户外、沙漠中的孤身影子、夜晚佩戴黑色贝雷帽和高领毛衣的人、神秘优雅黑衣女子、太空探险者在沙漠中穿行场景、烟雾缭绕的短发男子,以及沉思者的光影画面。
造梦师手记:已经无法分辨的真实边缘
文章介绍了多种传统和时尚服饰的图像,包括日本和服、海军蓝长袖上衣与白色短裤搭配黑色高跟鞋和丝袜的形象、全身黑装搭配十字架项链的人物、优雅复古风的女性、舞台上的多彩风采以及自然环境中的少女。
长视频性能提升6.6%!用文本数据撬动视频理解
Sparrow 通过利用长文本 QA 数据合成“伪视频指令数据”,在仅使用30K混合数据的情况下超越了100K视频数据,且在数据规模扩展上性能优势更为明显。该研究重新审视了合成数据的特性,并提出了一种新的数据增强方法——Sparrow,显著提升了模型在长视频理解上的表现。
上交大等提出MM-Eureka:R1-Zero的「Aha Moment」同样存在于多模态推理
本文介绍了一种新的多模态大规模强化学习框架MM-Eureka,该框架能够稳定地训练包括InternVL2.5-Instruct-8B和InternVL2.5-Pretrained-38B在内的多种大型模型,并使用较少的数据实现了性能的提升。