一手实测豆包新发布的视觉理解大模型,他们真的卷起飞了。

字节火山发布会现场发布的新模型豆包视觉理解模型效果出色且价格优惠。通过数狗测试等任务对比GPT4o,其在多方面表现更优,包括识别复杂角色、解决常识问题等方面。作者分享了朋友对AI产品的实际需求和理想场景,强调技术应助力普通人而非取代他们的创作过程。

Google全新发布AI视频Veo2、AI绘图Imagen3 – 何以凌越。

Google发布了AI视频模型Veo 2和改进版的AI绘图模型Imagen 3。Veo 2在OpenAI发布个性化的AI搜索后,展示了极高的物理效果和稳定的运动质量,并通过Meta发布的基准数据集MovieGenBench进行了测试。Imagen 3则展示了一种更加自然、流畅的人类观察者体验。Google还强调了其模型的稳定性和上限。

3分钟用AI让照片开口说话,去造属于自己的梦吧。

上周写了关于海螺新上线的AI声音克隆的文章,引起了广泛关注。今天写一篇文章介绍口型驱动的做法,使用即梦工具生成照片开口视频。分享了如何制作帅哥用坤哥声音模仿经典台词的效果演示和具体步骤。