数字生命卡兹克
OpenAI正式发布o3 – 通往AGI的路上,已经没有了任何阻碍。
OpenAI最新模型O3发布,击败当前所有模型并接近人类水平。O3在软件工程、编程竞赛和数学推理等方面表现出色,并通过ARC-AGI测试达到87.5%。OpenAI正准备开放O3-mimi模型供大众使用,引发广泛关注。
一手实测豆包新发布的视觉理解大模型,他们真的卷起飞了。
字节火山发布会现场发布的新模型豆包视觉理解模型效果出色且价格优惠。通过数狗测试等任务对比GPT4o,其在多方面表现更优,包括识别复杂角色、解决常识问题等方面。作者分享了朋友对AI产品的实际需求和理想场景,强调技术应助力普通人而非取代他们的创作过程。
Google全新发布AI视频Veo2、AI绘图Imagen3 – 何以凌越。
Google发布了AI视频模型Veo 2和改进版的AI绘图模型Imagen 3。Veo 2在OpenAI发布个性化的AI搜索后,展示了极高的物理效果和稳定的运动质量,并通过Meta发布的基准数据集MovieGenBench进行了测试。Imagen 3则展示了一种更加自然、流畅的人类观察者体验。Google还强调了其模型的稳定性和上限。
3分钟用AI让照片开口说话,去造属于自己的梦吧。
上周写了关于海螺新上线的AI声音克隆的文章,引起了广泛关注。今天写一篇文章介绍口型驱动的做法,使用即梦工具生成照片开口视频。分享了如何制作帅哥用坤哥声音模仿经典台词的效果演示和具体步骤。
OpenAI全量上线4o视频通话 – 我们等了7个月。
今天是OpenAI直播第6天,终于来了个能看点的。4o的实时视频通话上线,以及实时理解屏幕和圣诞老人限定语音更新。直播节奏混乱,期待后续更多功能上线。