RTX 4090可跑、完全开源,最快视频生成模型问世,实测一言难尽
开源 AI 视频社区新成员 Lightricks 推出首个能实时生成高质量视频的 DiT 模型,其速度比普通视频观看快。该模型名为 LTX-Video,在一块 Nvidia H100 上仅需 4 秒即可生成 5 秒时长的 24FPS 视频,代码库和模型权重已开源。
开源 AI 视频社区新成员 Lightricks 推出首个能实时生成高质量视频的 DiT 模型,其速度比普通视频观看快。该模型名为 LTX-Video,在一块 Nvidia H100 上仅需 4 秒即可生成 5 秒时长的 24FPS 视频,代码库和模型权重已开源。
AI 监工系统在职场引发热议,包括键盘记录、鼠标移动追踪等常见功能,还有生产力图表、无意义活动警告等创新监控方式。网友批评这些措施侵犯隐私,造成压力,并认为这会降低员工创造力与自主感。
亚马逊向生成式 AI 初创公司 Anthropic 再额外投资40亿美元,使总投资达到80亿美元,并与 AWS 合作开发定制芯片用于训练 AI 模型。
机器之心报道 tokenizer 对于图像和视频生成模型的重要性被研究者们所关注。谷歌的研究表明,好的tokenizer能够提升模型效果至最佳diffusion模型水平。英伟达开源的Cosmostokenizer采用因果结构确保只使用过去和现在的帧信息,提高学习效率并保持高质量重建。
阿里巴巴国际数字商业集团MarcoPolo团队发布Marco-o1,旨在推进开放式问题解决的大型推理模型。通过集成CoT微调、MCTS和推理动作策略等技术,提高复杂任务处理能力,并在翻译任务中表现出高级理解和推理能力。
NeuroClips 是一种用于 fMRI-to-video 重建的新颖框架,通过感知重建和语义重建实现高质量、高帧率视频的重建。该方法在多项指标上优于现有技术,并展示了良好的神经科学解释性。
英伟达的NVIDIA AI Blueprint和OmAgent项目展示了AI技术如何帮助用户更好地理解和分析视频内容,OmAgent提供了原生多模态智能体框架,支持设备开发和使用。