英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer

机器之心报道 tokenizer 对于图像和视频生成模型的重要性被研究者们所关注。谷歌的研究表明,好的tokenizer能够提升模型效果至最佳diffusion模型水平。英伟达开源的Cosmostokenizer采用因果结构确保只使用过去和现在的帧信息,提高学习效率并保持高质量重建。

阿里国际版o1来了,Marco-o1:聚焦开放式问题推理

阿里巴巴国际数字商业集团MarcoPolo团队发布Marco-o1,旨在推进开放式问题解决的大型推理模型。通过集成CoT微调、MCTS和推理动作策略等技术,提高复杂任务处理能力,并在翻译任务中表现出高级理解和推理能力。

NeurIPS 2024 Oral 还原所见!揭秘从脑信号重建高保真流畅视频

NeuroClips 是一种用于 fMRI-to-video 重建的新颖框架,通过感知重建和语义重建实现高质量、高帧率视频的重建。该方法在多项指标上优于现有技术,并展示了良好的神经科学解释性。

尚德机构2024年第三季度净利润8929万元,“行业正处于结构性转型期”

尚德机构发布2024年第三季度未经审计的财务报告,营收和净利润同比均有所下滑。尽管如此,公司仍展现出强劲韧性,并提出将继续优化产品组合及提高运营效率的计划。

AI模仿人类看漫画,视频大模型时序定位能力新SOTA

NumPro通过为视频帧添加数字标识符的方式提升了视频大模型的时序定位能力。无需训练设置即可增强模型对事件发生时刻的理解,实验结果显示其显著优于现有方法,并且不影响模型通用视频理解能力。