Long-RL:让强化学习应对超长序列任务的全新框架。亮点:1. 单节点支持小时级长视频(3600帧-256k tokens)的强化学习训练;2. 支持多模态输入(文本、视频、音频)的Omni模型强化学习;3. 支持图像/视频生成模型(如Stable Diffusion)的强化学习训练。


参考文献:
[1] https://github.com/NVlabs/Long-RL
知识星球:Dify源码剖析及答疑,Dify扩展系统源码,AI书籍课程|AI报告论文,公众号付费资料。加微信buxingtianxia21
进NLP工程化资料群,以及Dify交流群。
(文:NLP工程化)