Understand-R1-Zero:深入剖析R1-Zero类训练方法
深入剖析R1-Zero训练方法,发现其已展现‘灵光一现’现象,并提出Dr. GRPO算法优化强化学习过程。仅用8×A100 GPU在27小时内实现SOTA性能。
深入剖析R1-Zero训练方法,发现其已展现‘灵光一现’现象,并提出Dr. GRPO算法优化强化学习过程。仅用8×A100 GPU在27小时内实现SOTA性能。
Oliva是基于Langchain和Superlinked的开源语音RAG助手,支持用自然语音对Qdrant向量数据库进行实时语音搜索,通过Deepgram和LiveKit实现。
TxAgent是用于个性化药物治疗的AI助手,其准确率比GPT-4高出25.8%,能够分析多种因素并实时检索生物医学知识。
香港中文大学(深圳)开源的Soundwave语音理解模型仅需1万小时训练数据,即达到Qwen2-Audio同等性能,具备智能对话和复杂语音交互能力。