OpenAI的强化微调:RL+Science 创造新神还是灭霸?

OpenAI 发布了新的 Reinforcement Finetuning 方法,用于构造专家模型。只需上传少量数据,就能通过微调找到最合适的决策。该技术基于已广泛应用于 Alignment 和 Coding 的方法,并且适用于医疗诊断和科学决策等领域。不过,也引发了对潜在风险的关注。

OpenAI上线满血版o1大模型

北京时间周五凌晨,OpenAI发布了推理大模型o1及其订阅服务ChatGPT Pro。完整版o1模型比预览版更快、更准确,并支持图片输入和多模态输入。o1 Pro模式可提供更多的计算资源和支持更多功能,定价为每月200美元。

OpenAI狂飙突进!仅12个例子就能打造专属AI专家,核心技术竟来自字节?

OpenAI 在其12天活动中发布了强化微调(Reinforcement Fine-Tuning)技术,并展示了ChatGPT Pro的演示。该技术允许用户通过极少量的数据定制模型,提高了其专业领域的推理能力。

新版Llama 3 70B反超405B!Meta开卷后训练,谷歌马斯克都来抢镜

OpenAI的Grok 3、Meta的Llama 3.3以及谷歌的新Gemini模型相继发布,引发热议。Llama 3.3表现出色,70B版本能实现405B的效果,并且成本更低;Gemini则成为最新lmsys大模型竞技场的榜首。此外,马斯克xAI的Grok 3也在传言中即将推出。