Hugging Face 归档 - 第6页共10页

带你从零开始实现一个稀疏专家混合语言模型（MoE模型）

2025年2月25日8时作者 NLP工程化

Hugging Face博客介绍了如何从零实现稀疏专家混合语言模型（MoE），通过解析代码详解自注意力机制、专家模块等组件。

2025年2月22日8时作者 NLP工程化

Qwen2.5-VL新增长视频理解能力，能识别超过1小时的视频，并提供视觉本地化和结构化输出功能。

2025年2月21日8时作者 NLP工程化

Hugging Face发布了《Ultra-Scale Playbook》一书，介绍大模型训练中的5D并行性、ZeRO等技术，并分享了相关实验和工具的使用经验。

2025年2月17日14时作者 AI信息Gap

清华大学博士生木易介绍如何使用KTransformers库在RTX 4090 GPU上运行DeepSeek-R1/V3模型，包括环境搭建、模型加载及推理参数设置等步骤。

2025年2月15日8时作者 NLP工程化

低成本高效训练R1-Zero模型，仅需4张3090/4090显卡1小时成本不到7美元，支持更大规模模型。

2025年2月12日23时作者机器之心

型，DeepSeek 竟能让倒卖商如此大赚特赚，也着实让人震惊。而这也从侧面佐证了 DeepSeek

2025年2月12日8时作者开源星探

近期发现一款名为Zonos的新型高保真TTS模型，它能在快速生成特定情绪语音及精准模拟特定人声音效方面表现出色。支持多种语言，并提供包括情感调节、语音定制等功能。

2025年2月11日8时作者 NLP工程化

Mervin Praison 提出的方案包括问答生成器、评估器、推理步骤生成器和数据上传器，用于创建高质量的数据集。

2025年2月8日16时作者智东西

用代码表示Agent行动显著提升OpenAI Deep Research系统性能，Hugging Face团队复现时采用代码Agent框架，使验证集准确率从46%提升至55.15%，未来可扩展更多文件格式和处理建议。