SmolVLA:Hugging Face 开源的轻量级 VLA 模型,体积小 10 倍,性能却达 SOTA!
SmolVLA 是 Hugging Face 开源的一个轻量级视觉-语言-行动模型,专为经济高效的机器人设计。它拥有4.5亿参数,能够在消费级GPU甚至CPU上运行,支持在MacBook等设备上部署。通过多模态输入处理、高效推理和异步执行特性,在物体抓取与放置、家务劳动和货物搬运等多种应用场景中表现出色。
SmolVLA 是 Hugging Face 开源的一个轻量级视觉-语言-行动模型,专为经济高效的机器人设计。它拥有4.5亿参数,能够在消费级GPU甚至CPU上运行,支持在MacBook等设备上部署。通过多模态输入处理、高效推理和异步执行特性,在物体抓取与放置、家务劳动和货物搬运等多种应用场景中表现出色。
LoRA 是一种高效微调大模型的技术方案,通过只在关键层插入极少量可训练参数来优化模型效果。它相比传统微调方式节省显存高达99%、提升训练速度数倍,并且模型体积小、易部署。
英伟达CEO黄仁勋在CES 2025上发布新款GPU RTX 5090,并推出个人开发者产品Project Digits。RTX 5090性能翻倍,售价16499元。同时发布了手掌大小的AI超级计算机Project Digits,提供千万亿次AI计算能力。黄仁勋还展示了具身智能机器人系列产品,预示了人形机器人市场的巨大潜力。
开源 AI 视频社区新成员 Lightricks 推出首个能实时生成高质量视频的 DiT 模型,其速度比普通视频观看快。该模型名为 LTX-Video,在一块 Nvidia H100 上仅需 4 秒即可生成 5 秒时长的 24FPS 视频,代码库和模型权重已开源。