首个无编码器的3D多模态大语言模型ENEL,7B参数即可媲美13B!
首次在3D多模态大语言模型中移除了编码器,让LLM直接处理3D编码任务。通过提出混合语义损失和分层几何聚合策略,首个无编码器的3D LMM ENEL表现出色,7B模型与ShapeLLM-13B相当,在多个任务上超过现有方法。
首次在3D多模态大语言模型中移除了编码器,让LLM直接处理3D编码任务。通过提出混合语义损失和分层几何聚合策略,首个无编码器的3D LMM ENEL表现出色,7B模型与ShapeLLM-13B相当,在多个任务上超过现有方法。
字节跳动 ByteDance Research 团队开发并开源了 ByteQC,一款基于 GPU 加速的大规模量子化学计算工具集,显著加速了量子化学算法,并实现了更大规模的模拟。
Trae上线了支持豆包和Deepseek R1、V3等模型的AI IDE工具,并介绍了如何使用其构建个人博客、宝可梦小游戏等内容。通过Claude 3.7实现了一系列实验性项目,包括交互式三维超立方体、博客网站、宝可梦图鉴网页应用及流程图。文章还探讨了Trae在不同场景下的实用性和局限性。
YouTube 更新了 ‘替换歌曲’ 功能和 ‘炒作’ 计划,前者通过人工智能推荐替代曲目解决版权问题;后者引入付费增加视频曝光机制。
教育部部长怀进鹏表示DeepSeek和机器人是教育改革与发展的重大机遇,并透露今年将发布人工智能教育白皮书。多地已展开‘AI+教育’布局,覆盖教、学、评、育等多个方面。分析师预测大模型将带来智能教育硬件及软件应用的商业化机会。
地瓜机器人团队与中科院自动化所合作提出的新研究MODEST,能够仅凭单张RGB图像准确预测透明物体的深度和分割信息,提升智能工厂等场景下机器人的操作能力。该算法框架已在ICRA 2025入选,并成功应用于透明物体的真实抓取实验中。
Podcasting平台Podcastle发布AI文本转语音模型Asyncflow v1.0,提供超过450种AI语音,加入ElevenLabs、Speechify和WellSaid等竞争对手行列。该公司表示,得益于近期大型语言模型的发展,其能够在不需大量数据的情况下构建高质量的语音模型。