“一脑多形”具身智能机器人企业「星海图」完成3亿元融资

星海图近期完成A2和A3轮融资,总融资额超3亿元人民币,由凯辉基金领投,IDG资本、高瓴创投等多家机构参投。公司专注于具身智能机器人研发,已完成多轮技术突破与硬件能力构建。

免费开源吉卜力风格图像生成,Anything-to-Audio生成音频AudioX,免费且强大的编码助手Serena

EasyControl_Ghibli是一款免费且易于使用的AI模型,生成吉卜力风格图像。AudioX是统一的扩散Transformer模型,支持多种模态输入和自然语言控制。Serena是一个免费代码助手集成LLM功能。uniOCR是通用Rust OCR引擎,提供本地及云服务。MCP Server for Milvus为LLM应用提供Milvus向量数据库访问桥梁。

视觉Token无缝对齐LLMs词表!V²Flow:基于LLMs实现高保真自回归图像生成

V²Flow团队发布的新开源框架V²Flow解决了视觉Token与大语言模型词表的不一致问题,实现了高保真自回归图像生成。该技术通过视觉词汇重采样器将视觉内容嵌入到LLM的词汇空间中,并使用掩码自回归流匹配解码器进行视觉重建,显著提高了压缩效率和生成质量。

10倍吞吐提升无损性能:多模态适用的KV cache量化策略来了,即插即用无需改原模型

CalibQuant团队在InternVL-2.5模型上提出了一种1比特量化方法,通过校准策略缓解了低比特数量化带来的失真问题。实验结果显示,在多种任务和内存限制下,该方法相比基线有显著的性能提升。

1小时AI公开课上线啦~首期课程解密传统企业如何抓住AI革命!

在人工智能技术加速渗透各行各业的今天,《1小时AI公开课》系列直播课程推出,聚焦大模型、Agent、Prompt工程等前沿技术。首期课程将于4月11日晚8点开讲,由AIGC开放社区专家李扬主讲,内容涵盖AI进化论、AI百年演进与突破、AGI应用全景透视等多个模块,旨在为企业管理者、技术团队及个人开发者提供系统化的AI转型指引。

清华大学推出Dolphin语音识别模型!专攻40种东方语言,方言识别准确率提升54%!

清华大学和海天瑞声联合开源的Dolphin语音识别模型专为东方语言设计,支持40种东方语言和22种汉语方言,其small版本仅为Whisper large v3大小的一半,却提高了54.1%的平均字错率。

微软CTO预言AI记忆临界点了

微软首席技术官斯科特预言未来一年AI智能体会在记忆能力上取得重大突破,这将改变人机交互模式。当前AI智能体因缺乏长期记忆而无法提供个性化服务。凯文・斯科特提出的技术演进路径包括模块化协议、终身学习和动态记忆机制等。他相信这些技术进步能够重塑多个行业竞争格局,并指出记忆能力的进化伴随的风险,如数据滥用及可能带来的伦理问题。