源自复旦大学的开源、支持人工智能的耳机

密歇根大学和复旦大学的合作团队正在众筹一款新的可穿戴人工智能音频界面，以实现全天候情境感知、提升隐私保护，并让AI应用开发者能够尝试新想法。

一张特写照片展示了桌上的两副黑色耳机和一个黑色充电盒，旁边是笔记本电脑的键盘。文字叠加显示：“Buddie，隐秘的AI耳机助手。”

这是通过Kickstarter活动推出的Buddie。图片由Robert Dick提供

你有多少次忘记了别人刚告诉你的名字或事实，或者在会议中漏记了重要笔记？想象一下，当你大声问“我新认识的朋友叫什么名字？”或“这个项目的行动项是什么？”时，能立即得到虚拟助手的准确回答。

为了让虚拟助手能够立即对你这样的问题给出准确回答，它需要了解问题背后的情境。情境感知要求虚拟助手在你提问或请求帮助之前就已经在监听对话。

这就是Buddie的前提。Buddie由耳机和智能手机应用组成，为人工智能（AI）代理提供了一个情境感知的语音界面。它由电气与计算机工程教授Robert Dick以及包括中国上海复旦大学的李尚和杨帆在内的国际合作者团队共同开发。这些研究人员于12月23日发起了Kickstarter活动，旨在让日常用户试用这项技术，并让软件开发人员能够进行实验。

史蒂夫·乔布斯曾通过定义触摸屏作为手机的主要界面，彻底改变了手机行业。Dick、李尚和杨帆认为，在AI时代，情境感知语音将是下一个变革性的界面，而耳机则是实现无需动手、随时随地轻松访问AI服务的理想形式。

为了实现这一愿景，Buddie耳机始终在“监听”，以收集用户对话和交互的情境。Buddie的设计让用户能够控制其私人数据的发送位置，从而保护隐私。耳机录制对话，使用节能方法将信息传输到用户的智能手机，将口语转化为书面文字，并立即删除音频记录。转录文字保存在用户的手机上，用户可以查看文件、删除文件，并基于记录的情境向第三方大型语言模型（LLM）（如ChatGPT）提问以获得回答。LLM的任何回答都会通过语音读回。

“口语是人类对话中的主要交流界面，”Dick解释说，“情境感知使口头交流更加高效和准确。想象一下，你走进一个房间，其他人正在谈话中。除非你让他们停下来并重新陈述情境，否则你不会知道他们在说什么。这是AI助手经常遇到的情况。如果它们有情境感知，它们就能更有帮助，并减少你重复解释的负担。没有情境感知，你只能向AI助手询问百科全书式的问题。有了情境感知，你可以询问它关于你生活的问题。”

尽管情境感知对AI应用很有用，但持续监听给研究人员带来了技术挑战。它会因功耗增加而迅速耗尽耳机和智能手机的电池。Buddie采用了精心设计的、节能的、基于压缩的方法来解决持续通信的挑战。

Buddie项目的开源性质受到了Arduino的启发，Arduino是一个成功的开源电子平台，允许任何技能水平的用户创建和分享自己的互动项目。Dick希望购买Kickstarter上Buddie设备的用户和研究人员能够创造并分享他们自己的用途、软件修改和改进想法。为此，Buddie将以成本价40美元提供。该团队最终希望能有数百万人使用它并分享他们的体验。

“Buddie背后的想法部分受到了Vannevar Bush 1945年在《大西洋月刊》上发表的文章《如我们所想》的启发，该文章描述了一个基本上能够实现无限记忆个人经历和文档的生命日志系统，”Dick说。

与“生命日志”和情境感知AI相关的未来工作包括开发MemX：注意力感知智能眼镜，其命名源自Vannevar想象中的“Memex”（记忆扩展器）系统。Dick和他的合作者还设想，智能眼镜能够通过追踪学生的注意力对象，将其与他们所看内容的含义相关联，并通过面部表情推断情绪状态（例如，困惑、沮丧、专注），从而提供一对一教育的一些优势。

目前，研究团队选择通过Buddie专注于音频，因为它有潜力实现广泛可用的、与AI助手的情境感知口头交流。他们还在研究进一步增强隐私保护的方法。未来版本将让用户能够轻松选择隐私政策最严格的AI助手，提供让用户通过板载智能控制数据的方法，以及使用在机器学习和推理过程中保护用户隐私的方法。

（文：AI音频时代）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复