OpenAI的ChatGPT语音助手拥有视觉功能了,适用于教育场景

本周四,在OpenAI为期12天的盛会中,ChatGPT推出支持视觉化的‘高级语音模式’(Advanced Voice),可实现视频交互。用户可通过屏幕共享了解设备内容,并根据物体或照片提供实时指导。该功能将于下周结束,且并非所有用户均能访问。

高质量表情动图生成!用一张照片和音频,即能生成会说话的表情视频。

ComfyUI-IF_MemoAvatar是一款基于MEMO技术的插件,通过分析面部特征和音频生成富有表现力的表情丰富的动态视频。它支持Windows和Linux用户使用,并具备高质量视频输出、情感表达转移等特色功能。

GELU:毁灭世界的神经网络激活函数!

机器学习中最具讽刺意味的命名莫过于GELU了。Jimmy Koppel 发现GELU作为激活函数在transformer架构中的主导地位与游戏卡牌中导致世界毁灭的角色名字Gelu巧合。这反映了人们对AI技术复杂态度,一方面推动发展带来便利;另一方面也可能引发潜在风险和伦理问题。

InfoQ 2024 中国技术力量年度榜单结果正式公布!

数字经济背景下,’新质生产力’强调科技创新以实现高质量发展。InfoQ 2024中国技术力量年度榜单评选聚焦AI及数字化领域的优秀实践案例、服务商、团队与企业,旨在推动实体产业全产业链体系化升级。

央视聚焦报道浙江大学湖州研究院多项科研成果

浙大湖州研究院聚焦研发智能机器人,包括无人机、集群机器人等,展示了其在无人系统、仿生机器人和智能装备方面的研究成果。通过解决复杂环境下的导航与避障技术,实现了多种实用场景的应用。