视觉识别
ICML Spotlight 2025丨追求概率质量的帕累托最优:基于广义α-β散度引导的知识蒸馏框架ABKD
本文研究知识蒸馏中FKLD和RKLD的次优表现,提出α-β散度框架ABKD来平衡难度集中与置信集中效应。通过实验验证了ABKD的有效性,并提出了敏感性分析以进一步优化模型性能。
从找眼镜到当导购,我和豆包的24小时”室友”体验
作者在北京最繁华商圈随机询问10位年轻人使用AI助手的习惯,发现大多数人因体验不佳而放弃。豆包推出视频通话功能后,用户可以直接与AI进行视频对话,体验提升显著。文章介绍了多场测试,展示了豆包在室内和室外环境下的表现及其带来的便利性,并强调了交互方式的改变对用户体验的影响。
在手机上用 DeepSeek R1 的最佳姿势,建议收藏!
腾讯元宝APP结合DeepSeek R1能解决PPT制作、会议纪要记录和日常问题解答等多方面需求,节省大量时间。它还能作为智能搜索引擎帮助用户解惑,特别适合老年人使用。
让 AI 像人类一样浏览网页Browser Use
一个能让 AI 像人类一样操作浏览器的 Python 工具库,支持网页自动化任务如订票、求职申请等。主要功能包括多标签页管理、数据提取和视觉识别,可自定义动作并行运行多个代理。
Kimi 终于出手多模态!实测视觉思考模型 K1.VS. 正式版o1,不相上下
Kimi近日推出视觉思考模型 k1,并宣布对标正式版o1。在数学及物理等多个基础科学领域的测试中,k1-preview均表现出色,甚至超越了OpenAI o1、GPT-4等强模型。同时,k1还具备强大的图像识别能力。