技术进展
多模态模型的深化:多模态大模型持续发展,如阿里巴巴的通义千问团队开源的Qwen 2.5-Omni多模态模型,能够同时感知文本、图像、音频和视频,并以流式方式生成文本和语音响应。腾讯的混元大模型也在向多模态演进,2025年上线了混元T1-Vision视觉推理模型和混元Voice语音对话模型。
AI智能体的崛起:2025年被视为AI智能体的元年,AI智能体从“增强知识”向“增强执行”转变,具备自主决策与任务执行能力。例如,微软智能体能够解析商业邮件,OpenAI的o1/o3模型能够完成复杂订单。
自监督学习与视觉转换器:自监督学习、视觉转换器等技术有望提升机器感知、分析和与世界互动的能力,推动实时图像处理、物体检测和环境监测的发展。
AI视频生成技术:AI视频生成技术取得显著进展,如Stable Video发布3D模型,可从单张图像创建多视图3D视频。智谱清影的AI生成视频模型清影(Ying)加强了图生视频质量、美学表现、运动合理性和复杂提示词语义理解,支持生成10秒、4K、60帧超高清视频。
应用拓展
医疗领域:AI在医疗领域的应用不断深化,如斯坦福发布的CheXagent已能同时解读X光片、病理报告和电子病历,诊断准确率超过普通放射科医生。此外,国家儿童医学中心、首都医科大学附属北京儿童医院发布了“福棠·百川”儿科医学大模型,助力基层儿科服务能力的提升。
具身智能:具身智能领域取得新突破,斯坦福大学李飞飞团队公布了行为机器人套件框架,搭载该框架的保姆型人形机器人能完成多样化家务任务。
AI陪伴赛道:AI陪伴类产品市场快速扩张,2024年全球AI陪伴类产品访问量相比2023年增长92.99%。产品功能不断丰富,如多模态交互能力显著增强,交互方式从纯文本对话扩展到语音通话、视频通话、AR互动等。
产业发展
AI专利数量激增:2010至2023年间,AI专利数量从3,833件增长至122,511件,其中仅2023年就增长29.6%。中国占据全球AI专利总量的69.7%。
开源AI软件项目增长:GitHub等平台上的开源AI软件项目持续快速增长。
AI应用落地:AI应用落地情况良好,如AI Agent Manus不到一个月从零开始以2376万月访问量,显示出AI产品转化数据良好。
挑战与治理
数据与安全问题:随着AI能力的增强,AI被滥用等风险增加,推广应用中需加固“安全护栏”。高质量训练数据可能耗尽的隐忧仍然值得关注。
伦理与监管:AI系统的可解释性在医疗等领域至关重要,近期科学家们在AI模型的可解释性方面取得了显著进展。