作为本届亚运会办赛理念之一,“智能”贯穿于杭州亚运会全的各个方面。
为服务正在举办的第19届亚运会,在北京大学黄铁军教授及仉尚航研究员的指导下,北京大学庄棨宁学生团队基于多模态大模型的研究,结合视觉、语言、语音等多种模态的输入,推出高速运动AI 多语种解说系统,为观众提供更丰富的观赛体验。这也是多模态大模型技术首次在国际大型综合性体育赛事中的落地和尝试。
同时,团队着眼于具身智能研究,研发基于多模态大模型的人工智能助理来提供导览引领、场景解说、物品抓取等服务,为残障和需要帮助的人士创造更为人性化的互动方式和友好体验。
AI“复刻”赛事解说员
“除却君身三重雪,天下谁人配白衣。”
东京奥运会上中国运动员杨倩夺得首金身披白色领奖服时,赛事解说员用这句“神仙”解说词击中了无数观众的心。
事实上,一场精彩的体育比赛不仅取决于运动员双方的比拼,解说员在其中的价值也不可忽略。竞赛解说员不仅会在解说中提供关于球队、运动员和比赛背景的信息,帮助观众更好地理解比赛的重要性和背后的故事,经验丰富的解说员还能够深入分析比赛,揭示比赛中的策略和技巧,使观众能够更好地理解比赛的每一个环节,从而提高观赛的乐趣。
当比赛出现精彩一刻,优秀的解说员还能够通过解说传达激情和情感,更好地带动观众的情绪,为赛事瞬间增色添彩,甚至成为永恒经典。
然而受限于人手问题,并不是每场体育赛事都会安排解说员,特别是亚运会这类国际大型赛事,同一时间有多场比赛进行,并且不是所有的解说员都适合解说所有的体育项目,很多相对小众的赛事就会缺少解说员,更无法想象一位解说员可以使用多种语言、面向不同的语言的受众做解说。
基于此,北大庄棨宁学生团队面向乒乓球、跆拳道、跳水、体操等赛事,推出了高速运动 AI 解说系统,系统可以辅助录播频道调用多模态大模型能力,理解视频内容,并生成中文、英语、藏语、阿拉伯等多种语言的解说,让信息传递给更多有实际需求的人。
图:AI智能解说通过感知场景并生成解说
庄棨宁介绍说,这一技术通过高速摄像机的脉冲信号检测场景物体和运动员,将能够捕捉体育比赛中的关键时刻,并生成高质量的集锦和相关数据,基于多模态大模型算法和深度学习模型对这些运动数据进行分析,基于分析结果,系统再生成提供实时的个性化解说服务,从而为各个语种的观众都能提供个性化的体验。
智能爱心辅助助手让AI有温度
大型赛事活动通常会为东道主城市带来显著的经济、环境等变化,但由于人流量激增,城市公共区域会面临巨大压力。据预测,亚运会期间的杭州也将迎来近年来最密集的游客潮,外地游客量将超过2000万人次,加上本届杭州亚运会来自亚洲45个国家和地区代表团的12527名运动员,亚运期间杭州的人流大增。
在杭州市公共区域,庄棨宁学生团队打造了具身智能机器人软件服务系统,用于亚运会期间的导航指引与帮助服务。这套系统可以为观众提供导览服务,协助视障人士进行引领和导航,解析视障人士需求并完成相应任务,帮助视障人士捡拾掉落的物品等。
目前,在杭州市的一些亚运会志愿者服务点,已经有市民看到一个机器人外观的智能体在为视力障碍人士服务。
图:杭州市民在体验庄棨宁学生团队的具身智能机器人软件服务系统
“很荣幸能够将我们的所学、所研转化为可以服务每个人的应用,让AI服务人们的普通生活。”庄棨宁介绍说,为本次亚运会打造的具身智能机器人软件服务系统,是基于团队自研的感知生成一体化多模态大模型,能够精准地感知与理解场馆内外的视觉场景,生成准确、丰富的语言描述,控制机器人执行智能志愿者服务任务。
同时,团队将多模态大模型与具身智能相结合,使得人工智能可以更好的感知和理解物理世界,再更好地做决策,最终实现人工智能和物理世界更好地交互。