腾讯科技讯,2019 年数字生态大会于 5 月 21 日—23 日在昆明举行,在 AI 分论坛上,腾讯优图实验室联合负责人、杰出科学家贾佳亚分享了优图近期在 AI 手语识别上取得的突破——推出基于自研算法的“优图 AI 手语翻译机”。
据贾佳亚介绍,AI 手语翻译机以普通摄像头作为手语采集装置,依托高性能计算机进行后台运算,用户只要正对摄像头完成手语表达,翻译机就能快速运算出结果并把手语翻译成为文字。未来有望在机场、民政窗口等公共场所部署和落地,助力信息无障碍城市建设。
腾讯优图实验室联合负责人、腾讯杰出科学家贾佳亚
AI 手语翻译机:自研算法,实现手语识别“黑科技”
手语识别(SLR),就是指通过计算机算法,自动区分手语表达中的各类手势、动作以及这些手势和动作之间的切换,最后将表达的手语翻译成文字。不过相比于其他 AI 视觉识别技术的研究,手语识别的研发却存在更大的困难和挑战。手语表达所特有的地域性、复杂性和多样性极大地增加了数据采集与清洗的难度和成本,而受限于数据量的大小和人工设计特征的缺陷,很多传统研究的研究方法在适应性、泛化性及鲁棒性上都十分有限。
优图 AI 手语翻译机界面
据贾佳亚介绍,此次腾讯优图推出的 AI 手语翻译机,结合听障人士手语表达的习惯采集手语数据,参考先进的手势识别、动作识别和序列翻译等技术,通过自研算法实现了对复杂手语表达的识别技术突破。相较于其他方法,优图 AI 手语翻译机的数据集覆盖了近千句日常表达,900 个常用词汇,同时对数据进行进一步的分析和归纳,拥有目前最大的中文手语识别数据集,并支持整句手语表达的识别,可直接判断用户是否结束并完成实时翻译。
应用探索:视觉 AI,助力信息无障碍建设
据北京听力协会 2017 年公开数据,估计中国残疾性听力障碍人士已达 7200 万,相当于北京市常住人口(约 2200 万,2015 年数据)的 3 倍多。尽管我国在信息无障碍领域的投入逐渐增加,但目前国内的听障人群需求依然得不到满足。优图 AI 手语翻译机的推出将一定程度地缓解听障人士的交流障碍。
在演讲中,贾佳亚表示,“未来,我们希望通过与聋哑人士或手语使用者的深入接触,尝试在公共事物场所为听障者提供更好的服务,更好地助力信息无障碍的建设。”下一步,优图实验室将对 AI 手语翻译机展开优化和升级,尝试在日常服务窗口、手语教育等场景中落地,为听障人士带来实实在在的便利。
目前,优图实验室已经和深圳市信息无障碍研究会成立 AI 手语识别联合项目组,就手语数据采集、产品算法优化等方面展开长期深度合作,并通过与听障者或手语使用者进一步接触,扩充数据容量,完善数据规范,致力于推动后续的产品和服务部署,推动信息无障碍建设。
优图和深圳信息无障碍研究会 AI 听障无障碍联合项目组
此次的数字生态大会展示的优图 AI 手语翻译机,并不是腾讯在信息无障碍建设上的首次尝试。早在 2009 年腾讯便开始了信息无障碍方面的探索,截至目前,旗下 QQ、QQ 空间、微信、腾讯网、腾讯新闻、应用宝、企鹅 FM 等大部分产品已针对障碍用户实现专门优化,致力于为障碍人士构建信息友好社会。2013 年,腾讯优图团队和手机 QQ 一起打磨了 OCR 引擎技术,基于计算机视觉算法及自然语言处理能力,可将图片上的文字直接转换为可编辑的结构化文本,帮助视障群体实现信息沟通无障碍化。
与本次亮相数字生态大会 AI 分论坛的跨年龄人脸识别技术一样,优图 AI 手语翻译机同样是腾讯践行“科技向善”的重要体现。而优图实验室也将继续秉承“科技向善”这一理念,推动前沿技术在社会场景中的应用,切实让更多的实际问题得以解决。做有温度的 AI,让科技产生更大的社会价值。
最新评论