加入收藏 | 设为首页 | 会员中心 | 我要投稿 开发网_开封站长网 (http://www.0378zz.com/)- 科技、AI行业应用、媒体智能、低代码、办公协同!
当前位置: 首页 > 站长资讯 > 传媒 > 正文

手语识别翻译的应用,究竟意味着什么?

发布时间:2021-05-02 11:10:48 所属栏目:传媒 来源:互联网
导读:但仍然不能满足听障人士与普罗大众之间的交流需求。 这便意味在一些社会公共空间之中,例如政务场景或服务业场景,听障人士可能都会遇到一些不便。 而AI,恰好成为了一种解决方案。 我们在一些软件中,已经开始应用到了AI的手势识别能力,像是拍照时比心来触

但仍然不能满足听障人士与普罗大众之间的交流需求。

这便意味在一些社会公共空间之中,例如政务场景或服务业场景,听障人士可能都会遇到一些不便。

而AI,恰好成为了一种解决方案。

我们在一些软件中,已经开始应用到了AI的手势识别能力,像是拍照时“比心”来触发一些AR特效。将这种对于手势的捕捉,和手势语义对应起来,不就能实现对于手语的翻译和生成了吗?

这一逻辑是正确的,可从逻辑正确到应用可行,却还隔着一段不短的路程。

首先,手语的表达有一定的特殊性,想进行捕捉并不容易。

我们知道在“比划手势”这种行为上,本来就不存在绝对的精准度,加之一些手语词汇的表达非常接近,而且手语表达通常是以句子为单位,词与词之前不会有明显的间隙。以往手势识别中利用前置摄像头捕捉的方式,基本是不可行的。

于是很多科技和团队给出的解决方案是加以外设,例如中科大和微软推出了基于Kinect的手语翻译系统,加州大学曾经推出过的手语识别手套等等就是这样。可这些外设要么便携程度低,要么造价昂贵,推广起来有很大的困难。

同时,手语表达同样也有国别性和地域性,在模型通用性上存在着困难。

手语中有“文法手语”和“自然手语”两个概念,文法手语既是通用的普通话,至于自然手语则如同方言一般,在国别、地方甚至城市之间都有着不小的差异。这也造成了手语数据收集、标注会是一项成本高、工作量大的事情。

例如亚马逊曾经提出过,对智能音箱Alex进行改造可以使其翻译出一些简单的信号。可是因为缺乏大规模的训练数据集,目前这一功能只能识别出一些简单的美国手语,停留在实验室阶段。

手语破题没有秘法,AI产业本该平权

虽然探索艰难,但科技企业们和学界还是不断在手语AI上取得成果。例如腾讯优图实验室推出的 “优图AI手语翻译机”、爱奇艺推出的AI手语主播等等,都在手语AI的应用上取得了不小的进展。

手语AI的突破可以分为两条路线,一方面是手语AI本身技术的进展,另一方面是应用场景的突破。

在手语AI技术本身上,可以分为识别模型和数据集两个解决路径。在数据集上,可以像优图一样,通过和社会相关机构以及听障人士的接触自建手语识别数据集,并且针对手语表达的地方性差异,做出表达习惯和速度上的多样性拓展。

至于识别模型上,业内也有全新的算法搭建概念,例如通过2D卷积神经网络和3D卷积神经网络分别提取手势中静态和动态的信息,经由综合处理来提升视频识别效果,彻底摆脱其他传感器的桎梏。同时针对手语表达的整句化的现象,在视频帧的***加入了词级信息挖掘,对特征提取器提出的信息进行核验,进一步去确定手势对词语表达边界,除了提升识别精准度以外,还能提升对自然手语中地域表达的总结能力。在此基础上,还可以算法模型中引入了上下文理解能力,以便于面对更加复杂的手语识别翻译需求。

不过技术虽然得以提升,应用场景端仍然会受到一些限制。例如手语识别可能会依赖较强大的算力,短时间内很难便携化、消费化。但完全可以通过和政府的合作,让手语识别进入一些公共服务场景。或者像爱奇艺一样,从手语生成方面入手,同样也能帮助到听障人士。

其实我们不难发现,可如果将技术拆分来看就能发现,手语AI取得的进步,并不是因为在某项基础科学上突然取得了什么惊人的突破,而是有越来越多的企业和学者在研发和数据累积上一贯长期的投入,才能解脱于以往手语语料库匮乏的困境,在算法上不断迭代。

换句话说,企业和学者们在“少数派”的AI技术中投入了几乎与“大多数”AI技术相匹配的精力与财力。对于AI产业来说,这无疑是一种平权精神。

(编辑:开发网_开封站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读