手语识别翻译的应用，究竟意味着什么？

发布时间：2021-05-02 11:10:48 所属栏目：传媒来源：互联网

导读：但仍然不能满足听障人士与普罗大众之间的交流需求。这便意味在一些社会公共空间之中，例如政务场景或服务业场景，听障人士可能都会遇到一些不便。而AI，恰好成为了一种解决方案。我们在一些软件中，已经开始应用到了AI的手势识别能力，像是拍照时比心来触

但仍然不能满足听障人士与普罗大众之间的交流需求。

这便意味在一些社会公共空间之中，例如政务场景或服务业场景，听障人士可能都会遇到一些不便。

而AI，恰好成为了一种解决方案。

我们在一些软件中，已经开始应用到了AI的手势识别能力，像是拍照时“比心”来触发一些AR特效。将这种对于手势的捕捉，和手势语义对应起来，不就能实现对于手语的翻译和生成了吗?

这一逻辑是正确的，可从逻辑正确到应用可行，却还隔着一段不短的路程。

首先，手语的表达有一定的特殊性，想进行捕捉并不容易。

我们知道在“比划手势”这种行为上，本来就不存在绝对的精准度，加之一些手语词汇的表达非常接近，而且手语表达通常是以句子为单位，词与词之前不会有明显的间隙。以往手势识别中利用前置摄像头捕捉的方式，基本是不可行的。

于是很多科技和团队给出的解决方案是加以外设，例如中科大和微软推出了基于Kinect的手语翻译系统，加州大学曾经推出过的手语识别手套等等就是这样。可这些外设要么便携程度低，要么造价昂贵，推广起来有很大的困难。

同时，手语表达同样也有国别性和地域性，在模型通用性上存在着困难。

手语中有“文法手语”和“自然手语”两个概念，文法手语既是通用的普通话，至于自然手语则如同方言一般，在国别、地方甚至城市之间都有着不小的差异。这也造成了手语数据收集、标注会是一项成本高、工作量大的事情。

例如亚马逊曾经提出过，对智能音箱Alex进行改造可以使其翻译出一些简单的信号。可是因为缺乏大规模的训练数据集，目前这一功能只能识别出一些简单的美国手语，停留在实验室阶段。

手语破题没有秘法，AI产业本该平权

虽然探索艰难，但科技企业们和学界还是不断在手语AI上取得成果。例如腾讯优图实验室推出的 “优图AI手语翻译机”、爱奇艺推出的AI手语主播等等，都在手语AI的应用上取得了不小的进展。

手语AI的突破可以分为两条路线，一方面是手语AI本身技术的进展，另一方面是应用场景的突破。

在手语AI技术本身上，可以分为识别模型和数据集两个解决路径。在数据集上，可以像优图一样，通过和社会相关机构以及听障人士的接触自建手语识别数据集，并且针对手语表达的地方性差异，做出表达习惯和速度上的多样性拓展。

至于识别模型上，业内也有全新的算法搭建概念，例如通过2D卷积神经网络和3D卷积神经网络分别提取手势中静态和动态的信息，经由综合处理来提升视频识别效果，彻底摆脱其他传感器的桎梏。同时针对手语表达的整句化的现象，在视频帧的***加入了词级信息挖掘，对特征提取器提出的信息进行核验，进一步去确定手势对词语表达边界，除了提升识别精准度以外，还能提升对自然手语中地域表达的总结能力。在此基础上，还可以算法模型中引入了上下文理解能力，以便于面对更加复杂的手语识别翻译需求。

不过技术虽然得以提升，应用场景端仍然会受到一些限制。例如手语识别可能会依赖较强大的算力，短时间内很难便携化、消费化。但完全可以通过和政府的合作，让手语识别进入一些公共服务场景。或者像爱奇艺一样，从手语生成方面入手，同样也能帮助到听障人士。

其实我们不难发现，可如果将技术拆分来看就能发现，手语AI取得的进步，并不是因为在某项基础科学上突然取得了什么惊人的突破，而是有越来越多的企业和学者在研发和数据累积上一贯长期的投入，才能解脱于以往手语语料库匮乏的困境，在算法上不断迭代。

换句话说，企业和学者们在“少数派”的AI技术中投入了几乎与“大多数”AI技术相匹配的精力与财力。对于AI产业来说，这无疑是一种平权精神。

（编辑：开发网_开封站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!