百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分类 > 正文

基于深度学习的词语级中文唇语识别

ztj100 2025-01-01 23:50 17 浏览 0 评论

作者:
陈红顺1,陈观明1,2
作者单位
1.北京师范大学珠海分校 信息技术学院,广东 珠海519087;
2.珠海欧比特宇航科技股份有限公司,广东 珠海519080
摘要:
在无声或噪声干扰严重的环境下,或对于存在听觉障碍的人群,唇语识别至关重要。针对词语级中文唇语识别的问题,提出了SinoLipReadingNet模型,前端采用Conv3D+ResNet34结构用于时空特征提取,后端分别采用Conv1D结构和Bi-LSTM结构用于分类预测,并引入Self-Attention、CTCLoss对Bi-LSTM后端进行改进。最终在新网银行唇语识别数据集上进行实验,结果表明,SinoLipReadingNet模型在识别准确率上明显优于中科院D3D模型,多模型融合的预测准确率达到了77.64%,平均字错率为21.68%。
引言:
语言是人类沟通交流的主要方式,语音是人类语言交流的主要载体之一。在无声或噪声干扰严重的环境下,或对于存在听觉障碍的人群,如何利用通过嘴唇运动进行语言识别至关重要。唇语识别是指通过观察和分析人说话时唇部运动的特征变化,识别出人所说话的内容。唇语识别具有广阔的应用前景:在医疗健康领域,可以借助唇语识别辅助患有听力障碍的病人沟通交流[1];在安防领域,人脸识别同时通过唇语识别以提高活体识别的安全性[2];在视频合成领域, 利用唇语识别可以合成特定人物讲话场景的视频[3],或者合成高真实感的虚拟人物动画等。
唇语识别主要包含4个步骤[4]:人脸关键点检测与跟踪、唇语区域提取、时空特征提取和分类与解码。其中,时空特征提取和分类与解码是唇语识别的研究重点。近年来,随着大规模数据集[5]的出现,基于深度学习的方法可以自动抽取深层特征,逐渐成为唇语识别研究的主流方法[6]。如图1所示,基于深度学习的唇语学习方法将一系列的唇部图像送入前端以提取特征,然后传递给后端以进行分类预测,并以端到端的形式进行训练。
文章来源:《电子技术应用》杂志12月刊
,下载论文PDF






?商务合作:? 请致电 010-82306118 / ? 或致件 Tiger@chinaaet.com

相关推荐

Java项目宝塔搭建实战MES-Springboot开源MES智能制造系统源码

大家好啊,我是测评君,欢迎来到web测评。...

一个令人头秃的问题,Logback 日志级别设置竟然无效?

原文链接:https://mp.weixin.qq.com/s/EFvbFwetmXXA9ZGBGswUsQ原作者:小黑十一点半...

实战!SpringBoot + RabbitMQ死信队列实现超时关单

需求背景之为什么要有超时关单原因一:...

火了!阿里P8架构师编写堪称神级SpringBoot手册,GitHub星标99+

Springboot现在已成为企业面试中必备的知识点,以及企业应用的重要模块。今天小编给大家分享一份来着阿里P8架构师编写的...

Java本地搭建宝塔部署实战springboot仓库管理系统源码

大家好啊,我是测评君,欢迎来到web测评。...

工具尝鲜(1)-Fleet构建运行一个Springboot入门Web项目

Fleet是JetBrains公司推出的轻量级编辑器,对标VSCode。该款产品还在公测当中,具体下载链接如下JetBrainsFleet:由JetBrains打造的下一代IDE。想要尝试的...

SPRINGBOOT WEB 实现文件夹上传(保留目录结构)

网上搜到的SpringBoot的代码不多,完整的不多,能用的也不多,基本上大部分的文章只是提供了少量的代码,讲一下思路,或者实现方案。之前一般的做法都是使用HTML5来做的,大部都是传文件的,传文件夹...

Java项目本地部署宝塔搭建实战报修小程序springboot版系统源码

大家好啊,我是测评君,欢迎来到web测评。...

新年IT界大笑料“工行取得基于SpringBoot的web系统后端实现专利

先看看专利描述...

看完SpringBoot源码后,整个人都精神了

前言当读完SpringBoot源码后,被Spring的设计者们折服,Spring系列中没有几行代码是我们看不懂的,而是难在理解设计思路,阅读Spring、SpringMVC、SpringBoot需要花...

阿里大牛再爆神著:SpringBoot+Cloud微服务手册

今天给大家分享的这份“Springboot+Springcloud微服务开发实战手册”共有以下三大特点...

WebClient是什么?SpringBoot中如何使用WebClient?

WebClient是什么?WebClient是SpringFramework5引入的一个非阻塞、响应式的Web客户端库。它提供了一种简单而强大的方式来进行HTTP请求,并处理来自服务器的响应。与传...

SpringBoot系列——基于mui的H5套壳APP开发web框架

  前言  大致原理:创建一个main主页面,只有主页面有头部、尾部,中间内容嵌入iframe内容子页面,如果在当前页面进行跳转操作,也是在iframe中进行跳转,而如果点击尾部按钮切换模块、页面,那...

在Spring Boot中使用 jose4j 实现 JSON Web Token (JWT)

JSONWebToken或JWT作为服务之间安全通信的一种方式而闻名。...

Spring Boot使用AOP方式实现统一的Web请求日志记录?

AOP简介AOP(AspectOrientedProgramming),面相切面编程,是通过代码预编译与运行时动态代理的方式来实现程序的统一功能维护的方案。AOP作为Spring框架的核心内容,通...

取消回复欢迎 发表评论: