Learning soft mask with DNN and DNN-SVM for multi-speaker DOA estimation using an acoustic vector sensor
语音声源到达角(DirectionofArrival,DOA)估计是服务机器人听觉感知系统的关键技术之一,其功能是为服务机器人提供准确的语音声源所在方向估计。在真实复杂的声学环境中,远场语音声源的DOA估计易受到噪声、混响和干扰的影响,一直是学术界的研究热点。为了提高对语音声源DOA估计的精度和鲁棒性,同时考虑到阵列尺寸和易搭载需求,本文创新地提出采用声学矢量传感器(AcousticVectorSensor,AVS)拾取语音声源,在保持传感器物理体积小的前提下获取多路语音信号,其次,在本团队前期工作基础上,创新地提出了一种基于有监督学习的语音信号主导时频点鲁棒提取方法,同时实现了语音声源DOA估计的鲁棒性和准确性。具体内容为:(1)根据人耳基于局部时频区域实现语音感知与分离的生理学机制,提出了一种新的级联局部语谱块(TandemLocalSpectrogramBlock,TLSB)特征,该特征能够有效区分语音信号主导时频点和干扰信号主导时频点;(2)通过构造大量不同噪声和混响环境下的TLSB数据集,训练一个深度神经网络(DeepNeuralNetwork,DNN)语音信号主导时频点软膜估计器,用于提取目标主导时频点;(3)为了减少人为设定阈值,提升算法可扩展性,提出采用DNN模型最后一层隐含层特征表示,训练支持向量机(SupportVectorMachine,SVM)实现软膜估计;(4)利用提取出的语音主导时频点计算传感器间数据比(Inter-SensorDataRatio,ISDR),采用核密度聚类方法对ISDR进行聚类可实现多声源的DOA估计。通过大量实验证明,验证了本文提出的方法在不同的噪声和混响环境中都具有更高的DOA估计精度和鲁棒性。
中传动网版权与免责声明:
凡本网注明[来源:中国传动网]的所有文字、图片、音视和视频文件,版权均为中国传动网(www.chuandong.com)独家所有。如需转载请与0755-82949061联系。任何媒体、网站或个人转载使用时须注明来源“中国传动网”,违反者本网将追究其法律责任。
本网转载并注明其他来源的稿件,均来自互联网或业内投稿人士,版权属于原版权人。转载请保留稿件来源及作者,禁止擅自篡改,违者自负版权法律责任。
如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。

关注伺服与运动控制公众号获取更多资讯

关注直驱与传动公众号获取更多资讯

关注中国传动网公众号获取更多资讯
- 运动控制
- 伺服系统
- 机器视觉
- 机械传动
- 编码器
- 直驱系统
- 工业电源
- 电力电子
- 工业互联
- 高压变频器
- 中低压变频器
- 传感器
- 人机界面
- PLC
- 电气联接
- 工业机器人
- 低压电器
- 机柜