远程视频可以提取声纹吗_声纹识别的关键问题

① 声纹识别的关键问题

声纹识别可以说有两个关键问题，一是特征提取，二是模式匹配(模式识别)。特征提取的任务是提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征。与语音识别不同，声纹识别的特征必须是“个性化”特征，而说话人识别的特征对说话人来讲必须是“共性特征”。虽然目前大部分声纹识别系统用的都是声学层面的特征，但是表征一个人特点的特征应该是多层面的，包括：(1)与人类的发音机制的解剖学结构有关的声学特征(如频谱、倒频谱、共振峰、基音、反射系数等等)、鼻音、带深呼吸音、沙哑音、笑声等；(2)受社会经济状况、受教育水平、出生地等影响的语义、修辞、发音、言语习惯等；(3)个人特点或受父母影响的韵律、节奏、速度、语调、音量等特征。从利用数学方法可以建模的角度出发，声纹自动识别模型目前可以使用的特征包括：(1)声学特征(倒频谱)；(2)词法特征(说话人相关的词n-gram，音素n-gram)；(3)韵律特征(利用n-gram描述的基音和能量“姿势”)；(4)语种、方言和口音信息；(5)通道信息(使用何种通道)；等等。
根据不同的任务需求，声纹识别还面临一个特征选择或特征选用的问题。例如，对“信道”信息，在刑侦应用上，希望不用，也就是说希望弱化信道对说话人识别的影响，因为我们希望不管说话人用什么信道系统它都可以辨认出来；而在银行交易上，希望用信道信息，即希望信道对说话人识别有较大影响，从而可以剔除录音、模仿等带来的影响。
总之，较好的特征，应该能够有效地区分不同的说话人，但又能在同一说话人语音发生变化时保持相对的稳定；不易被他人模仿或能够较好地解决被他人模仿问题；具有较好的抗噪性能；……。当然，这些问题也可以通过模型方法去解决。对于模式识别，有以下几大类方法：
(1)模板匹配方法：利用动态时间弯折(DTW)以对准训练和测试特征序列，主要用于固定词组的应用(通常为文本相关任务)；
(2)最近邻方法：训练时保留所有特征矢量，识别时对每个矢量都找到训练矢量中最近的K个，据此进行识别，通常模型存储和相似计算的量都很大；
(3)神经网络方法：有很多种形式，如多层感知、径向基函数(RBF)等，可以显式训练以区分说话人和其背景说话人，其训练量很大，且模型的可推广性不好；
(4)隐式马尔可夫模型(HMM)方法：通常使用单状态的HMM，或高斯混合模型(GMM)，是比较流行的方法，效果比较好；
(5)VQ聚类方法(如LBG)：效果比较好，算法复杂度也不高，和HMM方法配合起来更可以收到更好的效果；
(6)多项式分类器方法：有较高的精度，但模型存储和计算量都比较大；
(7)……
声纹识别需要解决的关键问题还有很多，诸如：短话音问题，能否用很短的语音进行模型训练，而且用很短的时间进行识别，这主要是声音不易获取的应用所需求的；声音模仿(或放录音)问题，要有效地区分开模仿声音(录音)和真正的声音；多说话人情况下目标说话人的有效检出；消除或减弱声音变化(不同语言、内容、方式、身体状况、时间、年龄等)带来的影响；消除信道差异和背景噪音带来的影响；……此时需要用到其他一些技术来辅助完成，如去噪、自适应等技术。
对说话人确认，还面临一个两难选择问题。通常，表征说话人确认系统性能的两个重要参数是错误拒绝率(False Rejection Rate, FRR)和错误接受率(False Acceptation Rate, FAR)，前者是拒绝真正说话人而造成的错误，后者是接受集外说话人而造成的错误，二者与阈值的设定相关，两者相等的值称为等错率(Equal Error Rate, EER)。在现有的技术水平下，两者无法同时达到最小，需要调整阈值来满足不同应用的需求，比如在需要“易用性”的情况下，可以让错误拒绝率低一些，此时错误接受率会增加，从而安全性降低；在对“安全性”要求高的情况下，可以让错误接受率低一些，此时错误拒绝率会增加，从而易用性降低。前者可以概括为“宁错勿漏”，而后者可以“宁漏勿错”。我们把真正阈值的调整称为“操作点”调整。好的系统应该允许对操作点的自由调整。声纹识别可以应用的范围很宽，可以说声纹识别几乎可以应用到人们日常生活的各个角落。比如下面举几个例子。
(1)信息领域。比如在自动总机系统中，把身份证之声纹辨认和关键词检出器结合起来，可以在姓名自动拨号的同时向受话方提供主叫方的身份信息。前者用于身份认证，后者用于内容认证。同样，声纹识别技术可以在呼叫中心(Call Center)应用中为注册的常客户提供友好的个性化服务。
(2)银行、证券。鉴于密码的安全性不高，可以用声纹识别技术对电话银行、远程炒股等业务中的用户身份进行确认，为了提供安全性，还可以采取一些其他措施，如密码和声纹双保险，如随机提示文本用文本相关的声纹识别技术进行身份确认(随机提示文本保证无法用事先录好的音去假冒)，甚至可以把交易时的声音录下来以备查询。
(3)公安司法。对于各种电话勒索、绑架、电话人身攻击等案件，声纹辨认技术可以在一段录音中查找出嫌疑人或缩小侦察范围；声纹确认技术还可以在法庭上提供身份确认（同一性鉴定）的旁证。在监狱亲情电话应用中，通过采集犯人家属的声纹信息，可有效鉴别家属身份的合法性。在司法社区矫正应用中，通过识别定位手机位置和呼叫对象说话声音的个人特征，系统就可以快速的自动判断被监控人是否在规定的时间出现在规定的场所，有效地解决人机分离问题。
(4)军队和国防。声纹辨认技术可以察觉电话交谈过程中是否有关键说话人出现，继而对交谈的内容进行跟踪(战场环境监听)；在通过电话发出军事指令时，可以对发出命令的人的身份进行确认(敌我指战员鉴别)。目前该技术在国外军事方面已经有所应用，据报道，迫降在我国海南机场的美军EP-3侦察机中就载有类似的声纹识别侦听模块。
(5)保安和证件防伪。如机密场所的门禁系统。又如声纹识别确认可用于信用卡、银行自动取款机、门、车的钥匙卡、授权使用的电脑、声纹锁以及特殊通道口的身份卡，把声纹存在卡上，在需要时，持卡者只要将卡插入专用机的插口上，通过一个传声器读出事先已储存的暗码，同时仪器接收持卡者发出的声音，然后进行分析比较，从而完成身份确认。同样可以把含有某人声纹特征的芯片嵌入到证件之中，通过上面所述的过程完成证件防伪。

② 什么是声纹采集派出所采集声纹有什么用为什么要用标准声纹采集设备

一、什么是声纹识别？

声纹识别，也叫做说话人识别是一项根据语音波形中反映说话人生理和行为特征的语音参数，来识别语音说话者身份的技术。由于每个人的发声器官（舌、牙齿、喉头、肺、鼻腔）在尺寸和形态方面不尽相同，因此声纹也就成为一种鉴别说话人身份的识别手段。

二、什么是声纹采集？

声纹识别系统通过采集语音，提取声纹特征，训练模型并建立声纹模型库，把待识别的语音和声纹模型库进行比对，从而实现对说话人的识别。声纹识别系统一般包括两个步骤：声纹建模和声纹验证，典型的声纹识别系统如下图所示。声纹建模过程中涉及到的语音文件采集就是所谓的声纹采集。

五、声纹市场的爆发

公共安全作为与人们生命财产安全紧密相关的重要领域，在人工智能的助推下，迎来了一轮技术革新，相关智能化应用涌现。基于生物特征的身份识别认证技术为侦破案件提供了强有力的帮助。经国务院同意印发的《“十三五”国家战略性新兴产业发展规划》中，声纹识别更是被重点列入“推广期”。

快商通深耕人工智能技术研发九年，以踏实严谨的科研实践能力，不断被权威机构肯定，众多经过严格检验的产品组成了快商通实用性与创新性双优口碑的产品矩阵，同时时刻以推动声纹等人工智能应用落地、推动各行业规范有序发展为己任，奠定了公司在声纹应用领域的领先地位！

2018年11月,快商通参与公安部牵头起草的《安全防范声纹识别应用程序接口规范》和《安全防范声纹识别应用网络语音样本技术要求》两项声纹技术方面的国家标准;2019年1月，与中国标准化院共建国内首个“声纹识别技术标准化研究基地”和“自然语言处理技术应用标准化研究基地”，启动司法鉴定领域团体标准的制定工作，并作为中标院唯一辅导单位，正式申报“声纹识别与自然语言处理技术”国际标准。

声纹识别等人工智能技术正在进入大规模实用阶段，只有兼具优良品质和创新价值的AI产品，才能真正助力智慧警务升级。作为行业领头羊，快商通未来将持续精准匹配公安需求，不断提升产品性能，致力于公共安全等垂直行业的应用落地，为智慧警务建设贡献力量。

远程视频可以提取声纹吗

一、什么是声纹识别？

二、什么是声纹采集？

五、声纹市场的爆发

与远程视频可以提取声纹吗相关的内容