av4机床

语音对象装置融合识别和定位的远程交叉电子监控系统

随着现代通信技术和定位技术的快速发展,特别是无线移动通信和全球卫星定位GPS的日益普及,对具有定位和通信功能的装置(比如:形态各异的普通手机,或者带GPS功能的手机)开展远程定位跟踪变得越来越方便,定位监控系统的成本越来越低,这吸引了大量企业和政府组织对这种远程定位监控技术产生了浓厚的兴趣,比如:针对社区矫正犯人的司法电子监控、企业移动工作队伍与业务人员的有效监管等。

  相对于监狱矫正,社区矫正不仅可以降低行刑成本,减轻国家在刑罚上的投入,避免监狱内人满为患,防止监狱内的交叉感染,还有助于罪犯的改造和回归社会。经过长期的实践,社区矫正作为一种经济而又有效的犯人改造和教养方式,在西方主要发达国家得到了广泛的发展。根据国外的发展经验,中国从2003年开始在多个省市区开始了社区矫正的试点,并计划从2009年起在全国全面推开社区矫正工作。很多国家将部分危害风险低的犯人(包括缓刑、轻罪、假释等犯人)推向社会,实行社区矫正改造,由此带来了如何有效监管的技术问题。类似地,对于企业移动工作队伍和业务人员也一直存在如何有效监管的技术问题,比如:企业销售业务人员、野外巡视人员、物流配送人员、连锁经营企业的巡检人员和医疗看护人员等。

  目前,主流的远程定位技术主要采用包括移动通信基站定位(如:CellID)、卫星定位(如:GPS)、卫星与移动通信基站混合定位(如:高通GPSone)、无线Wi-Fi和RF识别等方法。然而,无论采用上述哪种定位技术方法,现阶段在技术上还很难做到将具有远程定位和移动通信功能的个人便携式终端装置(比如:手机/移动通信电话或者卫星定位信号接收装置等)嵌入到被监管对象的身体内部,特别是在终端装置被要求具有麦克风和语音通话功能,以便监管人员与被监管对象之间需要开展即时沟通的情况下,要把定位装置一直固定在人体身上更存在困难,因而用于定位监控的定位通信终端装置物往往只能被附着在被监管对象的身体表面或者由被监管对象近距离地持有。

  由于这种定位通信装置物可能有意或者无意地被脱落或丢弃,甚至故意交由他人代管,造成人机分离/“金蝉脱壳”的状况,使得被监管对象随时可以逃脱定位监控,现有的定位监控方法或系统本质上只能定位跟踪用于定位通信的装置物,而无法直接定位跟踪被监管对象的人体本身;只有通过人为假设,一厢情愿地认为被监管对象会一直遵守纪律,总是现场持有该定位通信装置物,才能把所述定位通信装置物的移动轨迹当作所述被监管对象的人体活动轨迹。因此,现有的定位监控方法或系统普遍存在一个“只认物、不认人”的重大缺陷。

  围绕无线定位技术在应用于人的远程电子监控方面存在的技术漏洞或者缺陷,美国硅谷和中国上海电虹软件有限公司-Fondian Corporation 的技术骨干人员,提出了多项发明新思路、方法和系统,而且它们被成功地应用在了司法电子监控和移动工作人员队伍的管理领域。电虹软件公司所申请发明专利的核心思想就是将无线定位监控与语音监控交叉结合起来,形成一个完整的非接触式远距离电子监控解决方案;2009年低,在由司法部预防犯罪研究所、上海政法学院等联合举办的社区矫正理论与实务研讨会上,基于交叉电子监控发明专利的核心思想,电虹软件有限公司应组委会的邀请做了主题为“社区矫正的电子监控技术与方案”的演讲报告,该报告受到了来自各地区的社区矫正实际工作部门的多方关注与兴趣。

生物识别技术应用于身份安全,在当今网络化、信息化和数字化的时代正在得到广泛的应用,而语音生物特征(声纹)识别是唯一具有非接触式、一切可通过电话网络远程安全控制的生物识别方法。语音生物特征识别,又称说话人识别,俗称声纹识别,是根据说话人的发音生理和行为特征,自动识别说话人身份的一种生物识别方法。声纹识别所提供的安全性可与其他生物识别技术(如:指纹、掌形和虹膜)相媲美,而且语音采集装置造价低廉,只需电话/手机或麦克风即可,无需特殊额外的设备;它与说话语言无关,与方言腔调无关,适应人群范围很广;声音信号便于实时采集和远程传输,在基于电信和网络的身份识别应用中,声纹识别更为擅长,得天独厚。因此,基于电话语音交互通信和语音生物识别的语音监控技术是弥补无线定位电子监控技术缺陷的简单、方便、经济、自然和重要的方法。

  在语音监控时,电子监控系统可以随机地或者周期性地外拨被监管对象所规定持有的定位通信手机,发起语音呼叫,一旦被监管对象接听电话,那么人机交互对话过程就正式被启动了;或者,被监管对象,按照监管要求(包括时间和频率等),主动拨打电子监控系统的服务热线电话,从而启动人机交互对话过程;当然,主动呼叫和被动接听的模式也可以交叉发生。在人机交互对话的过程中,系统提示被监管对象按要求自然说话,实时录取其说话声音,然后系统对说话录音开展声纹识别,验证其生物身份;另外,为了阻止录音回放的欺诈,还可以对其说话语音进行内容识别或鉴定,判断其说话语音内容是否切合匹配系统当初的提示要求。

0.31052899360657 s