数字声纹，让我们通过声音辨别出一个人 - 电子测量（技术聚焦）－全球企业门户

加入收藏

免费注册

今天是：2026年3月21日星期六您现在位于：首页 → 技术 → 电子测量（技术聚焦）

数字声纹，让我们通过声音辨别出一个人

2023/5/17 18:03:32

2020年12月3日早上6点36分，美国海岸警卫队通过一个专用于紧急情况的无线电频道收到一个呼叫：“求救，求救，求救。我们失去了方向舵...我们正在快速浸入水中。”那个声音打了个嗝，几乎就像那个人在挣扎。他又发了一次无线电，这次是说水泵开始失灵了。他说他会试着把他的船，一艘载有三人的42英尺长的船，开回缅因州云杉头岛上的阿特伍德龙虾公司。海岸警卫队询问他的GPS坐标，但没有得到任何回复。

那天早上，缅因州一名海军巡逻员内森·斯蒂尔韦尔出发去寻找失踪的船只。斯蒂尔韦尔骑马来到位于一个半岛尽头的阿特伍德龙虾公司，登上一艘龙虾船，驶进冷得令人震惊的水中，它能在短短30分钟内引起致命的低温症。

当他回到岸上时，斯蒂尔韦尔继续在该地区寻找听到无线电求救信号的人。根据一份通过国家记录请求获得的报告，有人告诉他五月天呼叫的声音听起来“一团糟”。其他人说这听起来像码头工人内特·利比。于是，斯蒂尔韦尔走进阿特伍德酒吧，用手机录下了他与利比和另一名男子杜安·马基的对话。斯蒂尔韦尔问他们是否听到了呼叫。

斯蒂尔韦尔似乎不确定。在他的报告中，他说他收到了其他提示，暗示那个甚高频电话是由一个名叫亨特的人打的。但是第二天，一个捕虾人打电话给斯蒂尔韦尔，他的船就像报道的遇险船一样。他确信求救电话是他以前的斯特恩曼，在龙虾船后面工作的船员：内特·利比。

警报不仅仅是一个恶作剧电话。通过海事电台广播虚假求救信号违反了国际法规，在美国是联邦D级重罪。海岸警卫队记录了这些通话，时长约4分钟，调查人员分离出四个WAV文件，捕捉到了嫌疑人20秒的声音。

这四个音频片段被发现是Nate Libby的，他是一名码头工人，后来承认打了一个欺诈性的求救电话。（U.S. Coast Guard/美国海岸警卫队）

为了核实来电者的身份并解决明显的犯罪问题，海岸警卫队的调查服务将文件通过电子邮件发送给了丽塔·辛格，她是卡内基梅隆大学（Carnegie Mellon University）的计算机科学家，也是教科书《从声音中描绘人类（Profiling Humans From Their Voice (Springer）》(Springer，2019年)的作者。

在一封通过联邦信息自由法案请求获得的电子邮件中，首席调查员写道辛格，“我们目前正在缅因州处理一个可能的搜救骗局，我们想知道你是否可以将MP3文件中的声音与WAV文件中打无线电电话的声音进行比较？”她同意分析录音。

从历史上看，这种分析——或者更确切地说，这种技术的早期版本——在法庭上名声不佳。现在，由于计算技术的进步，这项技术又回来了。事实上，法医科学家希望有一天能从录音中收集到和DNA一样多的信息。

我们知道你是谁

将语音转换成文本的自动语音识别方法适用执行说话人识别的更复杂任务，一些从业者称之为声纹。

我们的声音有很多独特之处。“作为一种标识符，”辛格最近写道，“声音有可能像DNA和指纹一样独一无二。作为描述符，声音比DNA或指纹更能揭示问题。”因此，有许多理由对其在刑事法律系统中的使用感到关切。

2020年美国政府问责局的一份报告说，美国特勤局声称能够在只有声音的阵容中识别出一个未知的人，将未知声音的录音与已知说话人的录音进行比较，作为参考。根据2022年的一篇论文，中国法院有超过740项判决涉及声纹。至少有八个国家的边境管制机构已经使用语言分析来确定原籍，或LADO，来分析口音，以确定一个人的原籍国，并评估其庇护申请的合法性。

法医科学家可能很快就能从一个人的声音录音中收集到比大多数物证更多的信息。

基于声音的识别系统不同于老式的窃听和监视，它超越了对话的实质，从声音本身推断出说话者的信息。甚至像在伊利诺伊州的麦当劳汽车餐厅下单这样简单的事情也引发了未经同意收集生物特征数据的法律问题。10月，德克萨斯州司法部长指控谷歌违反了该州的生物识别隐私法，称Nest家庭自动化设备“在未经同意的情况下记录了朋友、孩子、祖父母和来访的客人，然后无限期地存储他们的声纹。”另一项诉讼声称，摩根大通使用了一个名为Gatekeeper的Nuance系统，据称该系统“收集并考虑电话背后的人的独特声纹”，以验证其银行客户并检测潜在的欺诈行为。

其他州和国家当局允许公民使用他们的声音来验证他们的身份，从而获得他们的税务数据记录和养老金信息。荷兰代尔夫特理工大学研究偏见的研究员Wiebke Toussaint Hutiri说:“存在巨大的影子风险，即任何说话人确认技术都可能被转化为说话人识别技术。”

深入观察人类的声音

Singh认为，单独的语音分析可以用来生成一个未知说话者的令人震惊的详细描述。“如果你将我们今天拥有的强大的机器学习、深度学习技术与现有的所有信息融合在一起，并且做得正确，你就可以设计出非常强大的系统，可以真正深入地观察人类的声音，并获取各种信息，”她说。

2014年，辛格首次回答了海岸警卫队打来的恶作剧电话。她分析了他们提供的录音，并向该服务发送了几个结论。“我能够告诉他们这个人的年龄，身高，来自哪里，可能在打电话的时候在哪里，大概在什么样的地区，以及关于这个人的一系列事情。”她直到后来才知道这些信息显然有助于破案。辛格说，从那时起，她和该机构就有了一个“心照不宣的约定”

2020年12月16日，在收到相关音频文件大约两周后，辛格通过电子邮件向调查人员发送了一份报告，解释了她如何使用计算算法来比较录音。“每个记录都被完整地研究，所有的结论都是基于从完整的信号中获得的定量测量，”她说。Singh写道，她在人工将Stillwell在他的现场采访中记录的两个声音标记为US410和US411: Person1和Person2后，进行了自动分析。然后，她使用算法将未知的声音——紧急频道上播放的四个短脉冲——与两个已知的说话者进行比较。

法医说话人比较主要是调查....这不是那种会让人终身监禁的事情。

辛格得出了缅因州许多其他人的结论：五月天四段录音中的未知声音来自第一人称的同一个人，他在US410中自称为内特·利比。辛格提交报告的当天下午5点刚过，斯蒂尔韦尔就收到了消息。正如他在通过记录请求获得的事件报告中所写的那样“求救电话的录音和对利比的采访是吻合的。”通过将一个未知说话者的声音与两个可能的嫌疑人进行比较，调查人员显然已经证实了五月天呼叫者的身份是第一个人——内特·利比。

根据Mara Mills和Xiaochang Li的说法，“声音指纹”一词至少可以追溯到1911年。米尔斯说，这项技术总是与刑事鉴定密不可分。声音指纹是为了对人进行起诉而识别他们的身份。

假装预测你已经知道的事情

声纹亮相后引发了一系列研究，很快就使其名誉扫地。正如2016年《法律和生物科学杂志》上的一篇论文所言:“1979年，美国国家科学院对声纹发表了赞美之词，此后，联邦调查局不再提供这样的专家...这门学科开始走下坡路。”在1994年的一项裁决中，伊利诺伊州北区的美国地区法官米尔顿·沙杜尔(Milton Shadur)批评了这种技术，将一对一的比较比作一种纸牌魔术，即“魔术师强迫从观众中选出的人拿出魔术师想要他选择的牌，然后魔术师声称可以‘占卜’这个人选择的牌。”

在美国国家标准与技术研究所下属委员会工作的语音识别专家詹姆斯·l·韦曼说，令人惊讶的是，这个老术语又重新流行起来了。他说，尽管机器学习最近取得了进展，但政府检察官在让证词被接受以及说服法官允许专家在陪审团面前就该技术作证方面仍面临重大挑战。“联邦调查局经常作证反对案件中声音证据的可采性，这是一个非常有趣的问题。”韦曼建议辩护律师可以大闹一场，询问为什么调查人员依赖学术实验室，而不是联邦调查局的审查人员。

海岸警卫队似乎意识到了这些潜在的障碍。2021年1月，首席调查员写道辛格:“我们正在处理我们的刑事投诉，律师们想知道我们是否可以获得你的简历，以及你是否曾在法庭上作为专家证人作证。”辛格回答说，她参与的所有案件都在庭外解决了。

六个月后，2021年6月3日，利比认罪，避免了任何法庭上对辛格的语音分析的对抗。(法官说，这场恶作剧似乎是为了报复一位因利比吸毒而将其解雇的雇主。Libby被判服刑，三年监督释放，并支付17.500美元的赔偿。但由于辩诉交易系统的不透明性，很难说语音分析在利比的决定中发挥了多大的作用：他的公共辩护人拒绝置评，利比本人也无法联系上。

尽管如此，结果反映了实践：法庭说话人使用主要是调查性的。“人们确实试图在法庭上使用它作为证据，但这不是那种会让人终身监禁的事情，”米尔斯说。"即使有了机器学习，这种确定性也不可能用声纹来实现."

此外，任何技术限制都因缺乏标准而加剧。Wayman认为，不可控的变量太多了，分析师在比较不同环境下制作并压缩成不同格式的音频时，必须应对所谓的通道效应。在缅因州五月天骗局的情况下，调查人员没有利比的录音，因为他会在紧急广播频道播出，并以WAV格式录制。

先开枪，再画目标

在1966年洛杉矶的一次审判中，贝尔实验室的工程师劳伦斯·克斯塔作证说，这些带注释的光谱图可以识别犯罪嫌疑人的声纹。嫌疑人被定罪，但定罪后来被推翻，评论家广泛谴责声纹。Ralph Vander slice/教育服务研究所

代尔夫特大学的胡蒂里认为，任何偏见都可能不是这项技术所固有的；相反，这项技术可能会强化刑事司法系统的系统性偏见。

在分析之前，无论是谁在模板记录中手动标记说话者的身份，都可能引入这样一种偏差。这只是反映了这样一个事实，即审查员正在应用收到的关于嫌疑人的信息。这种揭露可能会导致法医专家所谓的神枪手谬误:有人在谷仓的一侧发射了一颗子弹，然后在弹孔周围画了一个圈，以表明他们击中了目标。

辛格没有从一个身份不明的声音建立个人资料。她用计算算法在主要嫌疑人周围画了另一个圈，证实了执法部门和几个主要人员已经怀疑的事情:恶作剧电话的声音属于利比。

的确，利比的认罪表明他确实有罪。他的供词反过来表明，辛格正确地验证了求救电话中说话者的声音。但是这个案例没有被发表，没有被同行评议，也没有被复制。没有与识别相关的错误率的估计——结论不准确的概率。这是一个相当大的弱点。

随着深度神经网络发挥越来越大的作用，这些差距可能暗示着更大的问题。联邦证据标准要求专家解释他们的方法，这是旧的建模技术可以做到的，但深度学习模型不能。“我们知道如何训练他们，对吗？但我们不知道他们到底在做什么，”韦曼说。“这些是一些主要的法医问题。”

其他更基本的问题仍然没有答案。一个人的声音有多独特？“声音会随着时间而改变，”米尔斯说。“你可能会失去几个指纹，但你仍然有其他的；你的声音受到任何损伤，你就会突然拥有一个完全不同的声音。”另外，人们可以训练他们的声音。在deepfakes和语音克隆文本到语音技术的时代，如Overdub和VALL-E，计算机可以识别谁在冒充谁吗？

最重要的是，被告有权与原告对质，但所谓的机器证词可能仅仅基于20秒钟的录音带。这足以证明有罪了吗？法院尚未做出裁决。

辛格有时会吹嘘说，她的团队是第一个展示现场声音分析系统的团队，也是第一个从一幅肖像(17世纪荷兰画家伦勃朗的肖像)中重现声音的团队。当然，这种说法是不能被证伪的。此外，尽管普遍持怀疑态度，辛格仍然认为从几个句子，甚至一个短语来描述一个人是可能的。

“有时候，”她说，“一个词就够了。”但是，法院可能不会同意。（剪报来源：https://spectrum.ieee.org/digital-forensics）

→ 『关闭窗口』

-----
[ → 我要发表 ]

上篇文章：通过架构定制（DSA）迭代为AI提供通用算力
下篇文章：SEMI AUTO IC Master 车用芯片指南

→ 主题所属分类： 电子测量 → 技术聚焦