在许多多方语音通信的使用场景中,实时识别和标记活跃发言者非常重要,以便了解发言者表达了什么。此信息在通话后也具备很大的价值,尤其是在转录过程中进行身份归属。在这篇文章中,我们将演示如何使用 和其 功能,将发言者身份标签实时附加到通话中,并在通话结束后获取相关见解。
此类多发言者标记功能有很多实际应用案例,例如:
speaker search 是 Amazon Chime SDK通话分析中的一项新功能,基于机器学习技术。它能够从通话音频中提取短语音样本,并从注册发言者的声音嵌入(voiceembeddings)或声音档案数据库中返回一组最接近的匹配项。此功能通过 Amazon Chime SDK Voice Connector 的 speaker search API 提供。
在这个简单的演示中,我们将定期调用 speaker search 服务,在通话过程中显示如何标记不同的活跃发言者。
![speaker search删除)
在本次演示中,我们召集了四位 AWS 员工(“Alice”,“Bob”,“Charlie”和“David”),通过音响电话拨打与 VoiceConnector 关联的电话号码。作为呼叫者,我们使用运行自动应答系统的 Asterisk 服务器。我们仅对呼叫者的部分应用了 speakersearch,所有四位志愿者在之前都通过提供短音频样本注册了他们的声音嵌入,并且他们均同意根据相关隐私和生物识别法律的要求创建和处理声纹,这是使用该服务的条件。
在演示中,我们使用脚本每 30 秒左右触发 speaker search API 调用,提供大约 10 秒的无静音语音样本,并将 speakersearch 结果记录到为此 Voice Connector 配置的 SNS 通知目标中。每位发言者顺序发言大约两分钟。
当使用推断语音样本调用 speaker search API时,它生成一个嵌入向量,捕捉发言者声音的一些特征。这一嵌入与嵌入数据库中所有注册发言者的嵌入进行比较,并返回最多 10个置信度最高的匹配结果,按置信度分数排名。出于本次演示的目的,我们仅保留了置信度最高的匹配结果,并将其用作发言人身份的估计。
以下是会议的音频记录,并注释了估计的发言人身份及真实的发言人身份。通过在通话过程中将估计与真实身份进行对比,我们得到一个准确性分数,该分数定义为估计身份与真实发言人身份匹配的搜索百分比。
![speaker recognition删除)
此次演示的准确率为 88%。在大部分时段,speaker search 能够准确识别发言者,但在一些情况下,发言者未被高置信度匹配以超过我们设定的阈值。
该测试展示了即便是如此简单的实现也能有效应对发言者标记的需求。提高标记准确性的方法包括:
要了解更多关于 Amazon Chime SDK 语音分析的信息,可以参考以下资源:
标签 : 、、
Chari 是 Amazon Chime SDK 服务团队的首席产品经理,专注于音频和视频通信以及分析中的机器学习应用。工作之外,Chari喜欢与家人共度时光和在山中跑步。
Mike 是 Amazon Chime SDK的应用科学高级经理。他的团队专注于音频和视频工作负载中的机器学习和信号处理解决方案。在业余时间,他喜欢跑步、皮划艇和弹吉他。
Zhihai 是 AWS Chime SDK 科学团队的一名软件工程师,专注于后端和前端开发、云基础设施和机器学习等领域。
Leave a Reply