捐出你的声音,因此Siri不只是为白人工作

日期:2017-06-01 11:10:20 作者:过务鲟 阅读:

Bloomberg / Getty By Matt Reynolds Siri的口音有问题吗一个项目正在转向众包语音捐赠以克服这个问题,并解决语音识别中的一些其他固有问题像Siri和Alexa这样的语音助理接受了大量录音讲话的培训但如果那些不包含特定口音或方言的足够样本,那么语音助理就很难理解那些说话的人因此,Mozilla-- Firefox网络浏览器的基础 - 正在转向众包,以创建避免这些问题的语音识别系统通过上个月推出的Project Common Voice,Mozilla旨在从具有各种口音的人那里收集10,000小时的英语口语华盛顿大学的瑞秋塔特曼说:“从历史上看,大多数演讲和语言集合往往更多是男性,白人和中产阶级”虽然像谷歌和亚马逊这样的公司在平衡数据集方面做得越来越好,特别是在性别方面,语音识别系统仍然很难理解那些用某些口音说话的美国人,她说 Tatman表示,该软件可以更好地用于传统上被认为更有声望的口音在训练数据集中往往代表性不足的口音和方言通常与已经在美国社会中被边缘化的人群相关联她说,这就是为什么语音软件对非洲裔美国人的识别率有时会降低的原因女性的声音也是如此英国爱丁堡大学的Naomi Saphra使用语音识别软件编写代码,因为她无法打字她必须改变她发音的方式,因为她使用的软件并不总能正确识别女声 “我希望看到语音识别领域更加民主化,”她说但与算法偏见的大多数问题一样,没有简单的解决办法目前,语音识别数据集主要集中在少数几家公司手中,Mozilla项目负责人凯莉戴维斯说当人们与Alexa或Google Voice交谈时,会记录交互,从而为亚马逊和谷歌创建一个不断扩展的语音数据数据库这加强了这些公司对高质量语音识别的垄断,使竞争对手更难开发语音助理宾夕法尼亚州卡内基梅隆大学的Alan Black表示,大型语音识别公司确实希望确保他们的软件能够适用于各种方言和口音但是,如果具有某些口音的人发现他们不被某个系统识别,那么可能会阻止将来使用如果他们停止使用这些设备,语音助理公司将会错过那些带有这些口音的人的数据,进一步扭曲了Siri和Alexa可以轻松应对的问题一旦Mozilla收集到足够的音频片段,该基金会计划发布它们,以允许任何人 - 甚至谷歌和亚马逊 - 使用机器学习训练他们自己的语音识别系统 “最优秀的人确实在大学里,”布莱克说,但他们通常无法访问非常庞大的语音训练数据集为了将他们的声音添加到项目中,人们可以访问Common Voice网站,记录他们自己阅读预选句子的剪辑并添加他们的人口统计细节访客还可以收听其他人的录音,以确保其准确无误所有这些最终将有助于构建能够识别各种口音的软件目前,Mozilla只接受英文录音,但如果该项目成功,它计划推出其他语言的类似举措阅读更多:AI教练将训练无望的聊天机器人通过图灵测试更多关于这些主题: