语音助手正在成为我们日常生活的一部分,但他们不能平等地理解每个人的声音。我们探索行业如何解决这种不平等现象。
来源:南风盛世品牌设计转载 标签:品牌设计,品牌战略设计
“我尚未见到有意进行区分的设计人员,” Miriam Vogel告诉《设计周刊》。“但是有时候很难承认你设计的东西可能存在差距和缺陷。”
Vogel是EqualAI的执行董事,EqualAI是美国的一项计划,旨在防止人工智能(AI)开发中出现无意识的偏见。但是,当涉及到AI的最广泛使用之一(语音助手)时,机器本身确实会区别对待。
南昌科技VI设计研究表明,虽然说美国白人男性的语音助手能识别的准确率是92%,但是美国白人女性的准确率是79%。混合种族的美国女性只有69%的机会被了解。(造成美国偏见的原因是,最受欢迎的助手-亚马逊的Alexa,谷歌Home和苹果的Siri都位于加利福尼亚。)
沃格尔说:“语音助手的例子是如此令人难以置信,因为它已成为我们日常生活中如此重要的一部分。”(去年,全世界估计有32.5亿个语音助手在使用)。“然而,它充满了关于如果使用哪种语言编写代码,可以听到和不听到什么声音,口音和语调的问题。”
她补充说:“这是更大系统的线索。” “如果我们继续让同类玩家设计AI而又不会带来不同的声音和观点,那么我们的语音助手将不会受益于各种优势。”
“以白人男性为中心”
南昌科技品牌设计公司该问题可能导致轻松的误解,尤其是Siri对口音的误解。但是正如Vogel指出的那样,如果医疗技术沟通不畅-语音技术变得越来越重要的领域-这可能会造成严重甚至致命的后果。
问题在于发展过程:机器学习领域中只有13.5%的女性员工。Vogel表示,用于技术的数据集来自“众所周知以白人男性为中心”的临床试验。
Vogel在工作场所偏见领域具有丰富经验;她领导了奥巴马总统领导的同工同酬工作队,提倡女性同工同酬。作为一名受过培训的律师,她还领导了联邦执法隐性偏见培训的制定。她认为,创建更加多样化的AI的方法不仅是技术开发人员,而且是召集立法者,学者和商业领袖的观点,是多种多样的。
EqualAI还与科技公司合作举办研讨会,以帮助他们“遵循最佳实践,避免注入隐性偏见”。Vogel说,这就是复杂的地方。向设计师解释他们的创作可能存在缺陷,可能会导致“防御性”。“我们的工作的一部分是让人们知道,没有人能做到无所不知。”沃格尔补充说。“人性化的缺点是您必须期望这会在您的AI中浮出水面,因此您需要对其进行计划。”
EqualAI还具有公司重点:Vogel向公司解释说,他们更有可能出售了解其潜在客户的产品。这种“消费者教育”对于产品的商业成功至关重要:“这种声音识别能否使我理解为女性?它能理解我家人在中国的声音吗?”
尽管该领域的主要参与者是美国人,但沃格尔说,英国人对人工智能的偏见“遥遥领先”。(EqualAI的创始成员包括英国人,包括维基百科的创始人吉米·威尔士和女商人玛莎·莱恩·福克斯。)今年,英国广播公司推出了自己的语音助手,这个叫醒的名字将被人们所熟知-用户说的名字叫“唤醒设备-Beeb。
英国广播公司(BBC)表示,它处于创建英国重点语音助手的良好位置。它说:“人们认识并信任BBC,因此它将利用其作为技术中公共服务创新者的作用,确保所有人(不仅是技术精英)都能以这种新方式受益于访问内容和新体验。” 它将在启用语音的设备上运行。
该项目由BBC语音和AI执行编辑Mukul Devichand负责。尽管BBC的数字团队尚无法对启用语音的助手提供更多评论,但它概述了该项目的工作方式。它要求英国各地办事处的团队花几分钟记录他们的声音,“以确保每个人的口音在启动时都能被识别”。
尽管它将拥有更加多样化的数据集,并且可能比硅谷的普通办事处拥有更多的区域特色,但它仍然是广播公司商业策略的一部分。它说:“这还将使英国广播公司在听众可以享受的内容和功能上更具野心。”
走向更加多样化的数据集
BBC的开源数据集会是什么样?在Mozilla的Common Voice Project中可以找到一个比较。Mozilla负责机器学习的负责人凯利·戴维斯(Kelly Davis)表示,该网络浏览器项目成立于2017年,旨在“加快收集全世界所有语言的数据的过程,而不论其口音,性别或年龄。”
戴维斯(Davis)说,科技巨头具有优势,因为它们“对语音数据的适当访问”。他补充说:“与男性相比,男性更容易工作,并且难以理解具有不同口音的人,所有这些都是受其训练的数据存在偏见的结果。” (有关存储和使用该数据的问题也“仍然没有答案”,戴维斯指出。)
在获得自愿者同意的情况下,Mozilla众包数据收集,以尝试“启用更加准确并能代表全球人口的新语音辅助技术”。世界各地的人们都将自己的声音“捐赠”给一个数据集,然后供开发语音技术的初创公司和公司免费使用。
通用语音数据集现已成为世界上“最大的公共领域转录语音数据集”,具有记录的4,000多个小时的语音数据和35种语言,包括英语,法语,德语和普通话。贡献者还可以提供有关他们的年龄,性别和口音的元数据,以便他们的声音被标记为“可用于培训言语体系的信息”。
威尔士语为Kabyle(阿尔及利亚北部的一个土著社区)贡献了世界各地的语言。这凸显了语音技术的另一个偏见:根据戴维斯的说法,专注于英语是设计AI系统的最有利可图的语言。
Common Voice项目的一项新进展是将濒危语言纳入其中。戴维斯说:“它已经从为资源匮乏的语言创建开放语音数据集的项目演变为还具有语言保存组件的项目,”他将其称为“荣誉和负担”。
更加“多样化的语音技术生态系统”
使用通用语音数据集的Mycroft Mark II设备
至关重要的是,使用了Mozilla的数据集:Mycroft(一个以Sherlock Holmes的哥哥命名的开源语音助手),Te Hiku媒体(一个新西兰的慈善媒体组织),Iara Health(一个巴西葡萄牙语医疗转录工具)。戴维斯说,Mozilla的前进目标是为建立一个更加“多样化和创新的语音技术生态系统”做出贡献。这意味着自己发布支持语音的产品,并“支持研究人员和较小的参与者”。
去年,Mozilla与德国经济合作与发展部合作,支持“非洲的倡议者收集当地语言数据”。这些数据集将用于与该国的可持续发展目标“相关”的语音功能产品和技术。
谈到广泛的语音支持的未来,整个行业依赖一个开源数据项目的可能性有多大?截至2020年,数据集的英语部分中有38GB的数据。在标记了数据的人中,男女之间的比例为46%至13%。如果您正在为斯洛文尼亚人开发应用程序,则只能处理175MB的语音数据。由志愿者推动的项目显然存在局限性。
“人工智能的关键时刻”
对于EqualAI,进步是通过了解AI的范围来实现的。Vogel说:“这是AI必不可少的时间,我们看到了危害,但也看到了它的力量,” “我工作中最有趣的部分是吸引人们成为更好的人,他们想要成为。这是告诉他们如何创建更好的产品。”
Vogel说:“那是胡萝卜。”但设计师必须牢记非常实际的缺点,这一点也很重要。“棍子告诉他们,如果他们不接受这一挑战,他们的产品,公司和品牌声誉将受到损害。而且,顺便说一下,有律师为赔偿责任辩护,而且随着人们开始对这一领域有了更好的了解,这种情况正在增长。 。”
更多品牌VI设计作品请点击下面链接: