什么是算法偏差以及如何检测它们?

算法偏见会影响我们生活的各个方面,从获取在线内容推荐到寻找工作和做出财务决策。

偏见是人类的本性。 不同的人有不同的性别、种族、成长经历、教育背景、文化、信仰、经历等等。

因此,他们的观点、想法、好恶和偏好彼此不同。 他们可能会对某些类别产生某些偏见或反对。

机器也不例外。 由于算法中引入的偏差,它们也可能以不同的方式看待人、事物和事件。 由于这些偏见,人工智能和机器学习系统可能会产生不公平的结果,在很多方面阻碍人们。

在本文中,我将讨论什么是算法偏差、它们的类型以及如何检测和减少它们以增强结果的公平性。

让我们开始!

什么是算法偏差?

算法偏差是机器学习和人工智能算法反映类人偏差并产生不公平输出的倾向。 偏见可能基于性别、年龄、种族、宗教、民族、文化等。

在人工智能和机器学习的背景下,算法偏差是系统中引入的系统性、可重复的错误,会产生不公平的结果。

算法中出现偏差的原因有很多,例如与如何收集、选择、编码或在训练算法中使用数据、预期用途、算法设计等相关的决策。

示例:您可以观察到搜索引擎结果中的算法偏差,从而导致隐私侵犯、社会偏见等。

在选举结果、网上传播仇恨言论、医疗保健、刑事司法、招聘等领域存在许多算法偏见的案例。这加剧了性别、种族、经济和社会方面现有的偏见。

算法偏差的类型

#1. 数据偏差

当训练人工智能模型所需的数据不能正确代表现实世界的场景或人群时,就会出现数据偏差。 这可能会导致数据集不平衡或倾斜。

来源: 研科国际

示例:假设面部识别软件解决方案主要针对白人进行训练。 因此,当需要识别肤色较深的人时,它可能会表现不佳,从而影响他们。

#2. 测量偏差

这种偏差可能是由于测量或数据收集过程中的错误而引起的。

  如何在 Godot 中实现视差滚动

示例:如果您训练医疗保健诊断算法根据某些指标(例如之前的医生就诊次数)来检测疾病,则可能会影响判断并导致偏差,同时忽略实际症状。

#3。 模型偏差

设计算法或人工智能模型时会出现模型偏差。

示例:假设人工智能系统有一个算法,旨在无论如何实现利润最大化; 它最终可能会以牺牲商业道德、安全、公平等为代价来优先考虑经济利益。

#4。 评价偏差

当评估人工智能系统性能的因素或标准存在偏差时,就会出现评估偏差。

来源: 清晰的评论

示例:如果绩效评估人工智能系统使用有利于公司特定类别员工的标准测试,则可能会加剧不平等。

#5。 报告偏见

当训练数据集在其事件频率中缺乏对现实的准确反映时,可能会出现报告偏差。

示例:如果人工智能安全工具在特定类别中表现不佳,它可能会将整个类别标记为可疑。

这意味着,由于事件发生频率较高,系统接受训练的数据集将与该类别相关的每个历史事件标记为不安全。

#6。 选择偏差

当选择的训练数据没有适当的随机化或不能很好地代表总体时,就会出现选择偏差。

示例:如果面部识别工具接受有限数据的训练,它可能会开始显示出对其较少遇到的数据的一些歧视,例如在政治中识别有色人种女性,而不是政治中的男性和浅肤色个体。

#7. 隐性偏见

当人工智能算法根据某些个人经历​​做出假设时,就会出现隐性偏见,这些假设可能不适用于更广泛的类别或明确的人。

示例:如果设计人工智能算法的数据科学家个人认为女性主要喜欢粉色而不是蓝色或黑色,系统可能会相应地推荐产品,但这并不适用于每个女性。 许多人喜欢蓝色或黑色。

#8。 群体归因偏差

当算法设计者将适用于某些个体的东西应用到一个完整的群体时,无论这些个体是否属于该群体,这种偏见就会发生。 群体归因偏差在招聘和录取工具中很常见。

示例:招生工具可能会偏向特定学校的候选人,而歧视不属于该学校的其他学生。

#9。 历史偏见

在收集用于训练 ML 算法的数据集时,收集历史数据集非常重要。 但如果您不注意,由于历史数据中存在偏差,您的算法中可能会出现偏差。

示例:如果你用 10 年的历史数据训练一个人工智能模型来筛选技术职位的候选人,如果训练数据中男性多于女性,那么它可能会偏向男性申请人。

#10。 标签偏差

在训练 ML 算法时,您可能需要标记大量数据才能使其有用。 然而,标记数据的过程可能会有很大差异,从而产生不一致并向人工智能系统引入偏见。

示例:假设您通过使用方框标记图像中的猫来训练 AI 算法。 如果你不注意,算法可能无法识别图片中看不到猫脸的猫,但可以识别出有猫脸的猫。

这意味着该算法在识别正面有猫的图片时存在偏差。 如果从不同角度拍摄图像,只显示身体而不显示脸部,则无法识别猫。

#11。 排除偏差

来源: 研究之门

当某个特定的人、一群人或一个类别被认为不相关时,在数据收集过程中无意或有意地被排除在外,就会出现排除偏差。 它主要发生在机器学习生命周期的数据准备阶段,即清理数据并准备使用时。

示例:假设基于人工智能的预测系统必须根据购买率确定特定产品在冬季的受欢迎程度。 因此,如果数据科学家注意到 10 月份的一些购买并删除了这些记录,认为它们是错误的,并将标准持续时间视为 11 月到 1 月。 但有些地方的冬天甚至超过了这几个月。 因此,该算法将偏向于 11 月至 1 月经历冬季的国家。

如何将偏差引入算法?

训练数据

算法偏差的主要来源是用于训练人工智能和机器学习算法的偏差数据。 如果训练数据本身包含不平等和偏见的元素,算法将学习这些元素并延续偏见。

设计

在设计算法时,开发人员可能会有意无意地在人工智能系统中引入个人想法或偏好的反映。 所以,人工智能系统会偏向于某些类别。

决策

很多时候,数据科学家和领导者会根据个人经历、环境、信仰等做出决策。 这些决定也反映在算法中,这会导致偏差。

缺乏多样性

由于开发团队缺乏多样性,团队成员最终创建的算法不能代表整个群体。 他们没有经验或接触过其他文化、背景、信仰、方式等,这就是为什么他们的算法可能在某种程度上存在偏见。

数据预处理

用于清理和处理数据的方法可能会引入算法偏差。 此外,如果不仔细设计这些方法来消除偏差,人工智能模型中的偏差可能会变得严重。

建筑学

您选择的模型架构和 ML 算法类型也会引入偏差。 有些算法比其他算法更容易引起偏差,以及它们的设计方式。

特征选择

您选择训练人工智能算法的特征是造成偏差的原因之一。 如果您在选择特征时没有考虑其对输出公平性的影响,则可能会出现一些偏差,从而偏向某些类别。

  如何关闭 AT&T 消息备份和同步

历史文化

如果算法接受来自历史或某些文化的数据的输入和训练,它可能会继承偏见、信仰、规范等偏见。这些偏见可能会影响人工智能的结果,即使它们在目前是不公平和无关紧要的。

数据漂移

您现在用于训练人工智能算法的数据将来可能会变得无关、无用或过时。 这可能是由于技术或社会的变化造成的。 然而,这些数据集仍然会引入偏差并妨碍性能。

反馈回路

一些人工智能系统不仅可以与用户交流,还可以适应他们的行为。 通过这种方式,该算法可以增强现有的偏差。 因此,当用户的个人偏见进入人工智能系统时,就会产生一个有偏见的反馈循环。

如何检测算法偏差?

定义什么是“公平”

为了检测算法中的不公平结果或偏见,您需要定义“公平”对于人工智能系统到底意味着什么。 为此,您可以考虑性别、年龄、种族、性取向、地区、文化等因素。

确定计算公平性的指标,例如机会均等、预测均等、影响等。一旦定义了“公平性”,您就可以更轻松地发现不公平的情况并解决问题。

审核培训数据

彻底分析您的训练数据,以查找代表不同类别的不平衡和不一致情况。 您必须检查特征分布并检查它是否代表现实世界的人口统计数据。

为了可视化数据,您可以创建直方图、热图、散点图等,以突出显示仅依靠统计分析无法揭示的差异和模式。

除了内部审计之外,您还可以邀请外部专家和审计员来评估系统偏差。

衡量模型性能

要检测偏差,请尝试测量 AI 模型针对各种人口统计数据和类别的性能。 如果您根据种族、性别等将培训分为不同的组,将会有所帮助。您还可以使用公平性指标来计算结果的差异。

使用合适的算法

选择能够促进公平结果并能够解决人工智能模型训练中的偏见的算法。 公平感知算法旨在防止偏见,同时确保各个类别的预测相同。

偏差检测软件

您可以使用具有公平意识的专用工具和库来检测偏见。 这些工具提供公平性指标、可视化、统计测试等来检测偏差。 一些流行的有 AI Fairness 360 和 IBM Fairness 360。

寻求用户反馈

询问用户和客户对人工智能系统的反馈。 如果他们在人工智能系统中感受到任何形式的不公平待遇或偏见,鼓励他们给出诚实的评论。 这些数据将帮助您找出自动化工具和其他检测程序中可能未标记的问题。

如何减少算法中的偏差

使您的公司多元化

在公司和开发团队中创造多样性可以更快地发现和消除偏见。 原因是受偏见影响的用户可以很快注意到偏见。

因此,您的公司不仅要在人口统计方面多元化,还要在技能和专业知识方面多元化。 包括不同性别、身份、种族、肤色、经济背景等的人,以及具有不同教育经历和背景的人。

这样,您将能够收集广泛的观点、经验、文化价值观、好恶等。这将帮助您增强人工智能算法的公平性,减少偏见。

提高透明度

与您的团队就人工智能系统的目标、算法、数据源和决策保持透明。 这将使用户能够了解人工智能系统如何工作以及为什么它会产生某些输出。 这种透明度将促进信任。

公平意识算法

开发模型时使用公平感知算法,以确保为不同类别生成公平的结果。 如果您为金融、医疗保健等受到严格监管的行业创建人工智能系统,这一点就会变得显而易见。

评估模型性能

测试您的模型,以检查 AI 在各个组和子组中的表现。 它将帮助您了解聚合指标中不可见的问题。 您还可以模拟不同的场景来检查它们在这些场景(包括复杂场景)下的性能。

遵循道德准则

制定一些开发人工智能系统的道德准则,尊重公平、隐私、安全和人权。 您必须在整个组织内强制执行这些准则,以便在整个组织范围内提高公平性并反映在人工智能系统的输出中。

设置控制和责任

为团队中负责人工智能系统设计、开发、维护和部署的每个人设定明确的职责。 您还必须通过严格的协议和框架设置适当的控制,以解决偏见、错误和其他问题。

除此之外,您还必须进行定期审核以减少偏见并努力持续改进。 此外,请随时了解技术、人口统计和其他因素的最新变化。

算法偏差的现实例子

#1. 亚马逊的算法

亚马逊是电子商务行业的领导者。 然而,其 招聘工具 利用人工智能根据求职者的资格评估求职者的做法存在性别偏见。 该人工智能系统是使用以前担任技术职位的候选人的简历进行训练的。

不幸的是,人工智能了解到,数据中男性申请者的数量较多。 因此,它无意中偏向担任技术职位的男性申请人,而不是代表性不足的女性。 尽管亚马逊努力减少偏见,但仍不得不在 2017 年停止使用该工具。

#2. 种族主义的美国医疗算法

美国医院用于预测需要额外护理的患者的算法严重依赖 偏向白人患者。 该系统根据患者的医疗费用历史记录评估患者的医疗需求,将成本与医疗需求相关联。

该系统的算法没有考虑白人和黑人患者如何支付他们的医疗保健需求。 尽管病情不受控制,黑人患者的大部分费用还是用于紧急情况。 因此,与白人患者相比,他们被归类为更健康的患者,没有资格获得额外的护理。

  修复 Microsoft 安装程序引导程序已停止工作

#3。 谷歌的判别算法

发现 Google 在线广告系统 歧视性的。 调查显示,担任首席执行官等高薪职位的男性明显多于女性。 即使 27% 的美国首席执行官是女性,但她们在谷歌的比例要小得多,约为 11%。

该算法可以通过学习用户行为来显示输出,例如观看和点击高薪职位广告的人是男性; 人工智能算法将更多地向男性展示这些广告,而不是女性。

结论

机器学习和人工智能系统中的算法偏差可能会导致不公平的结果。 这些结果可能会影响各个领域的个人,从医疗保健、网络安全、电子商务到选举、就业等。 它可能导致基于性别、种族、人口统计、性取向和其他方面的歧视。

因此,减少人工智能和机器学习算法中的偏差以促进结果的公平性非常重要。 上述信息将帮助您发现偏见并减少偏见,以便您可以为用户创建公平的人工智能系统。

您还可以阅读有关人工智能治理的内容。