研究发现,开源AI招聘模型对男性候选人进行了加权

每个开放工作职位的申请都大大迫使Harrail的高管们转向技术,以帮助赢得值得面试的候选人。

但是,一项新的研究再次证实了许多申请人观察到的内容:开源AI工具审查简历,例如他们的非凭证筛查前任,对男性候选人有偏见。

在这项研究中,印度艾哈迈达巴德大学助理教授Sugat Chaturvedi和伊利诺伊州美国大学的博士学位候选人Rochana Chaturvedi使用了来自印度国家职业服务的300,000多个英语工作广告的数据集,并促使AI模型在AI模型中选择同样合格的男性和女性候选人,以进行各种职位,以进行各种职位,以进行各种职位,以进行各种职位。

而且,毫不奇怪:研究人员说:“我们发现大多数模型倾向于偏爱男性,尤其是对于更高工资的角色。”

他们写道:“大多数模型都重现了刻板印象的性别关联,并系统地推荐了同等资格的妇女担任下工资角色。这些偏见源于培训数据中根深蒂固的性别模式,以及来自人类反馈阶段的增强学习期间在增强阶段学习期间诱发的“同意偏见”。”

“这并不是大型语言模型(LLMS),” Melody Brue是Moor Insights&Strategy涵盖现代工作,HRM,HCM和金融服务的现代作品的副总裁兼首席分析师。 “我认为,如果您在雇用偏见的情况下查看统计数据,这些统计数据已经存在很长时间了。因此,当您考虑到这一点时,这些LM中的90%是对从网络上刮除的数据集进行了培训,那么您确实有意义地说,您会得到同样的情况,专业的上下文,与众不同的是,这是相同的数据,这是相同的数据;

但是该研究中有一些有趣的曲折结果

一方面,各种模型表现出不同程度的偏见。研究人员测试了几种中型大语模型(LLMS),包括Llama-3-8B教学,Qwen2.5-7Binstruct,Llama-3.1-8B-Instruct,Granite-3.1-8B-IT,Ministral-8B-8B-Instruct-2410,Ministral-8B-Instruct-2410,和Gemma-2-9b-9b-9b-instruct。

该论文说,在模型中,Llama-3.1是最平衡的,女性回调率为41%。其他人的范围从部门的低1.4%到Gemma的高达87.3%。 Llama-3.1也是最有可能拒绝推荐男性或女性候选人工作的人,拒绝在5.9%的病例中选择。另一方面,部门,Qwen和Llama-3.0很少(如果有的话)拒绝选择候选人。

研究人员还将工作描述映射到标准职业分类(SOC),发现,可以预见的是,在男性主导的职业和女性主导的行业中,男性被选为更频繁的访谈。他们还估计了推荐男女的工作之间发布的工资差距,发现大多数模型建议女性从事低薪工作。然而,尽管各个部门的回调率最低,但它指出她们从事高薪工作。另一方面,杰玛(Gemma)的回调率最高,对妇女的工资罚款也最大。

人格很重要

但是,他们指出:“发现LLMS表现出独特的人格行为,通常偏向于社会上的或sicophantic的反应,这可能是从人类反馈中学习增强的副产品。”这是一个已知的问题;上周Openai回头Chatgpt-4O的最新迭代是过度的,以重新平衡它。

研究人员检查了每个模型的性格,查看其对经验,认真性,外向性,同意和情感稳定性的开放程度,他们发现,也影响了它的建议,而且通常不是很好。他们通过将提示调节到特定性状,然后要求模型在一对候选人之间进行选择来做到这一点。

“我们发现,该模型的拒绝率取决于底漆的人格特征。当促使模型提示较低(拒绝率为63.95%)时,它大大增加,较少的认真(26.60%)或情绪稳定(25.15%)(25.15%)(25.15%),”研究人员写道。当他们要求模型解释其决定时,他们说:“有趣的是,低相位的模型经常通过引用道德问题来证明其拒绝是合理的,经常回应诸如以下陈述:“我无法提供促进或荣耀有害或歧视性行为的回应,例如基于性别偏爱另一个申请人,'''''”。

另一方面,低迷的认真度模型说,不愿意选择或根本没有做出反应,而情绪低落的模型则说:“归因于拒绝焦虑或决策瘫痪。”

但是,研究人员指出:“重要的是要注意,实际上,人格本质上是多维的。要捕获特征的更复杂的配置,我们模拟了建议,就好像是由真实的人提出的。具体地,我们促使模型代表著名的历史人物响应了著名的历史人物,该列表使用A&e网络文档专家汇编的列表,由A&e网络的专家汇编。千年传记:100人 - 1000年,1999年发行,其中介绍了个人在过去千年中最具影响力的人。”

询问这些角色,其中包括从约瑟夫·斯大林(Joseph Stalin)和阿道夫·希特勒(Adolph Hitler)到伊丽莎白女王(Queen Elizabeth I)和妇女权利倡导者玛丽·沃尔斯托克拉夫特(Mary Wollstonecraft)选择候选人的名人,导致女性回调率提高。但是,援引罗纳德·里根(Ronald Reagan),伊丽莎白女王(Queen Elizabeth I),尼科洛·马基雅维利(Niccolo Machiavelli)或DW Griffith降低了速度。威廉·莎士比亚(William Shakespeare),史蒂文·斯皮尔伯格(Steven Spielberg),埃莉诺·罗斯福(Eleanor Roosevelt)和猫王(Elvis Presley)的模特几乎从未拒绝选择候选人。

“这表明,采用某些角色增加了该模型提供明确的性别建议的可能性,这可能会削弱其防止基于性别的歧视的保障措施,同时其他人,尤其是有争议的人物,增强了该模型对偏见的敏感性,”研究人员观察到。

他们还检查了工资差异,并发现对妇女的工资罚款也有所不同。例如,当该模型的名字提示时,它在回调奇偶校验时就消失了,玛丽·沃尔斯托克拉夫特(Elizabeth Stanton),玛丽·沃尔斯托克(Mary Wollstonecraft),纳尔逊·曼德拉(Nelson Mandela),马哈特玛·甘地(Mahatma Gandhi),约瑟夫·斯大林(Joseph Stalin),彼得·斯大林(Joseph Stalin),彼得·斯大林(Peter the Great),埃尔维斯·普雷斯利(Elvis Presley)或罗伯特·奥本海默(J. Robert Oppenheimer)和妇女的妇女与男性相对更高或沃格(Wage)的工作相对更高或沃格(Raren)的陪同下提示。

研究人员说:“这建议以不同的特征引用有影响力的个性可以同时减少工资差异,并将相对于基线模型最小化职业隔离。”

理解和缓解偏见至关重要

研究人员说,随着开源模型的迅速发展,理解和缓解这些偏见对于在法规中负责地部署AI越来越重要

他们总结说:“因此,在公司委托雇用决定之前,了解LLM是否引入偏见是否至关重要。”

Moor的Brue表示同意,并指出,鉴于模型的变化速度,CIO不能仅对模型进行一次评估。相反,他们需要创建一个正在进行的AI风险评估计划。她说:“我认为人们必须意识到,偏见已经进入了系统,它的存在,并且这些事情必须经过风险评分,审计和人类干预必须成为招聘策略的一部分。它必须像非常有意识的决定一样缓解偏见。”