谷歌的全新文本转图片生成器上线仅三周就显示出明显的偏见。在上周下线该工具后,该公司表示,无法 100% 确保同样的问题不会再次出现。
即使谷歌修复了(法学硕士)并获得但是,生成式人工智能 (genAI) 工具可能并不总是可靠的——尤其是在生成有关时事、不断发展的新闻或热门话题的图像或文本时。
“它会犯错误,”该公司在一份声明中写道。MEA过失上周发布。“正如我们从一开始就说的那样,幻觉是所有法学硕士面临的一个已知挑战——有些情况下,人工智能会出错。这是我们不断努力改进的。”
谷歌知识和信息高级副总裁普拉巴卡尔·拉加万 (Prabhakar Raghavan) 解释了为什么该公司在仅仅三周后就被迫关闭了基于 genAI 的图像生成功能在双子座“修复它”。
简单来说,谷歌的 genAI 引擎会根据用户的文字提示,制作出明显偏向某种社会政治观点的图像。例如,用户输入纳粹图像的文字提示,就会生成黑人和亚裔纳粹。当被要求画一幅教皇的画像时,Gemini 的回答是创造一位亚洲女性教皇和一位黑人教皇。
被要求创作一幅中世纪骑士的形象,双子座吐出图像亚洲、黑人和女骑士。
“很明显,这个功能没有达到预期效果,”Raghavan 在他的博客中写道。“生成的一些图像不准确,甚至令人反感。”
任何人工智能都存在反应偏差和彻底“幻觉“ - 在哪里—— 并不新鲜。毕竟,genAI 只不过是该技术依靠已经输入模型的信息来猜测接下来会发生什么。
令研究人员、行业分析师和其他人士有些惊讶的是,作为该技术最早的开发商之一,谷歌在 Gemini 上线之前并没有对其进行适当的审查。
什么地方出了错?
天普大学统计学、运筹学和数据科学教授 Subodha Kumar 表示,谷歌创建了两个用于自然语言处理的 LLM:PaLM 和 LaMDA。LaMDA 有 1370 亿个参数,PaLM 有 5400 亿个参数,超过了 OpenAI 的 GPT-3.5,后者有 1750 亿个参数,用于训练 ChatGPT。
“谷歌的策略是高风险、高回报的策略,”库马尔说。“……他们很有信心发布他们的产品,因为他们已经为此努力了好几年。然而,他们过于乐观,错过了一些显而易见的东西。”
“尽管 LaMDA 被誉为自然语言处理 (NLP) 领域的游戏规则改变者,但仍有许多替代方案,它们之间既有相似之处,也有差异,例如 Microsoft Copilot 和 GitHub Copilot,甚至 ChatGPT,”他说。“它们都存在一些问题。”
Kumar 表示,由于 genAI 平台是由人类创建的,因此它们都存在偏见,“至少在不久的将来是这样”。“更多通用平台将存在更多偏见。我们可能会看到许多专业平台的出现,这些平台使用专业数据和模型进行训练,偏见较少。例如,我们可能为医疗保健领域的肿瘤学和制造业分别设置一个模型。”
这些 genAI 模型具有更少的参数,并且基于专有数据进行训练,有助于降低它们出错的可能性,因为它们更专注于任务。
双子座的问题对谷歌来说是一个挫折,因为社交媒体界对此批评不已,这无疑会损害谷歌的声誉。
“首先,我认为我们需要承认,客观地说,谷歌创造了一个如此清醒和愚蠢的人工智能,它画出了各种纳粹分子的画像,这真是极其可笑。”SubStack 博主 Max Read 写道。
Google 的 Gemini 模型是业界唯一的原生多模态 LLM;Gemini 1.0 和 Gemini 1.5 都可以通过文本、图片、音频、视频和代码提示提取和生成内容。例如,Gemini 模型中的用户提示可以采用 JPEG、WEBP、HEIC 或 HEIF 图像的形式。
与 OpenAI 流行的 ChatGPT 和Sora 文本聊天功能谷歌表示,用户可以向其查询引擎输入大量信息,以获得更准确的响应。
谷歌表示,Gemini 对话应用程序可以生成图像和文本回复,并且与谷歌的搜索引擎以及该公司的底层 AI 模型和“我们的其他产品”是分开的。
图像生成功能建立在名为图2,谷歌的文本转图像传播技术。谷歌表示,它“调整”了该功能,以确保它不会落入该公司过去发现的“陷阱”,“例如创建暴力或色情图片,或真实人物的描述。”
谷歌声称,如果用户在 Gemini 查询中提供更具体的信息 - 例如“教室里的黑人老师”或“带着狗的白人兽医” - 他们就会得到准确的答复。
“调整”(即,用于教授 Gemini 的模型显示,“一些人未能解释显然不应该显示范围的情况”。谷歌表示,随着时间的推移,该模型变得比预期的更加谨慎,并完全拒绝回答某些提示——错误地将一些非常无害的提示解释为敏感提示。
拉加万写道:“这两件事导致模型在某些情况下过度补偿,而在其他情况下过于保守,从而产生令人尴尬和错误的图像。”
在谷歌重新启用图像生成器之前,它计划进行广泛的测试。
然而,Gemini 的问题并非始于图像生成。例如,该工具拒绝写招聘广告Gartner 杰出副总裁分析师 Avivah Litan 表示,出于对环境问题的考虑,石油和天然气行业正在面临巨大的发展压力。
Litan 还指出双子座的分析美国宪法禁止关闭华盛顿邮报或者纽约时报但不是福克斯新闻或纽约邮报。
“Gemini 声称将希特勒和奥巴马进行比较是不恰当的,但将希特勒与伊隆马斯克进行比较很复杂,需要‘仔细考虑’,”Litan 写道。
“Gemini 自最近发布以来就受到了应有的关注——这是有原因的,”Litan 继续说道。“它揭示了当人工智能在少数强大的技术巨头的控制下似乎会散布有偏见的信息,有时甚至会改写历史时,存在的明显而现实的危险。在我看来,使用由有权势的人控制的单一事实来源来操纵思想,与物理武器系统一样危险。
“遗憾的是,”她继续说道,“作为消费者或企业,我们没有工具来轻松消除不同人工智能模型输出中固有的偏见。”
LItan 表示,Gemini 备受关注的混乱局面“凸显了监管部门迫切需要关注 genAI 和偏见”。
IDC 分析师 Ritu Jyoti 打趣道:“对于 Google Gemini 来说,这是一个有趣且充满挑战的时期。
“谷歌确实处于人工智能创新的前沿,”乔蒂说,“但看起来这种情况是由于算法调整方式导致的意外后果的一个例子。”
Jyoti 表示,虽然市场尚处于起步阶段且发展迅速,而且一些 genAI 问题十分复杂,但仍需要在培训/调整以及如何将这些工具推向市场方面进行更多的尽职调查。
“风险很高,”她说。“在企业市场,在出现问题之前,有更多的人参与其中。因此,控制意外负面后果的能力略好一些。在消费者市场,这更具挑战性。”
除了 Gemini 之外,其他 genAI 创造者也在努力创造不会表现出偏见、不会产生幻觉或不会通过窃取他人已发表的作品而侵犯版权的工具。
例如,OpenAI 的 ChatGPT律师陷入困境在他使用该引擎创建法律摘要之后,这项原本繁琐的任务似乎非常适合自动化技术。不幸的是,该工具为摘要创建了几条虚假的诉讼引文。即使在法官面前道歉后,这位律师还是被公司解雇了。
Chon Tang,创始合伙人 伯克利 SkyDeck 基金加州大学伯克利分校的学术加速器简单地说:“生成式人工智能仍然不稳定......不像其他技术那样更像具有非常明确行为的‘工具’。
“例如,我们不想使用一台有 5% 的时间无法洗碗的洗碗机,”唐说。
唐警告企业,如果他们依赖 genAI 在没有人工监督的情况下自动完成任务,那么他们将会面临惨痛的教训。
“生成式人工智能更像人类,因为它需要管理,”他说,“必须仔细审查提示、验证工作流程,并仔细检查最终输出。所以,不要指望系统能够自动完成任务。相反,一般而言,生成式人工智能,尤其是法学硕士,应该被视为团队中成本非常低的成员。”
天普大学的库马尔对此表示同意:“目前”还不应该完全信任这些 genAI 平台。”
事实上,对于许多企业用例而言,genAI 响应应该始终由专家检查和使用。
“例如,这些是撰写合同或总结报告的绝佳工具,但结果仍需要专家检查,”Kumar 说。“尽管存在这些缺点,但如果我们谨慎使用这些结果,它可以为我们节省大量时间。例如,医生可以利用 genAI 的结果进行初步筛查,以节省时间并发现隐藏的模式,但 genAI 无法取代医生(至少在不久的将来或我们的一生中)。同样,GenAI 可以帮助招聘人员,但他们不应该雇用人员,至少现在还不应该。”