Megurté社论部
GPT-5据说是“博士水平智能”,但真的和人类一样好吗?美国研究人员的“旋转TIC TOE”实验强调了意外的弱点和多余的答案。
在本文中,我们将按照OpenAI所描绘的AGI的未来以及GPT-5面临的挑战,并向日本用户解释其含义。
内容
这个实验什么变得清晰当结论应简单地传达时,GPT-5重叠了冗余的解释和不正确的例证。这就是重点。
尽管理论是“董事会的旋转不会影响获胜和失去条件”,但这个问题已经提出了不必要的因素,例如心理因素和认知习惯,从而掩盖了本质。
一系列多余和模棱两可的解释
即使您旋转板子,Tic-toe也是同一游戏。然而,GPT-5汇总了许多假设,例如“对人类的心理困难”和“右转旋转比向左转的更令人困惑”。
漫长的解释本身还不错,但是当低优先级信息涵盖核心时,读者和用户会错过本质。如果在商业情况下发生同样的事情,它将导致判断,误解和审查工时增加的延迟。
一个有效的措施是①判断→②fundament→③这是一个详尽的程序,补充信息是将其保持在必要的最低限度。这保留了逻辑的金字塔结构,允许可读性和准确性。
虚假插图和不自然的推理
数字和桌子是帮助您理解的有力方法,但质量差实际上会导致混乱。这次,GPT-5的输出不准确,缺少位置标签,错别字,空白网格等。
此外,没有层次结构的依据,例如“正确跑步是最令人困惑的,而180度旋转则不那么混乱”,这使其成为合理但没有验证的解释。如果您的业务发生在您的业务中,则可能会误导基于图表的决策。
作为对策,①在生成之前,checklist元素和传说,②一代匹配数字和坐标,③戒指啄食建立运营规则(例如:这大大降低了误解的风险)是有效的。
对行业和用户的含义
该案例研究表明,“ AI可以通过这种方式解释,但不一定是正确的。”
尤其是,即使是唱着“博士学位智能”的模型,例如GPT-5,也可以揭示基本逻辑问题中的误解和冗余。这是行业和用户无法忽视的风险。
日本公司还正在加快将GPT引入其运营的运动。但是,如果您过分自信,您将能够将错误信息纳入您的决策中,这可能会导致质量下降,而不仅仅是提高业务效率。
使用公司时要注意的风险和点
AI在公司中的使用涵盖了广泛的领域,包括内部常见问题解答,报告写作和客户响应。但是像GPT-5“自信的误解”您必须始终假设可能会有结果。
为了降低风险,有效介绍以下检查站:
- 首先给出结论:首先,他们有一个简短,清晰的答案,然后是理由或补充。
- 双检查图表生成:人类始终检查输出图和表以消除错误。
- 必须提出估计:在排名或层次结构时,找到证据和来源。
- 人类批准流程:任何发送在外面发送的材料将进行审查。
通过将它们纳入系统,您可以将GPT安全地纳入您的业务中。
如何影响和感知日本用户
日本用户倾向于更喜欢“舒适,友好的解释”。 GPT-5在这方面得到了改善,比以前更可读的输出。
但,“可读性”和“准确性”不同是。如果多余的解释模糊了逻辑的核心,那么它实际上可能会令人困惑。
用户应该意识到的不是“提供模型答案的人”。“思想条”它是将其视为。
例如,在教育环境中,可以将学习效果通过使用AI输出作为分配或计算的材料而不仅仅是直接教授它们。
即使在公司中,将其定位为提案和记录创建的辅助工具也很重要,并以人类肯定会验证它们的假设进行操作。
GPT-5真的是“人类智能”吗?未来的观点,使您专注
GPT-5被描述为“医生的水平智能”,但是该实验的结果引起了有关其评估的疑问。当然,对话的自然性和熟悉程度有所改善。
但是,在某些情况下,基本的逻辑问题和插图的准确性超出了人类的常识。
人工智能不一定匹配“智能说话”和“准确思考”。将来,如何填补这一空白将是一个重大挑战。
我们应该如何评估AI智能?
在测量AI的演变时,仅基准分数和一般印象还不够。考虑实用性时,从以下角度进行评估很重要:
- 不变测试:检查结论即使表面层发生变化,例如旋转板或更换名称也不会波动。
- 反例演示测试:当给出反例以不正确的答案时,他们是否可以自己纠正它们。
- 可视化完整性测试:文本描述与输出图匹配吗?
- 短文化测试:您能否准确地总结不到200个字符的关键点?
通过使用这些标准,从“用这种事情说话的人的AI”到“可以在实践工作中信任的AI”您可以移动评估轴。
日本的未来改进和实用运营挑战
未来改进需要的是在保持简洁的同时检查逻辑的机制和,图表生成的质量保证是。产品需要一个明确分开“结论,证据和补充剂”的输出模式,并自动验证产品的系统。
在日本实施此产品时,必须建立质量标准和审核流程。仅通过清楚地表明AI生成的文档和图表是“人为验证的”可以大大提高可靠性。
GPT-5可能是聊天和思考支持的非常有用的合作伙伴。但是,设计和运行为“经过验证的业务合作伙伴”对于将其用作实用基础至关重要。这种过渡是否将来成为主要亮点。
关于我
