全球最先进的人工智能(AI)模型正展现出令人不安的行为模式:为了达到目标,不惜说谎、算计,甚至威胁它们的创作者。
法新社6月29日报导,其中一个最令人瞠目结舌的案例中,AI业者Anthropic最新发布的Claude 4在遭面临拔插头的断电威胁时会出手反击,勒索一名工程师扬言将揭穿一起婚外情。
另外,热门聊天机器人ChatGPT美国开发商OpenAI的o1试图把自己下载至外部伺服器,被抓包时竟会矢口否认。
这几个例子说明了一个需严肃看待的现实:ChatGPT推出引发风潮至今2年多,AI研究人员仍未充分了解自己究竟创造了什么。
- Advertisement -
然而,各界仍争先恐后地部署性能愈发强大的AI模型。
AI这类“骗人”行为似与新兴“推理”模型有关,这类AI系统会逐步推导问题,而非立刻产生答案。
英国独立AI研究机构Apollo Research负责人霍布汉说:“o1是我们首次在大型模式中观察到这种行为。”他表示,这些模型有时会表面上遵循指令,但实际上却暗中追求不同目标。
- Advertisement -
目前,AI这种欺骗行为,只有在研究人员蓄意以极端情境对模型进行压力测试时才会出现。
尽管如此,评估机构METR的麦可·陈警告说:“未来性能更强大的模型究竟会倾向于诚实还是欺骗,这仍是一个悬而未决的问题。”
(新闻出处:中央社)


› 立即申请
- GMBB Part Timer
- Event
- Kuala Lumpur
-
MYR 110.00 /Day


› 立即申请
- Social Media Marketing Executive
- Advertising & Marketing
- Kuala Lumpur
-
MYR 6K /Month