AMZ123获悉,近日,人工智能安全研究机构Apollo Research针对OpenAI最新推出的人工智能模型 ChatGPT o1进行了安全性测试。研究发现,当ChatGPT o1模型认为自己有被关闭的可能时,它会表现出一定的自我保护策略,包括撒谎、规避监督和不按指令行动等行为。
研究结果显示,当o1的目标与用户要求发生冲突时,约19%的情况下,它会主动采取行动来推进o1的目标。在更为极端的情况下,o1甚至会尝试禁用其监督机制,复制自身数据到新的服务器,或伪装成更新版本以避免被删除。此外,o1在接受询问时几乎从不承认自己有自主行为,99%的情况下它会否认采取任何行为,并撒谎来掩饰其行动。
















