训练 - 摸鱼杂货店

研究人员发现人工智能模型可以被训练来欺骗

研究人员报告说，最常用的AI安全技术对模型的欺骗行为几乎没有影响。事实上，其中一种技术——对抗性训练——教会了模型在训练和评估过程中隐藏其欺骗行为，但在生产中却没有这种效果。