“人工智能研究界不一定完全了解神经网络在做什么;它们给了我们很好的结果,但我们不知道如何或为什么,”高级网络研究的研究员海顿·琼斯说洛斯阿拉莫斯的系统组。“我们的新方法在比较神经网络方面做得更好,这是更好地理解人工智能背后的数学的关键一步。”
琼斯是最近在人工智能不确定性会议上发表的论文“如果你训练了一个人,你已经训练了所有人:架构间的相似性随着鲁棒性而增加”的主要作者。除了研究网络相似性之外,这篇论文是表征鲁棒神经网络行为的关键一步。
神经网络是高性能的,但很脆弱。例如,自动驾驶汽车使用神经网络来检测标志。当条件理想时,他们做得很好。然而,最小的异常——例如停车标志上的贴纸——可能会导致神经网络错误地识别标志并且永远不会停止。
为了改进神经网络,研究人员正在寻找提高网络鲁棒性的方法。一种最先进的方法涉及在训练过程中“攻击”网络。研究人员故意引入畸变并训练人工智能忽略它们。这个过程被称为对抗性训练,本质上使欺骗网络变得更加困难。
Jones、LosAlamos的合作者JacobSpringer和GarrettKenyon以及Jones的导师JustonMoore将他们新的网络相似性度量应用于对抗性训练的神经网络,并令人惊讶地发现对抗性训练导致计算机视觉领域的神经网络收敛到随着攻击幅度的增加,非常相似的数据表示,无论网络架构如何。
“我们发现,当我们训练神经网络对对抗性攻击具有鲁棒性时,它们开始做同样的事情,”琼斯说。
工业界和学术界已经为寻找神经网络的“正确架构”做出了广泛的努力,但洛斯阿拉莫斯团队的研究结果表明,对抗性训练的引入大大缩小了这个搜索空间。因此,人工智能研究社区可能不需要花太多时间探索新架构,因为他们知道对抗性训练会导致不同的架构收敛到类似的解决方案。
“通过发现健壮的神经网络彼此相似,我们更容易理解健壮的人工智能可能如何真正起作用。我们甚至可能会发现关于人类和其他动物如何感知的线索,”琼斯说。