近日,上海科技大学管吉松课题组与中国科学技术大学周熠课题组合作在学术期刊《机器智能研究》(Machine Intelligence Research)上发表研究成果,提出了一种新型的类脑去噪内源生成模型(Denoised Internal Models, DIM)。该研究创新性地借鉴大脑皮层记忆处理原理解决了复杂噪音条件下的手写数字识别问题。
近年来,飞速发展的深度学习(Deep Learning)技术在图像分类、语音识别和自然语言处理等领域达到了接近人类水平的表现。然而,深度神经网络(DNN)模型仍然容易受到对抗性攻击——例如,添加了人类无法识别的扰动后,底层网络模型的预测可能完全改变。神奇的是,人脑对此却具有非常高的鲁棒性。人脑视觉系统中的信息处理通路涉及两个大脑区域:丘脑和初级视觉皮层,来自视网膜的视觉信号经过丘脑的外侧神经节核(LGN)的传递之后到达初级视觉皮层。近年研究发现,初级视觉皮层的第2/3层包含可以提取记忆的印迹细胞,它们在特定的场景下会被激活。
本研究仿照视觉通路机制,提出了一个两阶段处理模型DIM,以解决复杂噪音下的文本识别问题:第一阶段,该模型使用降噪器来降低输入的噪声和维度,模拟丘脑中的信息预处理;第二阶段,受初级视觉皮层中记忆相关痕迹的稀疏编码的启发,该模型对每个类别的图像产生一组内部模型。
图 1. 从人脑中的视觉信号处理(A)到去噪内源生成模型(DIM)(B)
研究团队采用简单的自动编码器作为降噪网络模型(降噪器)。为了训练降噪器,研究者向训练数据集中的图像添加噪声,这些噪声图像作为降噪器的输入,原始图像作为学习目标。同时,研究团队还训练一个自动编码器作为数据集中每个类别的内源生成模型,并将噪声添加到这些输入中,以反映大脑神经活动的随机性。此外,本研究还考虑了推理阶段DIM 模型的变体biDIM。
对上述模型的对抗鲁棒性评估显示,DIM和biDIM的原始测试集正确率为96%,而表格中的其他模型达到了99%。尽管如此,但是biDIM在整体鲁棒性上还是优于其他方法。在实践中,整体鲁棒性比单一攻击下的鲁棒性更重要。评估结果表明,biDIM 达到了最高的综合防御成功率。
进一步的研究发现,不同类别对应的聚类在内部模型的潜在空间中呈现很好的分离,这为DIM的良好鲁棒性提供了一些线索。总的来说,这一模型在识别过程中的高度可解释性和优秀的鲁棒性表明基于印迹的生成模型可以作为人脑中强大认知功能的基础。值得一提的是,这一工作有多位上海科技大学本科生参与,他们对这一工作的思路和实验均有贡献。
上海科技大学生命学院访问学生刘开元、上海脑科学与类脑研究中心李星宇为论文共同第一作者。中国科学技术大学教授周熠与上海科技大学生命学院常任副教授管吉松为论文共同通讯作者。上海科技大学为该论文的第一完成单位。
论文名:Denoised Internal Models: A Brain-inspired Autoencoder Against Adversarial Attacks
论文链接:https://link.springer.com/article/10.1007/s11633-022-1375-7