脑科学

神经模型

发布时间:2022-07-05

神经模型研究非程序的、适应性的、大脑风格的人工神经网络信息处理的本质和能力,为了模拟大脑信息处理的机理,神经模型具有非线性、非局域性、非定常性、非凸性等特点。神经模型是算法和结构统一为一体的系统,可以看作是硬件和软件的混合体。

现代神经模型开始于麦克洛奇(W S McCulloch) 和皮兹(W Pitts)的先驱工作。麦克洛奇是神经学家和解剖学家。他用20年的时间考虑神经系统对事件的表示问题。皮兹是数学天才,于1942年开始神经计算的研究。 1943年麦克洛奇和皮兹在一个神经建模小组上公布了他们的论文。该小组在芝加哥大学拉谢夫斯基(N Rashevsky) 领导下,五年前就很活跃了。在他们的经典论文里,麦克洛奇和皮兹结合了神经生理学和数理逻辑的研究描述了一个神经网络的逻辑分析。他们的神经元模型假定遵循有-无模型律。如果如此简单的神经元数目足够多,适当设置连接权值并且同步操作, 麦克洛奇和皮兹证明这样构成的网络原则上可以计算任何可计算函数。这是一个有重大意义的结果,有了它标志着神经网络和人工智能的诞生。

    2个重要发展是1949年,赫布(D O Hebb)在他的书《行为组织学》(The Organization of Behavir)中第1次清楚说明了突触修正的生理学习规则。特别是赫布提出大脑的连接是随着生物学会不同功能任务而连续地变化的, 神经组织就是由这种变化创建起来的。赫布继承了拉莫尼(Ramony)和卡贾尔(Cajal)早期的假设并引入自己的学习假说:两个神经元之间的可变突触被突触两端神经元的重复激活加强了。赫布的书在心理学家中有广泛的影响,但遗憾的是对工程界却影响很少。

    在麦克洛奇和皮兹的经典论文发表15年以后,罗森勃拉特(F Rosenblatt)在他有关感知器的研究著作中提出了模式识别问题的新方法,一种新的监督学习方法。感知器收敛定理使罗森勃拉特的工作取得圆满的成功。他于1960年提出感知器收敛定理的第一个证明。 该定理的证明也出现在Novikoff(1963)和其他人的工作中。 威德罗(B Widrow)和霍夫(Hoff)介绍了最小平均平方(least mean square,LMS)算法,并用它构成了Adaline(adaptive linear element)。感知器和Adaline的区别在于训练过程。最早的可训练的具有多个自适应元素的分层神经网络之一是由威德罗和他的学生提出的Madaline(multiple-adaline)结构。1967年 甘利俊一(Amari)将统计梯度方法用于模式分类。1965年Nillson出版《学习机》(Learning Machine)一书,迄今为止它仍是关于用超平面区分线性可分模式的最好的作品。在20世纪60年代,感知器神经网络好象可以做任何事。明斯基和佩珀特(Papert)在1969年合写的《感知器》(Perceptrons)书中利用数学理论证明单层感知器所能计算的本质局限

在20世纪80年代,关于神经网络的理论和设计方面取得了进展,随之神经网络的研究工作进入了恢复期。格罗斯伯格(S Grossberg)基于他的竞争学习理论的早期工作,建立了一个新的自组织原则,就是著名的自适应共振理论(adaptive resonance theory,ART)。基本上说,这个理论包括一个由底向上的识别层和一个由顶向下的产生层。如果输入形式和已学习的反馈形式匹配,一个叫做“自适应共振”的不定状态(即神经活动的放大和延长)发生了。这个前向或反向映射原已由其他的研究者在不同的条件下重新发现。

    在1982年,霍普菲尔德基于能量函数的思想提出了一种对称连接的递归网络计算的新方法。并且他在这种递归网络和统计物理中使用的Ising模型之间建立了同构。这个类推为一连串的物理理论进入神经元模型奠定了基础,因此改变了神经网络的研究方法。这类具有反馈的特殊神经网络在80年代引起了大量的关注,在那个时期产生了著名的Hopfield网络。尽管Hopfield网络不可能是真正的神经生物系统模型,然而它们包涵的原理,即在动态的稳定网络中存储信息的原理,是极深刻的。    

    1982年另一个重大发展是科霍南(T Kohonen)关于使用一维或二维格形结构的自组织映射研究的著作[377], 这在某些方面与威尔肖和马尔斯伯格稍早的工作不同。在文献中科霍南工作在分析和应用方面比威尔肖和马尔斯伯格的模型得到了更多的注意,已经成为这一领域其他创新的评估标准。

    1983年克尔潘特里克(S Kirkpatrick)、格拉特(C D Gelatt)和维奇(M P Vecchi)描述了解决组合最优化的问题的称为模拟退火的新方法。模拟退火根植于统计力学,是基于梅罗波列斯(N Metropolis) 等在计算机仿真中第一次使用的一个简单技术。阿克列(D H Ackley, 欣顿(G E Hinton)和塞杰诺斯基(T J Sejnowski)利用模拟退火的思想发展称为玻尔兹曼(Boltzmann)机的随机机器,它是多层神经网络的第一个成功实现。

    巴托(A G Barto)、苏顿(R S Sutton)和安德森(J A Anderson)关于强化学习的论文发表于1983。虽然他们不是第一次使用强化学习(例如明斯基在他1954年的博士论文中考虑过它),但这篇文章引起了大量关于强化学习及其在控制中应用的兴趣。特别地,他们证明了一个强化学习系统可以在没有有益教师的情况下学习倒立摆(即车上立一个杆)平衡。学习系统仅要求当杆对竖直方向倾斜超过一定角度或车到达轨道的端点时的失败信号。1996年贝特色卡斯(D P Bertsekas)和茨茨克利斯(J N Tsitsiklis)出版了《神经动力学程序》(Neuro-dynamics), 这本书把强化学习和Bellmam的动态规划相联系,把它放在一个恰当的数学基础上。

    1986年鲁梅尔哈特(D E Rumelhart)、欣顿(G E Hinton) 和威廉姆斯(R J Williams)报告了反向传播算法的发展。同一年,著名的鲁梅尔哈特(D E Rumelhart)和麦克莱伦德(J L  McClelland)主编的《并行分布处理:认知微结构的探索》(Parallel Distributed Processing: Explorations in the Microstructure of Cognition)一书出版。这本书极大地促进了反向传播算法的使用,使之成为最通用的多层感知器的训练算法。事实上,反向传播学习在同一时间在其它两个地方被独立提出过。在20世纪80年代中公布反向传播算法后,发现早在19748月哈佛大学的韦勃斯(P J Werbos 已经在他的博士学位论文描述了

20世纪90年代早期,瓦珀尼克(V N Vapnik)和他的合作者提出了计算上强有力的并被称为支持向量机(support vector machines,SVM)的一种监督学习网络,用于解决模式识别、回归和密度估计问题,新方法是基于有限样本学习理论的结果。支持向量机的一个新颖的特征就是在它们的设计中以自然的方式包含了 Vapnik-Chervonenkis(VC) 维数。 VC维数提供了神经网络从一个样本集中学习的容量的一种度量。

    迄今为止,按生物神经网络大规模并行分布方式构造的各种人工神经网络,虽然已经在信息处理中扮演着越来越重要的角色,但是并没有显示出人们所期望的聪明智慧来。对以仿效大脑神经系统为目的的人工神经网络的研究历程进行一些分析和反思,探讨下一步可能采取的方法步骤,对今后智能科学的进一步发展将是有益的。

参考文献

1. Zhongzhi Shi. Intelligence Science---Leading the Age of Intelligence. Elsevier and Tsinghua University Press, 2021.

2. 史忠植. 智能科学(第三版). 北京:清华大学出版社, 2019.



附件下载: