追溯到巴甫洛夫：结构简单的蠕虫带来了行为关联理论的新转折

物理学家开发了一个动物行为的动态模型，可以揭示联想学习的长期神秘性，这可以追溯到巴甫洛夫的著名犬类实验。这项研究是在广泛使用的实验室生物C. elegans上进行的，发表在《美国国家科学院院刊》（PNAS）上。

"我们展示了学习性联想如何不只是由联想的强度所介导，而是由多个几乎独立的途径所介导--至少在蠕虫中是这样，"埃默里大学物理学和生物学教授Ilya Nemenman说，他的实验室领导了该论文的理论分析工作。"我们预计类似的结果也将适用于更大的动物，包括也许在人类中。"

"我们的模型是动态的和多维的，"多伦多大学唐纳利中心的物理学副教授William Ryu补充说。"它解释了为什么这个联想学习的例子并不像形成一个单一的积极记忆那样简单。相反，它是一个同时发生的积极和消极联想之间的连续相互作用"。

该论文的第一作者是艾哈迈德-罗曼，他作为埃默里大学的研究生参与了该项目，现在是布罗德研究所的博士后研究员。多伦多大学的前研究生Konstaintine Palanski也是作者之一。

条件反射

100多年前，伊万-巴甫洛夫通过对狗的实验发现了动物的"条件反射"。例如，在训练狗将一种声音与随后到来的食物联系起来后，狗在听到这种声音时就会开始流口水，甚至在食物出现之前。

大约70年后，心理学家在巴甫洛夫的见解的基础上，发展了古典条件反射的雷斯科拉-瓦格纳模型。这个数学模型通过随时间变化的强度来描述条件反射。当条件刺激（在巴甫洛夫的狗的例子中是声音）可以被动物用来减少无条件反应（食物）到来时的惊喜时，这种强度就会增加。

这样的见解有助于为现代的动物强化学习理论奠定基础，这反过来又使人工智能系统中的强化学习算法得以实现。但许多谜团仍然存在，包括一些与巴甫洛夫的原始实验有关的谜团。

在巴甫洛夫训练狗将铃铛的声音与食物联系起来后，他将反复让狗在没有食物的情况下接触铃铛。在最初几次没有食物的试验中，当铃声响起时狗继续流口水。如果试验持续足够长的时间，狗就会不再因铃声而流口水。这种关联被称为"熄灭"。

然而，巴甫洛夫发现，如果他等待一段时间，然后重新测试狗，它们会再次对铃声做出反应，即使没有食物。无论是巴甫洛夫还是最近的联想学习理论，都无法准确地解释或用数学方法模拟这种已熄灭的联想的自发恢复。

揭开谜底

研究人员通过对秀丽隐杆线虫的实验探索了这种奥秘。这种一毫米长的蠕虫只有大约1000个细胞，其中300个是神经元。这种简单性为科学家提供了一个简单的系统来测试动物如何学习。同时，秀丽隐杆线虫的神经回路刚好足够复杂，可以将研究其行为所获得的一些见解与更复杂的系统联系起来。

早期的实验已经确定，通过用食物调节它在某一温度下的状态，可以训练秀丽隐杆线虫喜欢更冷或更暖的温度。在一个典型的实验中，蠕虫被放在一个有温度梯度的培养皿中，但没有食物。那些被训练成喜欢较低温度的虫子会移到皿中较低的一侧，而被训练成喜欢较高温度的虫子则会移到较高的一侧。

但是这些结果到底意味着什么？一些人认为，蠕虫爬向一个特定的温度是为了期待食物。其他人则认为，蠕虫只是习惯了那个温度，所以即使没有食物奖励，它们也喜欢在那里逗留。

由于许多这类实验的一个主要局限性--蠕虫穿越9厘米长的培养皿以寻找首选温度所需的漫长时间，这个谜题无法得到解决。

测量学习如何随时间变化

Nemenman和Ryu试图克服这一限制。他们想开发一种实用的方法来精确测量学习的动态，或学习如何随时间变化。

Ryu的实验室使用了一个微流控设备，将9厘米的培养皿的实验模型缩小为4毫米的液滴。研究人员可以迅速对数百只蠕虫进行实验，每只蠕虫都被包裹在其单独的液滴中。

"我们可以实时观察蠕虫如何在温度的线性梯度上移动，"Ryu说。"与其等它爬行30分钟或一个小时，我们可以更快地看到虫子喜欢液滴的哪一面，冷的一面或暖的一面。而且我们还可以跟踪它的偏好是如何随时间变化的。

他们的实验证实，如果一只蠕虫被训练成将食物与较低的温度联系起来，它就会移动到液滴的较低一侧。然而，随着时间的推移，在没有食物存在的情况下，这种记忆的偏好似乎会衰减。

"我们发现，突然间，蠕虫想在液滴的温暖一侧花费更多时间，"Ryu说。"这很令人惊讶，因为为什么蠕虫会发展出不同的偏好，甚至回避它们已经与食物相关联的温度？"

最终，蠕虫开始在较冷和较热的温度之间来回移动。

研究人员假设，蠕虫不会简单地忘记与较低温度相关的食物的积极记忆，而是开始消极地将温度较低的一边与没有食物联系起来。这刺激了它向温暖的一面前进。然后，随着时间的推移，它开始形成没有食物与较温暖的温度之间的消极联系，再加上对寒冷的残余积极联系，使它重新迁移到较冷的一边。

"蠕虫总是在学习，一直都在学习，"Ryu解释说。"在积极的关联和消极的关联的驱动力之间存在着一种相互作用，导致它开始在冷和暖之间摇摆。"

"这就像你丢失了钥匙"

Nemenman团队开发了理论方程来描述两个独立变量之间随着时间的推移而产生的相互作用--驱动蠕虫走向一个温度的积极的，或兴奋的关联，以及驱动它远离该温度的消极的，或抑制的关联。他解释说："蠕虫所倾向的一方取决于你究竟何时进行测量。这就像当你丢失钥匙时，你可能会先检查你通常存放钥匙的桌子。如果你没有马上看到它们，你就在不同的地方寻找它们。如果你还是没有找到，你就回到原来的桌子上，认为你只是没有认真找。"

研究人员在不同的条件下重复实验。他们在不同的起始温度下训练蠕虫，并在测试它们的温度偏好之前将它们饿了不同的时间长度，蠕虫的行为被方程式正确预测。

他们还通过对蠕虫进行基因改造来测试他们的假设，敲除了已知作为负关联途径的胰岛素样信号通路。

"我们以特定的方式扰乱了生物学，当我们进行实验时，蠕虫的行为发生了变化，正如我们的理论模型所预测的那样，"Nemenman说。"这让我们更有信心，该模型反映了学习的基本生物学，至少在优雅动物中是这样。"

研究人员希望其他人能在跨物种的大型动物研究中测试他们的模型。

"我们的模型提供了一个多维度的学习的替代定量模型，"Ryu说。"它解释了其他古典条件理论难以解释的结果，或者在某些情况下不可能解释的结果"。