发展模型:产生、适应与进化



章节内容

Chapter Content

1

机器行为的产生

3

机器行为的适应

2

机器行为的构建:人类创造与自主学习

4

机器行为的进化

与行为模型表达的机器行为不同,机器行为有着构建、适应、进化等与自身发展相关的行为。理解机器行为的发展模型,有助于在设计和创造机器行为的活动中,从发展、进化的角度开展相关的机器行为学研究。这也是机器行为学研究的特色之一。

图1 机器行为的发展模型

1.机器行为的产生

机器行为的产生最重要的因素在于满足人为事物的设计最基本的原则,那就是设计的目标——使机器行为适应环境。因此,机器行为产生的的原因在于行为的激发条件及其环境。例如,电子商务平台的推荐行为是一种典型的智能行为。可以用语言来描述这个具体的场景“当用户在购买洗发水的时候,智能系统要给用户推荐洗面奶,进而促进洗面奶的销售。”在这里,机器行为的目标是:促进洗面奶的销售。激发条件以及产生的环境是:购买洗发水的时候。于是,机器行为 “推荐洗面奶”就产生了。
再如,从算法的角度,下面一段代码就是关于非确定性领域中的感知模式(percept schema)的算法。

Percept(Colour(x, c),

PRECOND: Object(x)^InView(x))

Percept(Colour(box,c),

PRECOND:Can(can)^InView(box)^Open(box))

在这段代码中包含两个模式。第一个模式(前面两行)说,对于对象x,智能体将学习对于所有c的Colour(x,c)的真值。用通俗的话来说就是:只要对象在视线内,智能体将感知到这个对象的颜色。第二个模式(后面两行)说,对于对象box在视线之内,智能体将打开box,并学习box中的颜色。用通俗的话来说,就是如果打开的罐子在视线范围之内,智能体直接感知罐子中的颜色。

在上述的案例中,感知到颜色是机器行为的目标。在代码中,Percept是具体的机器行为,一旦执行了行为,目标即可实现。PRECOND是其激发目标及其产生的环境,在不同的环境下,机器行为不同——但都可以实现目标。

从上述案例可以看到机器行为产生的机制的一个重要的属性:围绕目标的算法与环境的共同作用。这和人与动物行为产生的目标具有非常相似之处。于是可以得到这样的结论:机器行为产生的机制由算法和环境共同决定,例如无人车领域机器行为产生过程中算法和环境共同决定机制。

第一,一辆无人驾驶汽车可能表现出变道、超车、等待红绿灯等行为,这些行为的产生会根据交通法规来制定。

第二,无人驾驶汽车的行为受到机器的感知系统决定。例如该汽车识别物体的精度和分辨率,分类系统、控制精度等。

第三,无人驾驶汽车的行为还与环境模型直接相关,不同的环境(如气候、地形、道路状况等)决定了无人驾驶汽车的不同行为属性。

2.机器行为的构建:人类创造与自主学习

机器行为产生的机制后,下一步就是机器行为的构建(develop)。机器行为的构建方法包括人类创造和机器自主学习。

(1)识别

目前,自然科学还无法解释人和动物行为的起源。不论是心理学、动物行为学还是社会学在这个问题上的研究假设是:从群体的角度来看,人和动物的行为已经是存在的。所以,除非在哲学层面上,几乎没有研究者去考虑人和动物行为来自哪里。这就好像人们不会去探寻“先有鸡还是先有蛋”的问题一样。因此,人和动物的出生和发育从本质上就是一个个体获得特定行为的过程,这里包含了人和动物在遗传、发育和学习等方面的行为。

从人类创造机器行为的角度而言,“程序员了撰写的一段代码,工程师设计了一个产品,……”,机器行为就诞生了。机器行为获得的方法很大程度上在于人类设计师的直接设计和创造过程。在这样的情况下,人类设计师扮演了一个“造物主”的角色,他们可以决定机器行为的产生。

事实上,这些人类的“造物主”并没有那么随心所欲。因为行为的产生,还是遵循相关的自然规律或法则,同时还要满足适用于不同的环境,否则,机器就是无用的机器。即使是如此,设计师和程序员在算法架构上做出的设计决策(例如知识的和状态的获取、卷积神经网络的特定连接方式等)会直接影响机器所表现的行为。在此基础上,机器可能因为设计师将其置于特定的运行环境和训练环境下而出现特定的行为。这种行为的产生和人与动物行为的产生具有很大的相似之处。除此以外,数据库的选取和数据所包含的特征也会影响这些算法(机器)的行为。

(2)求解

除了人类创造以外,机器可以在自己的经验学习中学习到某些行为。从一个更加广泛的意义而言,深度学习本身就是一个机器自主学习的过程。例如,机器视觉的一个重要能力就是识别文字,这是一种代表性的机器行为。传统的文字识别模式就是OCR模式,出错率很高。

但是机器学习不关注字母A的变形方式,将其所有的输入像素化,然后,利用其建立起来的人工神经网络,对识别的字母进行训练,根据错误识别的数量和程度,逐步调整识别算法(行为),直到最后错误识别的程度无法继续缩小,机器就认为模型达到了收敛极限。通过机器的自主学习就实现了新的机器行为的生成。

图2 深度学习识别变形字母

这样的案例几乎发生在所有的深度学习的过程中。通过深度学习,机器可以改变自身的行为。例如智能在线交易系统,通过长期的利润优化的训练,根据系统过去的行为以及市场随后的反馈来形成新的交易行为和策略。

3.机器行为的适应

随着机器行的产生,机器和环境的适应开始了,或者说机器和环境的适应的初始值出现了。然而,仅仅依赖于这个初始值而不根据具体环境进行适应,机器就无法得到发展,只能是传统的非智能机械。智能机器的一个重要特点就是可以在机器行为产生后,继续进行迭代和优化,使机器的功能适应不断变化的环境。

(1)机器的学习行为:机器内部的适应机制

机器的学习(learning)学习行为从本质上就是构建起一种内部的机制,使机器可以适应环境,进而实现机器的功能。20世纪50年代以来,人工智能的研究者在机器学习领域创造了多种机器学习行为,已经取得了重大的突破和进展。在人工智能发展历史上,主要有基于符号主义的机器学习行为、基于连接主义的机器学习行为。

符号主义学派是最早的人工智能学派,其认为机器学习行为基于数理逻辑。这一类机器的学习行为抛开了“模拟人的神经网络”等拟人的机器行为模式,基于对数据的初步认识以及学习目的的分析,选择合适的数学模型,拟定参数,并输入样本数据,依据一定的策略,运用合适的学习算法对模型进行训练,最后运用训练好的模型对数据进行分析预测。决策树、朴素贝叶斯算法、支持向量机算法、随机森林算法都是代表性的机器行为。

连接主义则认为机器行为源于仿生学,特别是对人脑行为的模拟。该机器学习行为模拟人脑的微观生理级学习过程,以脑和神经科学原理为基础,以人工神经网络为函数结构模型,以数值数据为输入,以数值运算为方法,用迭代过程在系数向量空间中搜索,学习的目标为函数。人工神经网络、深度学习都是代表性的连接主义机器行为。

(2)机器行为的外部适应机制:在人类环境中进行适应

关于机器适应,还需要讨论行为如何为特定的利益相关群体提供服务。人类环境创造了选择压力,这可能使一些有适应性的智能体变得普遍。成功的(提高适应性)行为获得增值的机会,如被其他类型的软件或者硬件复制。这样的机器行为适应的推动力是一些使用和构架人工智能的机构的成功,如企业、医院、政府和大学。最明显的例子是算法交易,在算法交易中,成功的自动交易策略可以在开发人员从一家公司跳槽到另一家公司时被复制,也可以简单讲,被竞争对手观察和反向架构。

在人类环境中适应的机器行为,可以产生出人意料的效果。例如,像最大化社交媒体网站参与度的这样的适应目标可能会导致信息茧房(filter bubbles),进而加剧政治两极分化,或者在缺少监管的条件下助长假新闻的扩散。

但是,那些没有针对用户参与进行优化的网站也许会比做了这方面工作的网站冷清,或者可能完全停止运营。同样,在没有外部监管的情况下,不优先考虑自己携带乘客安全的自动驾驶汽车对消费者的吸引力可能较小,导致销量减少。

有时机器的某些行为背后的功能是为了应对其他机器的行为。例如,对抗性攻击用输入假信息愚弄智能系统产生一个不需要的输出。在智能系统和被设计用来抵抗这些潜在攻击的反馈中,这些攻击会导致复杂的“捕食者-食物”动力学。这个过程很难仅依赖单独研究机器本身而被理解。

上述例子强调了人类的外部组织机构和经济力量所能产生的直接且大量对于机器行为的刺激。这些都是机器学习行为的外部适应机制。

4.机器行为的进化

随着机器行的产生,机器和环境的适应开始了,或者说机器和环境的适应的初始值出现了。然而,仅仅依赖于这个初始值而不根据具体环境进行适应,机器就无法得到发展,只能是传统的非智能机械。智能机器的一个重要特点就是可以在机器行为产生后,继续进行迭代和优化,使机器的功能适应不断变化的环境。

(1)基于生物进化思想的机器进化行为机制

机器进化行为的一种观点认为,机器行为的进化与基于“达尔文主义”的生物进化具有相似之处,即机器行为的进化基于自然选择。一些机器行为可能会广泛传播,因为它是“可进化的”——容易修改并且相对扰动信息很稳健。机器行为的“可进化性”类似于动物的某些特征可能是广泛存在于各种动物中的,因为这些特征促进了多样性和稳定性。

基于这样的观点,机器进化行为开始于所谓试错学习(trial-and-error learning)的适应行为,这一行为常常被描述为在迷津中的搜索行为。例如针对某个机器学习的算法,从公理和已经证明的的定理出发,努力用数学体系所允许的法则进行多种变化,发展成新的算法,在环境中进行验证,再反复改进,直到发现导向目标的新算法,实现机器行为的进化。

机器试错学习的机制过程中包含了许多试验和失败。但是,这样的试验和失败往往不是完全随机或者是盲目的,事实上有很强的选择性,一般基于线索启发,被称为“选择性试误”。在机器行为的进化过程中,这些线索启发的进程与生物进化过程中“稳定的中间形式”所扮演的角色是一致的。这样,机器行为的进化无非就是试误与选择性的混合体。

在这样的背景下,当人们考察机器行为进化的选择性的可能的根源的时候,选择性总能等价于环境信息的某种反馈。试错过程中的各种路径的试验以及随后的结果,其驱动力是环境的反馈。在生物进化中情况也是类似的。那些稳定的中间形式为更高级的形态提供了基本要素,其信息也指导了进化过程并提供了对于高速进化至关重要的选择力。

同时,在进化的每一阶段中,算法从各个角度在新的环境中被重新使用,它可以成为未来可能行为的局限,又使得在这个基础上的其他创新成为可能。例如,微处理器设计的早期设计仍然继续影响现代计算机,并且算法设计中的传统方式(例如神经网络和贝叶斯状态空间模型)构建了许多假设,并通过“让一些新的算法相对更容易使用”来指导未来的算法革新。因此,某些算法可能会关注某些功能而忽略其他功能,因为这些功能在早期某些程序的成功中至关重要。

(2)机器进化行为的特殊机制

关于机器进化行为的另外一种观点认为达尔文主义对于机器行为而言并不一定有效,也不可能覆盖机器行为进化的全局特征,因为这样的模型假设了两种或多种生物或者算法的竞争。与此同时,现代生物学的机制置于生物的基因之中,依靠基因自身再造的成果证明其适应性。但是机器行为对应于生物体的基因,差非常明显的。

回顾西蒙关于经济行为进化的机制的描述可以看到:企业是通过标准的工作程序(可以理解为企业成员日常决策的算法)完成绝大部分工作。进化发生器由这些算法的所有改进和变化的过程所组成。进化试验则是随后的公司的利润率和成长速度。优秀的公司依靠其利润的再投资或者对新的投资的吸引力而适应和进化。在经济行为进化中,算法可以在公司之间相互借鉴,特别是哪些成功的算法。

与经济进化行为的机制类似,机器行为的进化与动物行为的进化不同,大多数动物的遗传是简单的,两个双亲一次性决定子代。与之相比,算法要灵活得多,而且它们背后通常有一个带着明确目标的设计者。

人类环境通过改变算法的继承体系,强烈地影响着算法的进化过程。机器行为复制可能被开源软件、网络架构的细节和潜在的训练数据集所促进。例如,智能导航系统可能会共享用于目标检测或路径规划,增强后续的开源数据库以及作为这些算法的训练数据集,目的是使增强软件的安全性并能够在整个行业推广。

通过软件更新,某个导航系统中的机器行为中的一个适应性的“突变”就有可能立刻传播到其它导航系统上——手机或者智能汽车。然而,其他机构也会做出限制。例如,软件专利可能会对特定机器行为的复制加以限制。再如隐私和数据保护的法律,可能会阻止机器在决策过程中访问、保存或以其他方式使用隐私相关的信息。但不管怎么样,可以看到机器可能呈现出非常不同的进化轨迹,机器的进化和有机体进化的机制呈现完全不同的趋势。