散会后,卢赫坐到电脑跟前,摩拳擦掌。
虽然不是专业人士,但一直跟进这方面进展的他,始终觉得那些在数年间如雨后春笋般涌现出来的大几十种方法里,强化学习最有前途。
因为这是最接近人类本能学习方式的一种。
它的原理也很简单,就是让懵懂的小人工智障在环境里学习,它的每个动作都对应一个奖励或者惩罚。
就像还在蹒跚学步的小时候的我们一样,我们看到了火,好奇心趋势我们走近,我们感受到了温暖,奖励加一;手贱去摸了一下被烫到,惩罚加一。
于是,聪明的我们就会知道,火很暖和但不能靠得太近。
只不过与人不同得是,小人工智障无法一次就学会,而是需要大量数据去支撑它在环境里反复探索,直到把自己训练成人工智能。
如果用玩超级玛丽来打比方,小人工智障在游戏的第一帧获得初始状态;
在此基础上,我们可以逼迫它往前走一步,不论前方是不是有蘑菇怪。这样它会主动做出第一个行动。
这时,它所处的环境发生了变化,获得了新的状态;
同时,根据它死没死,环境会给它一个奖励或惩罚。
如此循环下去,便得到了一个由状态、行动和奖励组成的序列。小人工智障的目标就是调整自己的状态和行动,以使奖励的期望值最大。
如果训练的顺利,它便有望进化为一命通关的人工智能外挂。
不同时间点的海昼天的基因组就是环境,逼迫小人工智障跑到基因组的某一个位置上改一个或多个碱基就是行动,根据改了以后海昼天得不得病来施加奖励和惩罚。
如果顺利的话,训练成功的人工智能便可以精准地找到潜在突变区,为crispr系统的设计指引方向。
不过,凡事总有意外。
人在制定规则的时候总有疏漏,可能会让小人工智障凭借逆天的脑回路钻空子。因为它们有无限条生命,可以快速试错。
一些炼丹者写出的地狱笑话广为流传:
一个机械手被要求把木块挪到桌子的指定地点,小人工智障的解法是挪桌子;
要求物体高速运动,于是小人工智障把自己设计得特别高,依靠不断跌倒获得速度;
生物生存需要消耗能量,但是繁育后代不消耗,于是小人工智障演化出来的生活方式就是不断生育后代,然后把后代吃掉;
要求自动修复文档,如果输出的结果和目标文档的内容一致就被认为是修好了。于是小人工智障把原文档删掉了,这样它的内容为空,然后再输出一个空的结果就和它一致了。
又或者要求玩俄罗斯方块不输,于是小人工智障一直暂停游戏,不赢,但永远不输。
。。。。。。
想到这里,他不禁笑出了声。基于现有数据的训练程序很快就写好了,他很期待这个漏风的炼丹炉的表现。
步伐轻快地回到住处,他捞起塑料瓶做成的简易喷壶,给种在脸盆里的干枯冬青木仔仔细细地喷了一圈水,显得格外悠闲。
炼丹什么的,比得就是心态。如果炉子爆炸之前自己先不耐烦了,那就是输了。
七七四十九天而已,摇着扇子窝在一旁等着,时间很快就会过去的。
window.fkp=\"d2luzg93lm9ua2v5zm9jdxmoikrrqwnwr3vjstdmb1lyslnnr3nqzvmxn2r0vuh0mvjooth5r1b3zthawxbkmdj1k3zpbznpd1fysjzpdfvfuupwn01edks4vwfrrhavs29hwnf1uupndkhewvlpnmflqwvhnhrkuurivfy4cmnqwjz4sy9vytl4a1hirjz6czn3iiwgmtyzmji3oteymyk=\"