2016年,谷歌围棋人工智能“阿尔法狗”(AlphaGo)以4比1的成绩战胜世界围棋冠军李世石,这场人机大战成为人工智能史上一座新的里程碑。近日,美国计算机学会(ACM)宣布,将2019年ACM计算奖授予AlphaGo研发团队领导者David Silver,以表彰他为计算机游戏表现带来的突破性进展。
从深蓝到“阿尔法狗”
就计算机的“棋艺”而言,十几年前IBM的“深蓝”与AlphaGo相比,也不能同日而语。尽管如此,1997年“深蓝”击败了当时的国际象棋冠军卡斯帕罗夫,震惊了当时的学术界。
换言之,它每走一步,几乎都是在遍历后续所有可能的情况下作出的决策,因此,很多人认为这是计算机的胜利,而不是人工智能的胜利。
“围棋是一项变数极多、充满不确定性的竞技活动。下棋的可能性都是一个几乎无法穷尽的量级。棋手起手就有361种落子选择。理论上,如果不考虑限制条件,棋盘状态共有3的361次方种,下法共有361阶乘种选择,这个数字大约是10的768次方,几乎是无穷大。要知道人类已知宇宙中的原子数量,也不过是10的80次方。”清华大学计算机科学与技术系教授孙富春告诉《中国科学报》,AlphaGo Zero在某种程度上部分突破了人类认知学习的能力,原理上可以习得包括围棋在内的其他观测信息是完备的、状态动作空间是可数的各种人类技艺,甚至展现出“直觉”判断能力。
“感觉就像一个有血有肉的人在下棋一样,该弃的地方也会弃,该退出的地方也会退出,非常均衡的一个棋风,真是看不出出自程序之手。”柯洁曾在接受媒体采访时表示,AlphaGo有好几次落子极其“非常规”,许多专业棋手都表示“看不懂”。
“AlphaGo从惊人的海量博弈数据中习得能力。如果AlphaGo有内心世界,看到人类落完一步棋,他或许会微微一笑,心想‘这招我昨天刚下过’。”浙江大学人工智能研究所所长吴飞调侃道。
“阿尔法狗”的“三驾马车”
吴飞解释说,AlphaGo的算法主要依靠强化学习、深度学习和蒙特卡洛树搜索“三驾马车”并驾齐驱,而这也是其中的核心技术。
例如,在围棋博弈中,“局面判断”用于衡量某一局面的价值,越大的值表示对当前行动的选手越有利。“最优策略”是通过在某局面下选择能带来最大价值的动作来获得。
由于大部分博弈游戏状态空间巨大,严格计算评估函数无法实现。利用深度学习和大量数据,AlphaGo可以自动找到特征,同时拟合出估值函数。而蒙特卡洛树搜索是集以上技术于一身的搜索框架,通过反复模拟和采样对局过程来探索状态空间。
分析AlphaGo成功的原因,赵冬斌认为,深度神经网络在其中起到了重要作用。“传统的基于规则的计算机围棋方法只能识别固定的棋路,这类似于背棋谱。基于深度学习的AlphaGo自动提取棋谱局面特征并将其有效地组合在一起, 极大增强了对棋谱的学习能力。”
此外,硬件配置的大幅提升也功不可没。AlphaGo采用了异步多线程搜索,用CPU执行模拟过程,用GPU计算策略网络和价值网络。最终单机版本AlphaGo使用了48个CPU和8个GPU,分布式版本的AlphaGo则采用了1202个CPU和176个GPU。正是这些计算机硬件的支持,才得以让AlphaGo发挥出强大的实力。
在AlphaGo诞生后的几年中,其背后的神经网络、深度学习、蒙特卡洛树搜索法等技术,开始从“下棋”这样的场景,延伸到更多具有商业化价值的场景中。
这些技术还推动了其他领域包括机器人、智能驾驶、智能制造、电力优化、量化金融、智慧医疗等纵深应用领域的技术进步,包括且不局限于提高英国电网的效率、降低谷歌数据中心的能耗,以及为欧洲航天局设计太空探测器的轨道等。
“AlphaGo的胜利,只能说明这个算法在围棋等比赛中战胜了人类。但是,就人工智能的发展而言,几乎所有人都认同目前人工智能发展水平还处在初级阶段。”王崇骏说。
赵冬斌表示,在围棋、麻将和其他具有类似评级制度的游戏等测试平台,或能客观地衡量一些算法的人工智能水平,但是在某些难以量化的领域,很难对算法的智能水平给出客观评价。“比如,自动驾驶有5级划分,但是不够明确。驾驶涉及技术链条较长,包括定位、感知、预测、决策、规划和控制等。若想全面衡量驾驶人工智能的水平,还需要更细致的分类工作。”
《中国科学报》 (2020-04-09 第3版 综合)
