致力于打造中国站长娱乐学习的免费资源站!官方合作QQ:283852481

广

您当前的位置:首页 > 科技 > IT评论

招租联系QQ:283852481

明知AlphaGo变得无法战胜,柯洁为何还迎难而上?

时间:2017-05-24  来源:凤凰科技   

柯洁与AlphaGo对弈

凤凰科技 白杨

柯洁输了,在与AlphaGo的第一场对决中,以四分之一子的落后惜败。

这个结果在很多人意料之中,其中也包括柯洁。

第一场赛后发布会上,柯洁直言AI的进步速度太快了,并且每一次都是巨大的进步。这也是为什么他在大赛前夕发布微博称,此次将是他与人工智能的最后三盘对决。

柯洁心中已经清晰的知道,人类已经无法战胜AlphaGo。他形容AlphaGo越来越像“围棋上帝”,想赢它只能去找一些BUG,但目前,他还没看到AlphaGo的任何弱点。

这里引用搜狗CEO王小川在知乎上发布的内容,再向大家科普一下AlphaGo。

去年的AlphaGo 混合了三种算法,即蒙特卡洛树搜索+监督学习+增强学习。

其中蒙特卡洛树搜索是一种优化过的暴力计算;监督学习,是通过学习 3000 万部人类棋谱,对六段以上职业棋手走棋规律进行模仿,也是AlphaGo获得突破性进展的关键算法;而增强学习作为辅助,是两台AlphaGo从自我对战中学习如何下棋。

每当获取棋局信息时,AlphaGo 会根据策略网络探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。在分配的搜索时间结束时,模拟过程中被系统最频繁考察的位置将成为AlphaGo 的最终选择。

简单来说,AlphaGo下棋依靠的是概率,而概率的得出则依靠前期学习。而这次与柯洁对战的AlphaGo相较于去年,已经判若两人。

最初的AlphaGo主要依靠监督学习,即学习对象几乎全部来自人类棋手,而新版的AlphaGo则强化了增强学习,主要对机器自我对弈产生的棋局进行学习。

难怪柯洁会觉得,去年AlphaGo的下法还很接近人类,但今年自己对战时,AlphaGo已变得更加不合乎“常理”,下了很多人类棋手不可能下的棋子。

第一局结果

DeepMind创始人、AlphaGo之父Demis Hassabis证实了这一点,他说与柯洁对战的AlphaGo更多的是根据自身学习,对人类数据的依赖性越来越小。

除了开始脱离人类数据,更让人类望尘莫及的是其恐怖的进步速度。我们常说要“取长补短”,AlphaGo则可以把这个过程加快成百上千倍。

取长方面暂不多说,AlphaGo的研发团队一直在找它的缺口。去年输给李世石之后,他们回去马上改善了AlphaGo的知识缺口,并且投入更多精力去改进算法,让AlphaGo变得更强。

这次的AlphaGo在算法上就强大了很多。去年,AlphaGo还是通过分布式的计算机来运作,而今年只用了一个单一的机器。所以,柯洁非但没有让AlphaGo的CPU因为飞速运转而发热,相反,今天的AlphaGo的计算能力比去年要小 10 倍。

从比赛用时上来看,柯洁几乎是AlphaGo的两倍。双方第一场比赛共耗时 4 小时 17 分 37 秒,其中柯洁用时 2 小时 46 分 43 秒,AlphaGo用时 1 小时 30 分 54 秒。

学的又多又快,人类棋手确实很难看到胜算。柯洁也看到了这一点,但他为什么还要应战。

这也是普通网友最关心的问题了,柯洁的输赢到底是否需要将其上升到“人类尊严”这种高度?答案肯定是不能。

围棋如同所有竞技赛事一样,柯洁也是专业的运动员。对于运动员来说,胜败乃兵家常事,面对实力悬殊很大的对手,任何人都很难取胜。

现在柯洁面对的就是这样一个对手。所以对于比赛接下来的关注点不该是柯洁能否胜一局,而是AlphaGo所代表AI技术将为人类带来什么。

目前来看,AlphaGo已经颠覆了传统的围棋。柯洁在比赛中也尝试了一些“非常规”下法,他认为AlphaGo已经改变了自己很多最初的看法,现在觉得比赛中没有什么棋是不能下的。

Demis Hassabis在赛前的致辞中说道,围棋的样式变化繁多,可能再过一万年,人类也无法穷尽围棋的打法。

而AlphaGo可以作为一个工具,通过它去帮助人类对于围棋的理解,让伟大的棋手去发现围棋更多的奥妙。

这确实是一种很奇妙的感觉。当你认为一件几乎是唯一的事情,突然有了另外一种可能,这就像哥伦布发现新大陆后,给未来开启了一扇新的大门。

柯洁说活到现在,最大的荣幸是和AlphaGo进行了对战,很感谢能有这样的对手。他从AlphaGo身上获得了很多比赛的快乐,这种快乐来自于竞技,而非结果。

比赛结束以后,柯洁更希望把AlphaGo当做帮助自己提升棋艺的工具。在人与机器之间,他选择跟人类下棋,他笑着说,“我跟人类比赛的胜率还是可以的。”


精彩广告