alphago

阅读 / 问答 / 标签

如何看待人机大战第四局李世乭战胜AlphaGo 谷歌非常有谋略，先让阿尔法狗连赢三次，奠定胜利的事实，展示人工智能的厉害！让人恐慌！然后，谷歌让阿尔法狗输棋给李世石，以明白无误的方式告诉恐慌的人们：不要害怕，我们掌控着人工智能的！如果人工智能把人逼上绝路，人工智能产业就会遭到人们的封杀！谷歌输一局，缓和局面。中日韩还有成千上万围棋学习者和相关从业人员，Google是商业公司，当然不会把事情做绝，肯定会考量这方面的因素。比赛结束，alphago四比一完胜李世石，仅胜利的一局有很多人认为是谷歌为了让alphago有世界排名而故意输的一局，因为如果一个棋手一直连胜，是没有世界排名的，输了一局才有排名，按照官方发布目前alphago排名世界第二，中国小将柯杰世界第一。

Alphago属于人工智能应用领域中的（） a计算机博弈 b专家系统 c模式识别 d机器翻译 a, 计算机博弈，赛局理论。。

100：0，新AlphaGo放弃了人类？ 01 2017年10月19日，谷歌子公司DeepMind发布了AlphaGo的新版本。很多人知道AlpoaGo是一个人工智能程序，却不知道它其实是一个家族，早期战胜韩国选手李世石的是AlphaGo Lee。在乌镇击败世界冠军柯洁的是AlphaGo Master。本次发布的是AlphaGo Zero（阿尔法零），它经过3天的训练便以100：0的战绩击败了他的哥哥AlphoGo Lee，经过40天的训练便击败了它的另一个哥哥AlphoGo Master。 AlphaGo Zero与之前版本相比，最大的区别在于，它不再依靠人类的指导来成长，即之前的AlphaGo Lee是依赖于人工录入的大量棋谱来帮助其学习如何下棋，说白了，它是在人的指导下学习，可以理解为是人类千年围棋经验教出的学生。而AlphaGo Zero使用了强化学习算法，即不再依赖任何棋谱，编程人员输入围棋基本规则后，不再进行任何教导，完全由其自己进行摸索，总结走棋方法，相当于人工智能完全按照自己的方法学习。AlphaGo Lee完败于摒弃了人类经验的AlphaGo Zero，这说明人类的经验可能误导了AlphaGo Lee，进而限制了它的发展。 AlphaGo Zero的行棋方式在开局和收官阶段，与人类选手有较大的相似之处，而盘中的行棋风格的确与人类选手和之前版本的AlPhaGo有较大不同，而正是这种不同让其可以在100次与AlphaGo Lee的交战中立于不败，换个说法，如果当初AlphaGo Lee没有拜人类为师，而是向机器学习，那么对于拥有更强计算能力的AlphaGo Lee来说，胜负还未可知。除了零经验学习外，AlphaGo Zero的另一大特点是将之前版本AlphaGo的两个神经网络融为一体，在之前版本的AlphaGo上，如何走棋是由“策略网络”和“价值网络”两个神经网络来计算如何行棋的，即首先由“策略网络”利用之前累积的经验，判断在当前棋型下哪些位置适合行棋，之后由“价值网络”对在这些位置行棋后的种种可能进行模拟，计算胜率，最终选择出行棋位置。而AlphaGo Zero将二者融为了一体，对之前两个网络的特征提取等模块进行了共用，可以在计算出可能行棋的位置时便给出相应的“胜率”，大幅提高效率，减少了训练所需的时间。这也是AlphaGo Zero在训练了三天就打败了训练了几个月的AlphaGo Lee的主要原因之一。人工智能不仅是计算机科学领域发展的制高点，在所有行业都具有无限潜力和应用价值，目前世界各国普遍看好，人工智能技术将成长为下一次技术革命契机。即便最终人工智能没有达到革命级别的颠覆程度，AI已经在逐渐改变我们的生活。以往人工智能的进步都是建立在软件与硬件同步发展的基础上，神经网络算法最早在上个世纪中叶就被提出，然而受限于计算能力，神经网络算法一直发展缓慢。之后随着硬件计算速度的不断提高，已有的软件算法不断被实现并改进，改进的算法对硬件要求更高，从而进一步促进了硬件的发展，而AlphaGo Zero的出现完全建立在算法更新的基础上。前一版本的AlphaGo需要在48个TPU(谷歌专为加速深层神经网络运算能力而研发的芯片，一块成本即达500万美元)上进行几个月学习，而AlphaGo Zero只需要4个TPU加上几天的时间便可完成学习。这种零经验学习能力非常适合在蛋白质折叠和其它缺少样本的医疗领域进行应用，可以很好地解决因缺少试验样本而导致研究进展缓慢的问题。未来的相关研究中完全可以输入规则后利用AlphaGo Zero的能力进行模拟，最后利用有限的样本进行验证即可。 AlphaGo逐渐升级之路故事讲到这里，实在不得不佩服谷歌深厚的技术实力与精明的商业头脑。AlphaGo从诞生伊始，就得到了deepmind团队的精心包装，仔细回想起来，可谓是“城里套路深”。从最初战胜低段位职业棋手开始预热或者说炒作，到战胜人类顶尖高手李世石，AlphaGo的登场已经足够华丽。不过4比1的比分还是给了人类一线希望，这仅有的胜局中，李世石剑走偏锋，直接把AlphaGo逼出了“大脑短路”的症状，可见此时AlphaGo虽已经足够强大，但尚不完美。此后各路人类高手开始卧薪尝胆，精研AlphaGo的套路，寄希望于重新捍卫人类尊严。随后，一个神秘的“master”在围棋界顶级棋手的对战平台上取得了60胜0负的骄人战绩，这位master到底是何方神圣，是人是妖可谓是赚足了吃瓜群众的眼球。直到华丽的60胜达成，谜底才最终揭晓。此后便是吸引了全世界目光的乌镇对决，AlphaGo Master把柯洁打到毫无还手之力。虽然柯洁已经表现出了真正的人类最强者战力，却仍然被AlphaGo完全压制，只要出招有任何一点闪失，立刻会陷入AlphaGo“最小优势胜”策略的陷阱，再无翻身余地。乌镇对决之后，人类在围棋领域已经彻底甘拜下风，别说柯洁一人，五大高手联手作战比柯洁输得更快，AlphaGo一时风光无限。如今，乌镇硝烟刚要散尽，谷歌又搞了个大新闻出来！人工智能在摒弃人类经验后，用三天时间自学的AlphaGo Zero打败了人类几千年的经验。AlphaGo的进化版打败了原始版，不禁叫人想起《铁甲钢拳》里叫人热血贲张的机甲肉搏，一个AI输给另一个更牛的AI，中国AI战胜美国AI，这很有可能是未来棋类竞技中的真实场景。

AlphaGo能轻松战胜世界上最好的围棋大师，人类相对于AI，是不是就是废柴一个？ 我觉得当然不是这样的，毕竟他还是人类给发明出来的呀

alphago zero怎么读 zero 英[u02c8zu026au0259ru0259u028a] 美[u02c8zu026arou028a] n. 零度; （数字） 0; adj. 全无的，没有的; v. . 聚焦，集中; [例句]Visibility at the city"s airport came down to zero, bringing air traffic to a standstill.该市机场的能见度降为零，空中交通陷入了停顿。[其他] 第三人称单数：zeroes 复数：zeros 现在分词：zeroing 过去式：zeroed过去分词：zeroed

谷歌人工智能alphago是人吗还是电脑 电脑

【转载】AlphaGo原理解析 这些天都在没日没夜地关注一个话题，谷歌人工智能程序AlphaGo（国内网友亲切地称为“阿尔法狗”）以5:0击败欧洲职业围棋冠军樊麾二段，并在和世界冠军的比赛中2:0领先。什么！！ 19年前计算机击败国际象棋冠军卡斯帕罗夫的情景还历历在目，现在计算机又要来攻克围棋了吗！？虚竹在天龙八部里自填一子，无意中以“自杀”破解“珍笼”棋局，逍遥子方才亲传掌门之位。难道以后“阿尔法狗”要出任逍遥派掌门了？ 1933年，东渡日本19岁的吴清源迎战当时的日本棋坛霸主、已经60岁的本因坊秀哉，开局三招即是日本人从未见过的三三、星、天元布阵，快速进击逼得对方连连暂停“打卦”和弟子商量应对之策。随后以“新布局”开创棋坛新纪元。难道阿尔法狗会再造一个“新新布局”？作为一个关心人工智能和人类命运的理科生，近些天刷了好些报道，记者们说“阿尔法狗是个‘价值神经网络"和‘策略神经网"络综合蒙特卡洛搜索树的程序”，但我觉得光知道这些概念是不够的。我想看看“阿尔法狗”的庐山真面目。准备好棋盘和脑容量，一起来探索吧？围棋棋盘是19x19路，所以一共是361个交叉点，每个交叉点有三种状态，可以用1表示黑子，-1表示白字，0表示无子，考虑到每个位置还可能有落子的时间、这个位置的气等其他信息，我们可以用一个361 * n维的向量来表示一个棋盘的状态。我们把一个棋盘状态向量记为s。当状态s下，我们暂时不考虑无法落子的地方，可供下一步落子的空间也是361个。我们把下一步的落子的行动也用361维的向量来表示，记为a。这样，设计一个围棋人工智能的程序，就转换成为了，任意给定一个s状态，寻找最好的应对策略a，让你的程序按照这个策略走，最后获得棋盘上最大的地盘。如果你想要设计一个特别牛逼惊世骇俗的围棋程序，你会从哪里开始呢？对于在谷歌DeepMind工作的黄士杰和他的小伙伴而言，第一招是：蒙特卡洛搜索树（Monte-Carlo Tree Search）是一种“大智若愚”的方法。面对一个空白棋盘S0，黄士杰的老师Coulum最初对围棋一无所知，便假设所有落子方法分值都相等，设为1。然后扔了一个骰子，从361种落子方法中随机选择一个走法a0。Coulum想象自己落子之后，棋盘状态变成S1，然后继续假设对手也和自己一样二逼，对方也扔了一个筛子，随便瞎走了一步，这时棋盘状态变成S2，于是这两个二逼青年一直扔骰子下棋，一路走到Sn，最后肯定也能分出一个胜负r，赢了就r记为1，输了则为0，假设这第一次r=1。这样Coulum便算是在心中模拟了完整的一盘围棋。 Coulum心想，这样随机扔骰子也能赢？运气不错啊，那把刚才那个落子方法（S0,a0）记下来，分值提高一些：我刚才从（S0, a0）开始模拟赢了一次，r=1，那么新分数=2，除了第一步，后面几步运气也不错，那我把这些随机出的局面所对应落子方法(Si,ai)的分数都设为2吧。然后Coulum开始做第二次模拟，这次扔骰子的时候Coulum对围棋已经不是一无所知了，但也知道的不是太多，所以这次除（S0, a0）的分值是2之外，其他落子方法的分数还是1。再次选择a0的概率要比其他方法高一点点。那位假想中的二逼对手也用同样的方法更新了自己的新分数，他会选择一个a1作为应对。如法炮制，Coulum又和想象中的对手又下了一盘稍微不那么二逼的棋，结果他又赢了，Coulum于是继续调整他的模拟路径上相应的分数，把它们都+1。随着想象中的棋局下得越来越多，那些看起来不错的落子方案的分数就会越来越高，而这些落子方案越是有前途，就会被更多的选中进行推演，于是最有“前途”的落子方法就会“涌现”出来。最后，Coulum在想象中下完10万盘棋之后，选择他推演过次数最多的那个方案落子，而这时，Coulum才真正下了第一步棋。蒙特卡洛搜索树华丽转身为相当深刻的方法，可以看到它有两个很有意思的特点： 1）没有任何人工的feature，完全依靠规则本身，通过不断想象自对弈来提高能力。这和深蓝战胜卡斯帕罗夫完全不同，深蓝包含了很多人工设计的规则。MCTS靠的是一种类似遗传算法的自我进化，让靠谱的方法自我涌现出来。让我想起了卡尔文在《大脑如何思维》中说的思维的达尔文主义[6]。 2）MCTS可以连续运行，在对手思考对策的同时自己也可以思考对策。Coulum下完第一步之后，完全不必要停下，可以继续进行想象中的对弈，直到对手落子。Coulum随后从对手落子之后的状态开始计算，但是之前的想象中的对弈完全可以保留，因为对手的落子完全可能出现在之前想象中的对弈中，所以之前的计算是有用的。这就像人在进行对弈的时候，可以不断思考，不会因为等待对手行动而中断。这一点Coulum的程序非常像人，酷毙了。但黄士杰很快意识到他老师的程序仍然有局限：初始策略太简单。我们需要更高效地扔骰子。如何更高效的扔骰子呢？用P_human()来扔。如果某一步被随机到很多次，就应该主要依据模拟得到的概率而非P_human。所以P_human的初始分会被打个折扣：这样就既可以用P_human快速定位比较好的落子方案，又给了其他位置一定的概率。看起来很美，然后实际操作中却发现：“然并卵”。因为，P_human()计算太慢了。一次P_human()计算需要3ms，相对于原来随机扔骰子不到1us，慢了3000倍。如果不能快速模拟对局，就找不到妙招，棋力就不能提高。所以，黄士杰训练了一个简化版的P_human_fast()，把神经网络层数、输入特征都减少，耗时下降到了2us，基本满足了要求。先以P_human()来开局，走前面大概20多步，后面再使用P_human_fast()快速走到最后。兼顾了准确度和效率。这样便综合了深度神经网络和MCTS两种方案，此时黄士杰的围棋程序已经可以战胜所有其他电脑，虽然距离人类职业选手仍有不小的差距，但他在2015年那篇论文的最后部分信心满满的表示：“我们围棋软件所使用的神经网络和蒙特卡洛方法都可以随着训练集的增长和计算力的加强（比如增加CPU数）而同步增强，我们正前进在正确的道路上。” 看样子，下一步的突破很快就将到来。同年2月，黄士杰在Deepmind的同事在顶级学术期刊nature上发表了“用神经网络打游戏”的文章[2]。这篇神作，为进一步提高MCTS的棋力，指明了前进的新方向：红白机很多人小时候都玩过，你能都打通吗？黄士杰的同事通过“强化学习”方法训练的程序在类似红白机的游戏机上打通了200多个游戏，大多数得分都比人类还好。 “强化学习”是一类机器学习方法，Agent通过和环境s的交互，选择下一步的动作a，这个动作会影响环境s，给Agent一个reward，Agent然后继续和环境交互。游戏结束的时候，Agent得到一个最后总分r。这时我们把之前的环境状态s、动作a匹配起来就得到了一系列<s,a>，设定目标为最后的总得分r，我们可以训练一个神经网络去拟合在状态s下，做动作a的总得分。下一次玩游戏的时候，我们就可以根据当前状态s，去选择最后总得分最大的动作a。通过不断玩游戏，我们对<s,a>下总得分的估计就会越来越准确，游戏也玩儿得越来越好。打砖块游戏有一个秘诀：把球打到墙的后面去，球就会自己反弹得分。强化学习的程序在玩了600盘以后，学到这个秘诀：球快要把墙打穿的时候评价函数v的分值就会急剧上升。机器学习的开山鼻祖Samuel早在1967年就用自对弈的方法来学习国际跳棋[7]，而之前的蒙特卡洛搜索树也是一个自对弈的过程。但是现在黄士杰不仅有一个从人类对弈中学习出的P_human这样一个高起点，而且有一个神经网络可以从对弈样本中学习，有理由相信这次会有更好的结果。黄士杰准备在MCTS框架之上融合局面评估函数v()。这次还是用P_human作为初始分开局，每局选择分数最高的方案落子，下到第L步之后，改用P_human_fast把剩下的棋局走完，同时调用v(SL)，评估局面的获胜概率。然后按照如下规则更新整个树的分数：前两项和原来一样，如果待更新的节点就是叶子节点，那局面评估分就是v(SL)。如果是待更新的节点是上级节点，局面评估分是该节点所有叶子节点v()的平均值。如果v()表示大局观，“P_human_fast模拟对局”表示快速验算，那么上面的方法就是大局观和快速模拟验算并重。如果你不服，非要做一个0.5: 0.5之外的权重，黄士杰团队已经实验了目前的程序对阵其他权重有95%的胜率。以上，便是阿尔法狗的庐山真面目。上图演示了阿尔法狗和樊麾对弈时的计算过程，阿尔法狗执黑，红圈是阿尔法狗实际落子的地方。1、2、3和后面的数字表示他想象中的之后双方下一步落子的地方。白色方框是樊麾的实际落子。在复盘时，樊麾觉得位置1的走法更好。深度学习、蒙特卡洛搜索树，自我进化三招齐出，所有其他围棋ai都毫无还手之力。99%的胜率不说，“阿尔法狗”还可以在让四子的情况下以77%的胜率击败crazystone。“阿尔法狗”利用超过170个GPU，粗略估算超过800万核并行计算，不仅有前期训练过程中模仿人类，自我对弈不断进化，还有实战时的模拟对局可以实时进化，已经把现有方法发挥到了极限，是目前人工智能领域绝对的巅峰之作。围棋是NP-hard问题，如果用一个原子来存储围棋可能的状态，把全宇宙的原子加起来都不够储存所有的状态。于是我们把这样的问题转换为寻找一个函数P，当状态为S时，计算最优的落子方案a = P(s)。我们看到，无论是“狂拽酷炫”的深度学习，还是“大智若愚”的MCTS，都是对P(s)的越来越精确的估计，但即使引入了“左右互搏”来强化学习，黄士杰和团队仍然做了大量的细节工作。所以只有一步一个脚印，面对挑战不断拆解，用耐心与细心，还有辛勤的汗水，才能取得一点又一点的进步，而这些进步积累在一起，终于让计算机达到并超过了人类职业选手的水平。

alphago用了哪些人工智能的技术知乎 AlphaGo系统采用了何种人工智能技术？

Alphago除了下围棋，还能有什么应用 美术画画，金融交易，医疗辅助，无人驾驶，个人助手

人类在围棋上的赢不了AlphaGo吗？ 是类库的我。

“人机大战”第三局柯洁投子认输，AlphaGo为何却被退役？ 每一次看到阿尔法狗和人类在围棋上对决，很容易让人想到20多年前的深蓝和国际象棋大师的比赛。还记得当时很多报道说，国际象棋的规则很明确，而围棋规则不是很明确，但是结果是明确的，步骤不明确，但是吃子和胜负是明确。再到后来很多人都在提出，围棋是人类智力占领的最后地盘。阿尔法狗的表现则让人很惊艳。阿尔法狗是谷歌团队专门做的围棋对弈软件。初期的与世界一流高手进行对决，并且依靠积分很快占据高手排行榜的榜首。一些世界冠军级人物不愿与其对决，阿尔法狗曾用更换id的方式，与各大高手对决。再到现在和柯洁对决，和国手对决。一路走来，阿尔法狗的目的很明确，就是要战胜人类的围棋高手。在围棋领域，所有能叫上号他都找机会对决。与其说是阿尔法狗在围棋上与人类智力进行战斗，倒不如说是谷歌的人工智能在不断开拓新的应用场景。在此之前，人类是非常怀疑计算机的能力的。人们对计算机的认识也都停留在对大量的数的计算。阿尔法狗团队将围棋的规则明确化，输入电脑。并且不断的更新自身学习的算法。从深度学习到自我学习，如果说深度学习还是在练套路的话，那自我学习直接进入到心法修炼的过程了。规则明确的情况下，经验和计算能力就变得致命重要了。人类在计算能力上无法与现在计算机相比较，下棋的数量，人类也无法比较。从这个角度上来看，人类战胜阿尔法狗需要上帝之手了。从整个意义上来看，阿尔法狗的使命已经完成了。他已经向世人展示了计算机无与伦比的能力。谷歌其实也是在为新的领域开展人工智能扫除了观念上很大的障碍，至少很多人不得不承认这一事实。所以阿尔法狗的退役也就不难理解了。

李世石扳回一局，是AlphaGo程序Bug还是“故意”输了 谷歌非常有谋略，先让阿尔法狗连赢三次，奠定胜利的事实，展示人工智能的厉害！让人恐慌！然后，谷歌让阿尔法狗输棋给李世石，以明白无误的方式告诉恐慌的人们：不要害怕，我们掌控着人工智能的！如果人工智能把人逼上绝路，人工智能产业就会遭到人们的封杀！谷歌输一局，缓和局面。中日韩还有成千上万围棋学习者和相关从业人员，Google是商业公司，当然不会把事情做绝，肯定会考量这方面的因素。比赛结束，alphago四比一完胜李世石，扳回的一局很多人认为可能是谷歌为了让alphago有世界排名而故意输的一局，因为如果一个棋手一直连胜，是没有世界排名的，输了一局才有排名，按照官方发布目前alphago排名世界第二。中国小将柯杰世界第一。

alphago计算机是第几代计算机 alphago计算机是第五代计算机。第五代计算机是把信息采集、存储、处理、通信同人工智能结合在一起的智能计算机系统。第五代计算机能进行数值计算或处理一般的信息，主要能面向知识处理，具有形式化推理、联想、学习和解释的能力，能够帮助人们进行判断、决策、开拓未知领域和获得新的知识。

alphago需要多少算力 4个Tesla P100。AlphaGo是一代TPU4个，因此只要4个TeslaP100就已经具备了相对应的计算力。AlphaGo是一款由谷歌旗下DeepMind公司开发的人工智能程序，曾击败了包括世界排名第一的柯洁在内的众多职业围棋手。

AlphaGo战胜柯洁后要退出棋坛了？ 柯洁目前世界排名第一，比李世石更厉害，不过之所以选择李世石来下因为，李世石拿过17个世界冠军，头衔比多，但是柯洁才18岁，未来的前途也不可限量，不就阿法狗就会与柯洁对战，战绩肯定比李世石强

最强版AlphaGo40天登顶世界冠军是什么情况？ 10 月18 日，DeepMind 在杂志上发表了新论文，正式向世人介绍了AlphaGo 的最新版本——AlphaGo Zero，官方称之为AlphaGo 的「终极版」（Final Version）。毫无疑问，AlphaGo Zero 就是当今世上棋力最强的围棋选手。更可怕的是，AlphaGo Zero 的成长，完全没有人类进行干预。从一开始，AlphaGo Zero 就是一张白纸，人类只教给了它最基础的围棋规则，以致于最开始，AlphaGo Zero 甚至会填真眼自杀。但仅仅过了三天，AlphaGo Zero 就有了惊人的进步，曾经击败李世乭的AlphaGo Lee，此时已经不是AlphaGo Zero 的对手。整整100 场对决，没有赢过AlphaGo Zero 一次。自我对弈到21 天时，AlphaGo Zero 已经达到了Master 的水平，2016 年底，Master 曾在网上与数十位人类顶级棋手交战，最终以60:0 的大比分完胜。最终，当AlphaGo Zero 自我对弈到第40 天时，已经击败了之前所有版本AlphaGo 程序，成为新晋的「世界围棋冠军」。AlphaGo Zero 强大的秘密在哪里？AlphaGo Zero 采用了新型的「强化学习」模型，让自己成为自己的老师。尽管一开始，对弈双方的水平都不怎么样，但经过将神经网络与强大的搜索算法相结合，不断地对棋路进行调整，最终得以预测对手的动作，并取得胜利。AlphaGo Zero 进行自我对弈的好处在于，每一场对决，双方的棋力都处在同一水平线上，每场对弈过后，系统性能都会小幅上升，自我对弈的水准越来越高，AlphaGo Zero 也随之变得越来越强。这项技术让AlphaGo Zero 得以完全摆脱人类的束缚，创造自己的知识体系。虽然调用的算力更少了，却能成为了更强大的棋手。

为什么alphago退役不再参加任何比赛 在柯洁和阿尔法狗的最后一局比赛结束后的发布会上，AlphaGo之父、DeepMind创始人戴密斯·哈萨比斯(Demis Hassabis)说：“本周的比赛聚集了围棋起源地最优秀的棋手参与，是AlphaGo作为一个竞赛系统能够对弈的最高级别对手。因此，本次中国乌镇围棋峰会是AlphaGo参加的最后对弈比赛。”意思就是说AlphaGo能够击败世界第一的柯洁，以后基本上也不可能有人类能够战胜它了，果断宣布退役，只能说阿尔法狗深藏功与名了。

alphago 原理以及阿尔法围棋是什么 1、据阿尔法围棋团队负责人大卫·席尔瓦（Dave Sliver）介绍，AlphaGoZero使用新的强化学习方法，让自己变成了老师。系统一开始甚至并不知道什么是围棋，只是从单一神经网络开始，通过神经网络强大的搜索算法，进行了自我对弈。 2、随着自我博弈的增加，神经网络逐渐调整，提升预测下一步的能力，最终赢得比赛。更为厉害的是，随着训练的深入，阿尔法围棋团队发现，AlphaGoZero还独立发现了游戏规则，并走出了新策略，为围棋这项古老游戏带来了新的见解。 3、阿尔法围棋（AlphaGo）是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能机器人，由谷歌（Google）旗下DeepMind公司戴密斯·哈萨比斯领衔的团队开发。其主要工作原理是“深度学习”。

“围棋少年”再现，人类再战人工智能——AlphaGo？ AlphaGo（以下简称AG）又将要和人类进行围棋大战了，这次人类又有多少胜算呢？minako和大家一样期待着。当时4:1的完美战绩把李世石直言不想再和AG进行比赛了，或许是因为成绩太差太丢人，又或者是认为人类的思维已经不足以战胜人工智能飞快的前进脚步了。但是不管怎样，在这样的争夺战中，人类不能够认输，也舍不得认输。不过在大多数人希望看到一场精彩绝伦的比赛的时候，其实我们心中的担忧似乎多于期待，因为第一场李世石这位高手就输的如此惨烈，而面对据说已经从1.0升级到了2.0的AG来说，它能够“无时无刻的进行对弈的训练”似乎就比人类更胜一筹。人类的思维能力是有限的，曾经听说过一天最多思考7000次是人脑的极限，虽然并非知道这个数据是否准确，但是大脑思考的时候确实非常的累，就包括minako在写文章时候的时候，每次写完一篇都会有一种很疲惫的感觉，因为不仅需要语言的叙述，更需要大脑去组织，去思考，把内容整合，这个过程想当辛苦！那么再说回到人工智能上面，这个词乍一听感觉很“高大上”啊，确实也是非常的高端，因为涵盖的内容就非常多，而目前的对此的研发已经也到了一个比较高的高度，并且国民的态度也从刚开始的不了解的抗拒到了越来越接受，即使目前的程度已经快赶上人脑能够思考的程度了。如果和人长相上一模一样，你几乎分辨不出来它是机器人，而面对机器人未来是否会代替人工进行很多工作的完成，从数据来看支持的人还是很多的，不可否认的是会让一些工人丢掉饭碗，但同时却给一个国家带来了不可估量的产量和创造！从AI概念普及度，AI产品/服务的使用普及度，对AI未来发展的期望度等三个维度做出判断。2017年，中国国民的AI信心指数为83。除了这个数据，谷歌的负责人和李开复则表示这次人类的胜算几乎为0%。两组数据看来，不管是否是AG胜利，至少大家对此的信心越来越大！其实早在1997年，DeepBlue就击败了象棋界的神话——卡其帕罗夫。由此可见对于棋类的研究也绝非一时了。那么这次的比赛到底是为了证明人类智慧更胜一筹？还是AG的威力已经可以全方位的超过人类了？亦或是人类本应该为我们自己所创造的成果而感到高兴呢？说实话，不管谁胜利minako都是很高兴的。人工智能的来源就是以人脑为模板的创作，而AG的父母同样也是人类，青出于蓝而胜于蓝的道理谁都懂，那么父母和孩子比谁又能有前途呢？自然是孩子，因为父母会把自己所有的都交给孩子，孩子还可以到别的更多的地方去学习，叠加效应自然也会更好。但是面对满屏的嘲讽和不屑，甚至对于世界榜首的九段围棋高手柯洁来说似乎真的不是那么公平。因为冰冷的机器即使能够全方位的在智慧上超过人类，也并不代表他就一定好，毕竟人类的存在无可复制！时间安排就在23-27这几天，不管如何，静待佳音，新浪上的一句话，minako不妨改一改：再来已云淡风轻，输赢皆为盛事！

alphago为什么能赢李世石 alphago为什么能赢李世石，AlphaGo依靠精确的专家评估系统（value network）、基于海量数据的深度神经网络（policy network），及传统的人工智能方法蒙特卡洛树搜索的组合，以及可以通过左右互搏提高自己的水平，这个真的是有的恐怖了有木有。李世石九段固然厉害，可人类毕竟是动物，机器软件程序是无休止的工作，这一点也是客观因素了。这次围棋九段李世石也要输了。目前已经一比三了落后alphago了，还有一场15日的比赛可以关注一下（比赛规定即使是在分出胜负的情况下，也要下满五局）。

李世石与AlphaGo的五局大战中，为何有一招被称作“神之一手”？ 神之一挖把阿尔法狗搞蒙了，无意翻盘，阿尔法狗躲着李世石开劫，下了一个多小时，阿尔法狗判定自己的胜率低于程序的值，认输了

AlphaGo 为什么能战胜人类 因为它有更大的储存空间，和快速准确的计算能力。它他储存了近几十年人类棋手的各种围棋下法，它能根据当前的情况快速的搜索最适合的下法。而人类就算背熟了所有的围棋下法，在比赛的时候，也会因身体或其他因素不能准确的找出适合的答案。所以阿法狗能够战胜人类棋手就不奇怪了。但人类拥有创造能力，可以创造一种全新的方法，这是人工智能还无法达到的。所以，还不用担心人工智能能超越人类。

为什么AlphaGo要下围棋 错了，AlphaGo是一台机器，主要优势是，它没有体力限制，永远不会分心与外界事物，计算能力强并且准确。而人类棋手，比如世界冠军李世石，之所以会输棋，与持久作战力。此外，棋风被克制也是有影响的，因为AlphaGo不仅仅是一台输入对局公式的人工智能，同样可以被输入对手输棋的棋谱，它可以借此总结一些对付对手的方法与信息，而李世石1：4负于AlphaGo，其中两盘就是被克制了，另外两盘棋是体力问题，后半盘判断失误。注意李世石不能代表现今最好的围棋棋手，他的巅峰期早已过去，外事缠身，准备退役了。世界排名第一的柯洁早早向AlphaGo提出挑战，但是AlphaGo方面没有回应，因为在志气的李世石对局中，AlphaGo已经被研究出种种漏洞！希望你能满意，谢谢！

最强AlphaGo Zero怎样炼成 最强AlphaGo Zero怎样炼成刚刚，Deepmind在Reddit的Machine Learning板块举办了在线答疑活动AMA，Deepmind强化学习组负责人David Silver和其同事热情地回答了网友们提出的各种问题。由于在AMA前一天Deepmind刚刚发表了《Mastering the game of Go without human knowledge》(不使用人类知识掌握围棋)的论文，相关的提问和讨论也异常热烈。什么是AMA?AMA(Ask Me Anything)是由Reddit的特色栏目，你也可以将其理解为在线的“真心话大冒险”。AMA一般会约定一个时间，并提前若干天在Reddit上收集问题，回答者统一解答。本次Deepmind AMA的回答人是：David Silver：Deepmind强化学习组负责人，AlphaGo首席研究员。David Silver1997年毕业于剑桥大学，获得艾迪生威斯利奖。David于2004年在阿尔伯塔大学获得计算机博士学位，2013年加盟DeepMind，是AlphaGo项目的主要技术负责人。Julian Schrittwieser：Deepmind高级软件工程师。此前有多位机器学习界的大牛/公司在Reddit Machine Learning版块开设AMA，包括：Google Brain Team、OpenAI Research Team 、Andrew Ng and Adam Coates、Jürgen Schmidhuber、Geoffrey Hinton、Michael Jordan 、Yann LeCun、Yoshua Bengio等。我们从今天Deepmind的AMA中选取了一些代表性的问题，整理如下：关于论文与技术细节Q: Deepmind Zero的训练为什么如此稳定?深层次的增强学习是不稳定和容易遗忘的，自我对局也是不稳定和容易遗忘的，如果没有一个好的基于模仿的初始化状态和历史检查点，二者结合在一起应该是一个灾难...但Zero从零开始，我没有看到论文中有这部分的内容，你们是怎么做到的呢?David Silver：在深层增强学习上，AlphaGo Zero与典型的无模式算法(如策略梯度或者Q学习)采用的是完全不同的算法。通过使用AlphaGo搜索，我们可以极大改进策略和自我对局的结果，然后我们会用简单的、基于梯度的更新来训练下一个策略及价值网络。比起基于简便的基于梯度的策略改进，这样的做法会更加稳定。Q：我注意到ELO等级分增长的数据只与到第40天，是否是因为论文截稿的原因?或者说之后AlphaGo的数据不再显著改善?David Silver：AlphaGo已经退役了!这意味着我们将人员和硬件资源转移到其他AI问题中，我们还有很长的路要走呐。Q:关于论文的两个问题：Q1：您能解释为什么AlphaGo的残差块输入尺寸为19x19x17吗?我不知道为什么每个对局者需要用8个堆叠的二进制特征层来描述?我觉得1、2个层就够了啊。虽然我不是100%理解围棋的规则，但8个层看起来也多了点吧?Q2：由于整个通道使用自我对局与最近的/最好的模型进行比较，你们觉得这对于采用参数空间的特定SGD驱动轨迹对否会有过拟合的风险?David Silver：说起来使用表征可能比现在用的8层堆叠的做法更好!但我们使用堆叠的方式观察历史数据有三个原因：1)它与其他领域的常见输入一致;2)我们需要一些历史状态来表示被KO;3)如果有一些历史数据，我们可以更好地猜测对手最近下的位置，这可以作为一种关注机制(注：在围棋中，这叫“敌之要点即我之要点”)，而第17层用于标注我们现在究竟是执黑子还是白子，因为要考虑贴目的关系。Q：有了强大的棋类引擎，我们可以给玩家一个评级——例如Elo围棋等级分就是通过棋手对局的分析逐步得出的，那么AlphaGo是否可以对过去有等级分前的棋手的实力进行分析?这可能为研究人类的认知提供一个平台。Julian Schrittwieser：感谢分享，这个主意很棒!我认为在围棋中这完全可以做到，或许可以用最佳应对和实际应对的价值差异或者政策网络给每一手位置评估得到的概率来进行?我有空的时候试一下。Q: 既然AlphaGo已经退役了，是否有将其开源的计划?这将对围棋社区和机器学习研究产生巨大的影响。还有，Hassabis在乌镇宣称的围棋工具将会什么时候发布?David Silver：现在这个工具正在准备中。不久后你就能看到新的消息。Q：AlphaGo开发过程中，在系统架构上遇到的最大障碍是什么?David Silver：我们遇到的一个重大挑战是在和李世石比赛的时候，当时我们意识到AlphaGo偶尔会受到我们所谓的“妄想”的影响，也就是说，程序可能会错误理解当前盘面局势，并在错误的方向上持续许多步。我们尝试了许多方案，包括引入更多的围棋知识或人类元知识来解决这个问题。但最终我们取得了成功，从AlphaGo本身解决了这个问题，更多地依靠强化学习的力量来获得更高质量的解决方案。围棋爱好者的问题Q：1846年，在十四世本因坊迹目秀策与十一世井上幻庵因硕的一盘对局中，秀策下的第127手让幻庵因硕一时惊急两耳发赤，该手成为扭转败局的“耳赤一手”。如果是AlphaGo，是否也会下出相同的一首棋?Julian Schrittwieser：我问了樊麾，他的回答是这样的：当时的围棋不贴目，而AlphaGo的对局中，黑棋需贴7.5目。贴目情况不同造成了古今棋局的差异，如果让AlphaGo穿越到当年下那一手，很有可能下的是不同的另一个地方。Q：从已发布的AlphaGo相互对局看，执白子的时间更为充裕，因而不少人猜测，7.5目的贴目太高了(注：现代围棋的贴目数也在不断变化，如在30年前，当时通行的是黑子贴白子5.5目)。如果分析更大的数据集，是否可以对围棋的规则得出一些有趣的结论?(例如，执黑或者执白谁更有优势，贴目应该更高还是更低)Julian Schrittwieser：从我的经验和运行的结果看，7.5目的贴目对双方来说是均势的，黑子的胜率略高一些(55%左右)。Q：你能给我们讲一下第一手的选择吗?ALphaGo是否会下出我们前所未见的开局方式?比如说，第一手下在天元或者目外，甚至更奇怪的地方?如果不是，这是否是一种“习惯”，或者说AlphaGo有强烈的“信念”认为星位、小目、三三是更好的选择?David Silver：在训练中我们看到ALphaGo尝试过不同方式的开局——甚至刚开始训练的时候有过第一手下在一一!即便在训练后期，我们仍然能看到四、六位超高目的开局，但很快就恢复到小目等正常的开局了。Q：作为AlphaGo的超级粉丝，有一个问题一直在我心中：AlphaGo可以让职业棋手多少子?从论文中我们知道AlphaGo可以下让子棋，我也知道AlphaGo恐怕让不了柯洁两子，但我想你们一定很好奇，你们是否有做内部测试?David Silver：我们没有和人类棋手下让子棋。当然，我们在测试不同版本的时候下过让子棋，在AlphaGo Master>AlphaGo Lee>ALphaGo Fan这三个版本中，后一个版本均可让三子击败前一个版本。但是，因为AlphaGo是自我训练的，所以尤其擅长打败自己的较弱的前一版本，因此我们不认为这些训练方式可以推广到和人类选手的让子棋中。Q：你们有没有想过使用生成对抗网络(GAN)?David Sliver：从某种意义来讲，自我对弈就是对抗的过程。每一次结果的迭代都是在试图找到之前版本的“反向策略”。传言终结者Q：我听说AlphaGo在开发初期被引导在某一个具体的方向训练以解决对弈中展现出的弱点。现在它的能力已经超过了人类，是否需要另外的机制来进一步突破?你们有做了什么样的工作?David Silver：实际上，我们从未引导过AlphaGo来解决具体的弱点。我们始终专注于基础的机器学习算法，让AlphaGo可以学习修复自己的弱点。当然你不可能达到100%的完美，所以缺点总会存在。在实践中，我们需要通过正确的方法来确保训练不会落入局部最优的陷阱，但是我们从未使用过人为的推动。关于DeepMind公司Q：我这里有几个问题：在DeepMind工作是什么感受?AlphaGo团队成员都有谁?你能介绍一下AlphaGo团队工作分配的情况吗?下一个重大挑战是什么?David Silver：在DeepMind工作感觉好极了:)——这不是一个招聘广告，但我感觉每天可以在这里做我喜欢的事实在是太幸运了。有很多(多到忙不过来!:))很酷的项目去参与。我们很幸运有许多大牛在AlphaGo工作。您可以通过查看相应的作者列表来获取更详细的信息。Q: 你觉得本科生是否可以在人工智能领域取得成功?Julian Schrittwiese：当然。我本人就只有计算机科学学士学位，这一领域变化迅速，我认为您可以从阅读最新的论文和试验中来进行自学。另外，去那些做过机器学习项目的公司实习也是很有帮助的。关于算法的扩展和其他项目Q：Hassabis今年三月份在剑桥的一个演讲中表示，AlphaGo项目未来目标之一是对神经网络进行解释。我的问题是：ALphaGo在神经网络结构上取得了什么样的进展，或者说，对AlphaGo，神经网络仍然是神秘的黑盒子?David Silver：不仅仅是ALphaGo，可解释性是我们所有项目的一个非常有意思的课题。Deepmind内部有多个团队从不同方式来探索我们的系统，最近有团队发表了基于认知心理学技术去尝试破译匹配网络内部发生了什么，效果非常不错!Q: 很高兴看到AlphaGo Zero的好成绩。我们的一篇NIPS论文中也提到了对于深度学习和搜索树之间效率的相似问题，因此我对于在更长的训练过程中的行为尤其感兴趣。AlphaGo的训练过程中，创建学习目标的蒙特卡洛树搜索的贪心算法、策略网络的贪心算法、以及在训练过程中价值功能变化的贪心算法之间的相对表现如何?这种自我对局学习的方法是否可以应用在最近的星际争霸 II API中?David Silver：感谢介绍您的论文!真不敢相信这篇论文在我们4月7日投稿的时候已经发布了。事实上，它与我们的学习算法的策略组件非常相似(尽管我们也有一个值组件)，您可以参考我们的方法和强化学习中的讨论，也很高兴看到在其他游戏中使用类似方法。Q：为什么早期版本的AlphaGo没有尝试自我对弈?或者说，AlphaGo之前也尝试过自我对弈但效果不好?我对这个领域的发展和进步程度感到好奇。相比起今天，在两年前在设计一个自主训练的AlphaGo的瓶颈在哪里?今天我们见到的“机器学习直觉”又是经历了什么样的系统迭代过程?David Silver：创建一个可以完全从自我学习的系统一直是加强学习的一个开放性问题。我们最初的尝试包括你能查到的许多类似的算法，是相当不稳定的。我们做了很多尝试，最终AlphaGo Zero算法是最有效的，而且似乎已经破解了这个特定的问题。Q：你认为机器人什么时候能够有效解决现实世界关于高度、尺寸方面的问题(例如，自己学习如何抓取任何形状、尺寸、位置垃圾的设备)?策略梯度方法是否是实现这一目标的关键点?Julian Schrittwieser：这主要是由于价值/政策网络上的双重改进，包括更好的训练和更好的架构。具体参见论文图4对不同网络架构的比较。Q：据说击败柯洁的ALphaGo Master的功耗只是击败李世石的AlphaGo Lee的1/10。你们做了什么样的优化呢?Julian Schrittwieser：这主要是由于价值/政策网络上的双重改进，包括更好的训练和更好的架构。具体参见论文图4对不同网络架构的比较。(你确认不是copy上一个问题的答案吗)Q：看起来在增强学习中使用或模拟Agent的长期记忆是一个很大的障碍。展望未来，您觉得我们是否能以一种新的思维方式解决这一点? 还是说需要等待我们技术可以实现一个超级网络?Julian Schrittwieser：是的，长期记忆可能是一个重要的因子，例如在“星际争霸”游戏中，你可能已经做出了上千个动作，但你还要记住你派出的侦察兵。我认为现在已经有了令人振奋的组件(神经图灵机!)，但是我认为我们在这方面仍有很大的改进空间。Q：David，我看过你的演讲视频，你提到增强学习可以用于金融交易，你有没有真实世界的例子? 你会如何处理黑天鹅事件(过去没有遇到过的情况)?David Silver：已经发表增强学习用于现实世界的财务算法的论文非常少见，但有一些经典论文值得一看，例如Nevmyvaka、Kearns在2006写的那篇和Moody、Safell在2001年写的那篇。Q：你们和Facebook几乎同时研究围棋问题，你们能更快获得大师级表现的优势是什么?对于那些无法获得像AlphaGo如此多的训练数据的领域如何开展机器学习或者增强学习?David_Silver：Facebook更侧重于监督学习，我们选择更多地关注强化学习，因为我们认为AlphaGo最终将超越人类的知识。我们最近的结果实际上表明，监督学习方法可以让人大吃一惊，但强化学习绝对是远远超出人类水平的关键之处。

孟凡利为何AlphaGo Zero如此成功 AlphaGo为什么这么厉害AlphaGo这个系统主要由几个部分组成：走棋网络(Policy Network)，给定当前局面，预测/采样下一步的走棋。快速走子(Fast rollout)，目标和1一样，但在适当牺牲走棋质量的条件下，速度要比1快1000倍。估值网络(Value Network)，给定当前局面，估计是白胜还是黑胜。蒙特卡罗树搜索(Monte Carlo Tree Search，MCTS)，把以上这三个部分连起来，形成一个完整的系统。我们的DarkForest和AlphaGo同样是用4搭建的系统。DarkForest较AlphaGo而言，在训练时加强了1，而少了2和3，然后以开源软件Pachi的缺省策略 (default policy)部分替代了2的功能。以下介绍下各部分。1、走棋网络走棋网络把当前局面作为输入，预测/采样下一步的走棋。它的预测不只给出最强的一手，而是对棋盘上所有可能的下一着给一个分数。棋盘上有361个点，它就给出361个数，好招的分数比坏招要高。DarkForest在这部分有创新，通过在训练时预测三步而非一步，提高了策略输出的质量，和他们在使用增强学习进行自我对局后得到的走棋网络(RL network)的效果相当。当然，他们并没有在最后的系统中使用增强学习后的网络，而是用了直接通过训练学习到的网络(SL network)，理由是RL network输出的走棋缺乏变化，对搜索不利。有意思的是在AlphaGo为了速度上的考虑，只用了宽度为192的网络，而并没有使用最好的宽度为384的网络(见图2(a))，所以要是GPU更快一点(或者更多一点)，AlphaGo肯定是会变得更强的。所谓的0.1秒走一步，就是纯粹用这样的网络，下出有最高置信度的合法着法。这种做法一点也没有做搜索，但是大局观非常强，不会陷入局部战斗中，说它建模了“棋感”一点也没有错。我们把DarkForest的走棋网络直接放上KGS就有3d的水平，让所有人都惊叹了下。可以说，这一波围棋AI的突破，主要得益于走棋网络的突破。这个在以前是不可想像的，以前用的是基于规则，或者基于局部形状再加上简单线性分类器训练的走子生成法，需要慢慢调参数年，才有进步。当然，只用走棋网络问题也很多，就我们在DarkForest上看到的来说，会不顾大小无谓争劫，会无谓脱先，不顾局部死活，对杀出错，等等。有点像高手不经认真思考的随手棋。因为走棋网络没有价值判断功能，只是凭“直觉”在下棋，只有在加了搜索之后，电脑才有价值判断的能力。2、快速走子那有了走棋网络，为什么还要做快速走子呢？有两个原因，首先走棋网络的运行速度是比较慢的，AlphaGo说是3毫秒，我们这里也差不多，而快速走子能做到几微秒级别，差了1000倍。所以在走棋网络没有返回的时候让CPU不闲着先搜索起来是很重要的，等到网络返回更好的着法后，再更新对应的着法信息。其次，快速走子可以用来评估盘面。由于天文数字般的可能局面数，围棋的搜索是毫无希望走到底的，搜索到一定程度就要对现有局面做个估分。在没有估值网络的时候，不像国象可以通过算棋子的分数来对盘面做比较精确的估值，围棋盘面的估计得要通过模拟走子来进行，从当前盘面一路走到底，不考虑岔路地算出胜负，然后把胜负值作为当前盘面价值的一个估计。这里有个需要权衡的地方：在同等时间下，模拟走子的质量高，单次估值精度高但走子速度慢；模拟走子速度快乃至使用随机走子，虽然单次估值精度低，但可以多模拟几次算平均值，效果未必不好。所以说，如果有一个质量高又速度快的走子策略，那对于棋力的提高是非常有帮助的。为了达到这个目标，神经网络的模型就显得太慢，还是要用传统的局部特征匹配(local pattern matching)加线性回归(logistic regression)的方法，这办法虽然不新但非常好使，几乎所有的广告推荐，竞价排名，新闻排序，都是用的它。与更为传统的基于规则的方案相比，它在吸纳了众多高手对局之后就具备了用梯度下降法自动调参的能力，所以性能提高起来会更快更省心。AlphaGo用这个办法达到了2微秒的走子速度和24.2%的走子准确率。24.2%的意思是说它的最好预测和围棋高手的下子有0.242的概率是重合的，相比之下，走棋网络在GPU上用2毫秒能达到57%的准确率。这里，我们就看到了走子速度和精度的权衡。和训练深度学习模型不同，快速走子用到了局部特征匹配，自然需要一些围棋的领域知识来选择局部特征。对此AlphaGo只提供了局部特征的数目(见Extended Table 4)，而没有说明特征的具体细节。我最近也实验了他们的办法，达到了25.1%的准确率和4-5微秒的走子速度，然而全系统整合下来并没有复现他们的水平。我感觉上24.2%并不能完全概括他们快速走子的棋力，因为只要走错关键的一步，局面判断就完全错误了；而图2(b)更能体现他们快速走子对盘面形势估计的精确度，要能达到他们图2(b)这样的水准，比简单地匹配24.2%要做更多的工作，而他们并未在文章中强调这一点。在AlphaGo有了快速走子之后，不需要走棋网络和估值网络，不借助任何深度学习和GPU的帮助，不使用增强学习，在单机上就已经达到了3d的水平(见Extended Table 7倒数第二行)，这是相当厉害的了。任何使用传统方法在单机上达到这个水平的围棋程序，都需要花费数年的时间。在AlphaGo之前，Aja Huang曾经自己写过非常不错的围棋程序，在这方面相信是有很多的积累的。3、估值网络AlphaGo的估值网络可以说是锦上添花的部分，从Fig 2(b)和Extended Table 7来看，没有它AlphaGo也不会变得太弱，至少还是会在7d-8d的水平。少了估值网络，等级分少了480分，但是少了走棋网络，等级分就会少掉800至1000分。特别有意思的是，如果只用估值网络来评估局面(2177)，那其效果还不及只用快速走子(2416)，只有将两个合起来才有更大的提高。我的猜测是，估值网络和快速走子对盘面估计是互补的，在棋局一开始时，大家下得比较和气，估值网络会比较重要；但在有复杂的死活或是对杀时，通过快速走子来估计盘面就变得更重要了。考虑到估值网络是整个系统中最难训练的部分(需要三千万局自我对局)，我猜测它是最晚做出来并且最有可能能进一步提高的。关于估值网络训练数据的生成，值得注意的是文章中的附录小字部分。与走棋网络不同，每一盘棋只取一个样本来训练以避免过拟合，不然对同一对局而言输入稍有不同而输出都相同，对训练是非常不利的。这就是为什么需要三千万局，而非三千万个盘面的原因。对于每局自我对局，取样本是很有讲究的，先用SL network保证走棋的多样性，然后随机走子，取盘面，然后用更精确的RL network走到底以得到最正确的胜负估计。当然这样做的效果比用单一网络相比好多少，我不好说。一个让我吃惊的地方是，他们完全没有做任何局部死活/对杀分析，纯粹是用暴力训练法训练出一个相当不错的估值网络。这在一定程度上说明深度卷积网络(DCNN)有自动将问题分解成子问题，并分别解决的能力。另外，我猜测他们在取训练样本时，判定最终胜负用的是中国规则。所以说三月和李世石对局的时候也要求用中国规则，不然如果换成别的规则，就需要重新训练估值网络(虽然我估计结果差距不会太大)。至于为什么一开始就用的中国规则，我的猜测是编程非常方便(我在写DarkForest的时候也是这样觉得的)。4、蒙特卡罗树搜索这部分基本用的是传统方法，没有太多可以评论的，他们用的是带先验的UCT，即先考虑DCNN认为比较好的着法，然后等到每个着法探索次数多了，选择更相信探索得来的胜率值。而DarkForest则直接选了DCNN推荐的前3或是前5的着法进行搜索。我初步试验下来效果差不多，当然他们的办法更灵活些，在允许使用大量搜索次数的情况下，他们的办法可以找到一些DCNN认为不好但却对局面至关重要的着法。一个有趣的地方是在每次搜索到叶子节点时，没有立即展开叶子节点，而是等到访问次数到达一定数目(40)才展开，这样避免产生太多的分支，分散搜索的注意力，也能节省GPU的宝贵资源，同时在展开时，对叶节点的盘面估值会更准确些。除此之外，他们也用了一些技巧，以在搜索一开始时，避免多个线程同时搜索一路变化，这部分我们在DarkForest中也注意到了，并且做了改进。5、总结总的来说，这整篇文章是一个系统性的工作，而不是一两个小点有了突破就能达到的胜利。在成功背后，是作者们，特别是两位第一作者David Silver和Aja Huang，在博士阶段及毕业以后五年以上的积累，非一朝一夕所能完成的。他们能做出AlphaGo并享有现在的荣誉，是实至名归的。从以上分析也可以看出，与之前的围棋系统相比，AlphaGo较少依赖围棋的领域知识，但还远未达到通用系统的程度。职业棋手可以在看过了寥寥几局之后明白对手的风格并采取相应策略，一位资深游戏玩家也可以在玩一个新游戏几次后很快上手，但到目前为止，人工智能系统要达到人类水平，还是需要大量样本的训练的。可以说，没有千年来众多棋手在围棋上的积累，就没有围棋AI的今天。

alphago是软件还是机器人 alphago依靠精确的专家评估系统（valuenetwork）、基于海量数据的深度神经网络（policynetwork），及传统的人工智能方法蒙特卡洛树搜索的组合，以及可以通过左右互搏提高自己的水平，alphago是程序，机器人是多个程序的组合。

alphago围棋学习采用以下哪种方法 您是想问alphago围棋学习采用哪种方法吗？这个系统学习方法是深度学习。深度学习是指机器通过深度神经网络，模拟人脑的机制来学习、判断、决策，已经被广泛应用于许多领域，谷歌计算机围棋程序“阿法狗”（AlphaGo）的主要工作原理是“深度学习”。尽管阿法狗学习下围棋属于机器学习方法的低端阶段，但阿法狗的学习能力给未来创造了更多的可能性。

和Siri等AI相比，AlphaGo究竟有什么不一样 我现在玩的MHOL也很不错的，在和大型怪物战斗时，我们可以把怪物彻底击败，也可以选择把它打残然后捕获，捕获后可以有一定概率获得原本需要部位破坏才能获得的素材，基础素材也有概率增加获得量，所以如果需要获得最大素材最好的方法是尽量破坏部位，然后捕获

专访柯洁：与AlphaGo对局很痛苦流泪因不甘心 专访柯洁：与AlphaGo对局很痛苦流泪因不甘心　　对特别渴求胜利的人而言实在是太难了，因为你不可能像机器一样，那么冷静，做到最好，这跟业余棋手、爱好者们不一样，爱好者们每个人都很快乐。　　在现场长时间的掌声中，一身黑色西装的柯洁从舞台上走了下来，刚刚他完成了五天来的第三场赛后新闻发布会，也完成了此次人机大战2.0战役的全部使命。簇拥的众人被拦在专访室外，柯洁在摄像机前坐了下来，拿起话筒，深吸一口气。虽然脸上还带着几分疲惫和沮丧，但显然他在努力调整自己的情绪。面对腾讯体育的镜头，这个19岁的大男孩试着敞开心扉。　　面对AlphaGo 19岁的柯洁会输也会哭　　前一天，柯洁妈妈还在回忆，自从儿子长大，已经很久没有看到他哭过，即使在最难过的时候，他也不愿意让人看到自己脆弱的一面，可就是在第三局输给AlphaGo之后，柯洁落泪的画面让大家的心都跟着酸痛了起来，即使他再强大，他也只是个19岁的大男孩，他是人并不是神。　　腾讯体育：今天哭了吗? 　　柯洁：哦(愣了一下)今天是u2026u2026哭了，这问题怎么这么尖锐啊(苦笑)。今天是流眼泪了，说到流泪，其实我流泪的场合很少，这次是这几年来第一次这样哭吧。更多的是一种不甘心的感觉，不甘心就这样输掉。可能人就得试着去接受。不是有话说“每哭一次，人就长大一次”么?(经过今天)我就长得更大了，接受能力更强了。虽然可能哭得不好看，但这也是我很宝贵的经历吧。　　腾讯体育：赛前对(你失败的)结果是有预期的，你也说过类似的话(不太可能赢)，但还是有这么大的情绪波动，为什么呢? 　　柯洁：我向来不管外界、舆论对我怎么看待，我觉得下棋，是自己在下棋，不是别人在下。当然是把自己做到尽善尽美就可以了。也不会想太多。无论舆论怎么说，我心里想的还是去创造奇迹。这就是人性的魅力吧。我不甘于比赛还没开始，就去接受这个结果。虽然结果还是一样，0：3输了，但整个过程还是我这辈子经历最多的，感受也是最不一样的。真的输了那一刻，还是挺不甘心的，一直以来，刚学棋的时候，大家都说围棋是代表人类最高(智力)水平的体育项目，被人工智能轻易击溃的那一刻，投子的那一刻，我是很不甘心的。虽然知道这个必须接受，但可能还是需要一定时间去缓冲一下，所以会很难过，起伏会很大。　　腾讯体育：这个问题不知道是否残酷。如果让你回想这三盘棋，首先出现在你脑海里的会是哪个局面? 　　柯洁：会是今天。今天我认输的那一刻。在之前没下的时候，我晚上会做梦，梦见自己真正输掉这一次比赛。我从梦中惊醒。今天那一刻真的是噩梦上演。而且是一个很残酷的事实。不过很多事情也都是很残酷，你真的尽力去做一件事情，真的没办法达到一个你想要的结果。无论是比赛也好，还是现实中其他事情也好，人还是要试着去接受的。可能也通过这次比赛，大家看到AlphaGo真的非常强大，只是就我个人而言，我不会再跟它去下棋了，真的是太残酷，太难以接受。从头到尾，我都看不到明显的胜机，或者扭转的机会。一旦被带入到它的节奏，形势稍微有利，占据主动一点，就一直被它带到最后，没有什么机会翻身。所以输了没什么脾气。就因为没什么脾气，才会很难过。　　腾讯体育：我们不仅看到了AlphaGo的强大，也看到了柯洁的强大。　　柯洁：感谢你能这么说。我不确定这三盘棋是不是有人能比我做得更好。我想我做的不够好。今天这盘棋，我心里的波动实在是太大了。我开局稍微亏了一点，后面就发现这棋没法下了。　　对AI有着先天的感知错失机会却不想再来　　第二盘棋被认为是柯洁遇到的可能获胜的最好机会，哈萨比斯先生也称赞他逼出了最强的"AlphaGo。柯洁也认为自己对感知AI有一种天赋。　　第二局是柯洁距离战胜“围棋之神”最近的一次，然而他遗憾地错过了这个机会。如果重新再来一次，是否还愿意再下一次第二盘棋，柯洁的回答是：不。　　腾讯体育：樊麾下完他那盘棋之后，他说自己内心世界是坍塌的，但是在其后的比赛里，他又觉得内心世界重建了，我只是说那时候的版本比现在的版本要低，但是，相对他的棋艺来说，他有一个自己内心重建的过程，你现在的感受是怎样的?你觉得你未来会有一个什么样的预期? 　　柯洁：我的预期就是赛前准备好，更能接受一点，而李世石不同，那时候因为大家无一例外都觉得他能取胜但他还是输了。但是，这次下棋也无例外，大家都觉得我会败，我还真败了，这个可能接受起来会相对容易一点。我现在的心情也平复很多，跟结束那一刻比，因为早就有人接受这样的事情了，现在可以接受了，这就是事实。　　腾讯体育：你在和AlphaGo下棋的期间有没有一瞬间或者某一时刻觉得这个对手是你可以触及或者可以感知到的? 　　柯洁：我好像对感知AI有一种天赋。我大概能感觉到它往哪个方向行棋，虽然准确的位置不太清楚。对于AI来讲，他不会在乎去赢多少，只在乎胜利就可以了，因为程序给他的指令是你只要赢了就可以，赢多少无所谓。所以，之于这几盘棋，我就能感知到它大概会往哪个方向下棋，因为我对它的压力不够大，它居然能走出跟我想象一样的棋，我觉得它对自己的形势很满意了，因为它走出跟我一样的棋都能赢我的时候，它的形势肯定是很有利的。所以，我能感受到它对自己形势的自信和一个乐观的态度。　　唯一觉得有点触及到它边缘的地方就是第二盘棋，战斗也很激烈，为什么我会很激动?跟AlphaGo下棋，五五开的局面是可遇而不可求的，那是很好的一个机会。我也不敢想象，它居然可以把棋下得那么强硬，撑得那么满，好像好多块棋扭在一起，那是人类擅长发挥的地方了。因为对其他那些照抄它的AI来说，它们对这种复杂局面的处理是很薄弱的。但是跟它下棋会发现它处理得好像比我们人类还好很多，其实那一刻是很绝望的。甚至是那些研发它的人也不知道是怎么做到这一点的，研发它的人是下不过它的，很多人甚至不懂棋，居然能创造出这么一个怪物。所以，我唯一能感受到的是它对形势的乐观和自信，而且是绝对的乐观和自信，这一点人类是没有的。再自信也不会像它那么自信，无论你验证多少次，它都是不可战胜的。　　腾讯体育：哈萨比斯先生也说了你逼出了AlphaGo几乎边缘的状态，但是我们也知道其实你把它逼到那个状态，它会释放出更强的力量，这个时候你能感受得到，我觉得全世界如果只有一个人能感受得到，肯定就是你，你会觉得恐惧吗? 　　柯洁：不能说是恐惧，因为我意料到它肯定也能做到这一点，没有办法去恐惧什么，只是觉得它实在是太强了，只有说太强了。可能它做到那个时候，不能说恐惧，而是崇拜它。它有那么强的棋力，一路下来心态完全没有起伏，我觉得自己都不可能做到这一点，无论我有多强，我还是会输，心态还是会波动，所以说很羡慕，也很羡慕创造出这个AlphaGo的科学家，他们真的很了不起，我们围棋快五千年了，我也不知道它到底是什么时候开始的，他们把我们这么多年对围棋理解的结晶全部给颠覆了，它花了多少时间，一两年，还是三年，我也不知道它真正开始做这个是什么时候，但是时间不会很长，那么短的时间就可以把我们上千年的认知全部给颠覆，这个真的是太了不起了。　　所以，我觉得如果输给它，就像大家认为的，这是情理之中的事情，带来这么多的颠覆。可能我赢了它是让历史倒退。可能我也算是给人类造福了。　　腾讯体育：你想成为AlphaGo那么强的棋手吗? 　　柯洁：这个肯定是每个棋手的愿望，不仅是棋手，所有人可能都想成为他那么强的棋手。就算你不喜欢围棋也好，喜欢围棋也好，有它那么强的棋力，为什么不想成为它那样的棋手呢?但是，毕竟我们是人类，我们的计算力和认知都有限制，所以说只能向它学习了。　　腾讯体育：你刚刚说AlphaGo它自己有了成长，你觉得最近一两年你自己的成长是不是也很快? 　　柯洁：会有成长，会有一定的进步，但是，不可能会有太明显的进步。就像现在的我跟两年前的我下棋，AlphaGo没出现之前，跟我下棋，我也不一定能稳赢，如今，它都飞上火星了，我还在过这个河呢。所以，这个是没有办法相比的。　　腾讯体育：昨天的团队赛，五位棋手做了一个试验，想更了解AlphaGo，你在下棋的过程中有没有做过这种尝试? 　　柯洁：我哪有试验它，就算是试验，也就是第二局。但是，因为我非常清楚地知道它是没有什么短板的，而且那样的试验，我不能说是试验，只能说是娱乐。到那个局面下，因为铁定胜利的情况下，它稍微退下来点都没关系，它怎么下都可以了，它怎么下都有理，那有什么好试验的，不能说试验，只能说我这五个好友的心态还是好的，还有心情跟它娱乐一下，我是没这个心情，如果觉得实在不行我投子，不想受到折磨，今天我就跟它玉碎了，宁为玉碎，不为瓦全，我就认了，输就输了吧。因为它在后面下得太稳了。你明知道是输了，干吗还要坚持下去，没必要，早点败下来了。我们就早点可以结束了。所以，我不喜欢做那种无畏的坚持，因为这种感觉很痛苦，很难受。　　腾讯体育：如果可以的话，你还想重下第二盘棋吗? 　　柯洁：不想下了。因为我看了它现在的自我对局。它不是在发布会上公布它自己和自己的对局了吗。其实很多局面是比我那个局面还要复杂的，我看它也是处理得游刃有余，很多精彩的棋出现。所以我觉得重新下可能还是没有机会，怎么下都没有机会，我就不去再受这个折磨了，不想跟它下棋了，只能说去学习。除非你能赢它，也只能说在一个不平等的条件下，它可能让你点东西，让你三招，让你几招，不然的话，双方平等的条件下，它领先你，你不可能赢。但是，可能别人会觉得我很消极，这个人怎么这么没有动力，没有积极向上的心态，哎呀，不是这样的，我是觉得我受够了，我也不想别人真正了解我，无所谓。我只是想让大家知道其实是很痛苦的。　　思考人生与AlphaGo的三局比赛意义重大　　连笑曾经说，他从9岁就开始思考人生，而柯洁说这三局的比赛对于他的人生意义重大。对于职业棋手来说，往往是因为围棋而去思考人生。而对柯洁来说，更重要的是对荣誉的渴望。　　腾讯体育：这一次的人机大战会对你的棋手生涯有什么特殊的意义吗? 　　柯洁：这个意义会很大，是我最有意义的一次比赛。我肯定会记住这一次，这个对我来说意义实在是太重要了。　　腾讯体育：你觉得多年之后会怎么回忆这场棋? 　　柯洁：要看多年之后的我有什么人生阅历和经历了。如果有比这更大的事情出现，那可能会把这个事稍微淡一点，但是如果没有，可能还想看着当时的我是怎么样的。比如说你10年后、20年后。　　腾讯体育：连笑说他9岁开始就思考人生这个事了，很多棋手可能比较早熟，对你来说，是从什么时候开始思考人生? 　　柯洁：棋手我一直觉得是个很单纯的群体，可能我的性格不太单纯，因为我经常和媒体打交道，但是我觉得一个棋手可能是单纯的，其实棋手应该是很快乐的，他只要坚持自己喜欢的事情，围棋，他只要做好这一件事情就不用操心了。你要做好在比赛中取得胜利，这就是你最大的对自己的肯定。　　我也是这几年才思考人生的。我以前很单纯，只是觉得只要把棋赢了其他的都无所谓，当然也适用于现在的我，围棋可能对我而言就是输赢，我一直很看重荣誉。　　棋手，而且是一位国际职业棋手，专门从小学围棋的，职业棋手不多，圈子也比较小，很单纯、很快乐，大家平时聊得最多的可能就是围棋。对特别渴求胜利的人而言实在是太难了，因为你不可能像机器一样，那么冷静，做到最好，这跟业余棋手、爱好者们不一样，爱好者们每个人都很快乐。我们不一样，这就是我们吃饭的家伙，所以，快乐就少很多，而更多的是在对棋的理解和探索中来回寻找。我们可能也就是因为围棋才会去思考人生。 ;

英语词汇：AlphaGo这个名字是怎么来的 alpha 是希腊字母阿尔法α，第一的意思。go 围棋的意思。

AlphaGo是什么谷歌AlphaGo全解读 AlphaGo一般指阿尔法围棋阿尔法围棋（AlphaGo）是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能程序。其主要工作原理是“深度学习”。阿尔法围棋（AlphaGo）是一款围棋人工智能程序。其主要工作原理是“深度学习”。“深度学习”是指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入，通过非线性激活方法取权重，再产生另一个数据集合作为输出。这就像生物神经大脑的工作机理一样，通过合适的矩阵数量，多层组织链接一起，形成神经网络“大脑”进行精准复杂的处理，就像人们识别物体标注图片一样。

AlphaGo 是什么语言开发的 Android以Java为编程语言，使接口到功能，都有层出不穷的变化，其中Activity等同于J2ME的MIDlet，一个 Activity 类（class）负责创建视窗（window），一个活动中的Activity就是在 foreground（前景）模式，背景运行的程序叫做Service。两者之间通过由ServiceConnection和AIDL连结，达到复数程序同时运行的效果。如果运行中的 Activity 全部画面被其他 Activity 取代时，该 Activity 便被停止（stopped），甚至被系统清除（kill）。1、Unix/Linux平台技术：基本命令，Linux下的开发环境2、企业级数据库技术：SQL语言、SQL语句调优、Oracle数据库技术3、Java 语言核心技术：Java语言基础、Java面向对象编程、JDK核心API、Java集合框架、Java网络编程、JavaI/O编程、Java多线程编程、Java异常机制、Java安全、JDBC、XML4、软件工程和设计模式：软件工程概述、配置管理及SVN、UML、基本设计模式5、Android应用开发基础：Android开发平台、Eclipse+ADT开发环境、AVD及传感模拟器调试、Android核心组件、Android常用组件、Android高级组件、文件及网络访问、SQLite数据库编程、后台服务编程6、互联网核心技术： HTML、CSS、JavaScript、JQuery、Ajax应用7、Android高级应用开发：音频视频摄像头、互联网应用、GPS和位置服务、Google Map、2D3D绘制、传感器开发、游戏开发、电话及SMS服务、网络BluetoothWi-Fi等。8、Android系统级开发：移植、驱动、NDK（C方向）。9、JavaEE核心技术：Servlet核心技术、JSP核心技术、Struts、Spring、Hibernate框架。

AlphaGo的胜利=人工智能已经超越人类了？ 说到深度学习，大家第一个想到的肯定是AlphaGo，通过一次又一次的学习、更新算法，最终在人机大战中打败围棋大师李世石。那么AlphaGo的胜利真的意味着人工智能已经超越人类了吗？答案是否定的。虽然我们看到了AlphaGo连连击败李世石，然而，AlphaGo只不过是在模拟专业围棋选手的走子方案，而且这种模拟依赖于历史比赛的记录。AlphaGo在算法层面上并没有太多新的东西，主要是通过把已有的技术整合在一起，并利用大量的训练数据和计算资源来提高准确性。归根结底，强大的计算平台和工程能力是核心。深度学习作为人工智能领域的一个应用分支，不管是从市面上公司的数量还是投资人投资喜好的角度来说，都是一个重要应用领域。目前深度学习在图像识别和语音识别上得到了不错的发展，也有不少专家非常看好在自然语言处理上的发展，比如智能助手等。

求一篇关于介绍AlphaGo的英语短文不要太长100-200词就可以了急谢谢好人 Artificial intelligence eventually surpassed humans in the ancient Chinese board game Go as Google"s computer program AlphaGo won 3-0 over South Korean Lee Sedol, the world Go champion in the past 10 years, dashing the remaining hopes for reversal in a historic five-game match.当谷歌计算机程序AlphaGo以3比0的比分击败了过去十年间的世界围棋冠军、来自韩国的李世石之后，人工智能最终在中国传统棋类围棋上超越了人类。同时这一结果也摧毁了在本次历史性的五番棋比赛中，人类企图逆转的希望。AlphaGo, a computer program developed by Google"s London-based AI subsidiary DeepMind, won the third consecutive game in the match with Lee, one of the greatest Go players who has won 18 world championships for 21 years of his professional career.AlphaGo是由位于英国伦敦的谷歌旗下DeepMind公司开发的一款人工智能程序，在与李世石的比赛中连胜三场。李世石是世界上最强大的围棋选手之一，他在自己21年的职业生涯当中，已经拿下了18个世界冠军。

第五代 Alphago的名字叫做什么？ 第五代hill的名字应该叫做Angela。

关于AlphaGo的一些错误说法 最近看了一些关于alphago围棋对弈的一些人工智能的文章，尤其是美国人工智能方面教授的文章，发现此前媒体宣传的东西几乎都是错的，都是夸大了alpha狗。我做了一个阅读心得摘要。首先是对媒体错误宣传的更正：1.alphago可以说里程碑式开创了历史，但是他并没有作出任何非常创新的技术，而deep mind只是将早已经存在的一些人工智能技术（尤其是机器辨认图片技术运用到下棋上）之前没有人想过能这样做，这种尝试是一种创新。2.alphago并没有真正的棋感，实际也不懂得思考并作出策略，围棋解说把alphago当人来看待是错误的。alpha只是不停问自己我下这一步我胜率提高多少。3.alphago并没有强大学习能力，达到现在棋力是基于接近1亿次棋局的模仿和推测出来的，一开始alphago只学习了16万棋局时它的棋力很弱。他不但比人学习效率差而且比马戏团的动物学习效率更差。所以说跟李对局每一局都在进步是不可能的，一局的经验对alpha go没什么影响。4.alphago其实也是基于蛮力穷举下法，只不过运用新的机器学习方法。穷举法和机器学习不矛盾5.之前看到文章说alpha速度没深蓝快，其实alpha是深蓝的5万倍。今天用的iPhone6s计算能力都是深蓝的几十倍。6.说人脑计算速度慢是错误的，和计算机计算速度相对应的应该是人脑神经元计算速度，保守估计人脑计算速度是每秒1000万亿次，计算能力是深蓝的10万倍。7.alpha并不是完全学习的，首先底层需要人编程围棋规则，其次基础的下期原则也是人为输入的简单总结一下阅读心得：首先包括alpha围棋程序和深蓝的象棋都是蛮力搜索法。也就是1.考虑所有未来可能变化，2.计算走法未来多少步的胜率，3.选择走法。但是围棋每走一步比国际象棋变化更大，步数更多，可能变化种类超过宇宙原子总和。其实这对于象棋也是如此。深蓝雇佣大量职业象棋选手设定一个积分法，比如一个兵值多少分，吃对手一个车胜率提升多少，这个评分体系很准确，深蓝思考范围被压缩成十几步。但是围棋无法如此评估，之前围棋程序是简单的人手输入，见到什么情况如何走，所以很死板。这些程序棋力大概是400。2006年一种叫做蒙特卡洛树的搜索法被发明，它使用概率模拟方法（类似模拟投掷骰子）只需要判断终盘胜负，弥补了围棋不能设定确定走法函数的缺陷。（alpha go也是使用蒙特卡洛树方法）但是这方法要展开到终盘计算量太大，所以需要让围棋专家协助制定行棋规则，减少计算量。此方法可使人工智能棋力提升到业余5段。但是十年来电脑棋力进展令人悲观，直到alphago。它在此基础上引入深度人工网络。神经网络已经发明50年，适合编写一些不直观因果关系的事物，并且软件可以自主学习调整。但是编程太难，加上以前计算能力问题一直不受重视。6年前开始，技术上能达到10层神经元，神经网络开始兴起。结合大数据和云计算技术，神经网络开始吃香。图像处理和人脸识别这类程序很难直观的由编程员编程，神经网络在此有用武之地，其中深度卷积网络技术称霸。alpha狗团队创新之处在于意识到可以将图像识别的这项技术用于下棋。alpha狗团队将神经网络升级到13层，预测人类棋手走法。首先它学习了围棋对战平台的3千万业余高段位的对局记录，作为让alpha狗猜人类走法的正确答案。也就是说alpha一开始是在模仿业余高手平均玩法。同时团队人工输入围棋知识。alpha是神经网络加手工编程混合物。这个预测人类玩法被叫做策略网络，此时alpha叫做rp版。根据alpha狗团队的论文把策略网络加入业余3段棋力的围棋程序，其棋力能达到业余6段。棋力提高950分达到2600（棋力分每相差230分双方5局三胜比赛的胜率为高分者95%胜率）此时alpha已经成为世界最强围棋程序。为了减少计算量，alpha狗使用一个叫价值网络的深层卷积网络作为评估函数，使用alpha的预测结果和实际展开结果的平均值作为胜率参考信息。加入此功能的alpha狗叫做完整版。其棋力提高了450分。达到3100。（大家要知道棋力相差500的选手之间，棋力低者想赢一盘棋都很难的，相差1000的话，棋力低者胜率几乎为0）首先刚刚入门只懂得规则的玩家棋力是0。手写下棋规则类围棋程序的棋力大概是400多。也就是程序是当对手下什么子，程序应该怎么走，这种纯靠手工编程软件的棋力。业余棋手最低级别（1段）的棋力是1000左右。加入神经网络的alpha go棋力是1500。相当于业余4段。此时的aloha go也是程序规则软件，只不过靠神经网络训练加入围棋知识而已。r版alpha go棋力1700。相当于业余5段。此时alpha go加入蒙特卡洛树搜索功能，但是主要靠手写程序为基础。和r版alpha go类似的程序zen棋力是2200。相当于业余7段。rp版的alpha go棋力是2700。和r版相比rp版的改进是在手工编程最基础的围棋策略基础上，加入“策略网络”该功能是一个预测对手落子位置的神经网络。因此alpha go棋力大增接近1000棋力。已经成为世界最强围棋软件。这个棋力大概是最低级别的职业选手（职业1段）的棋力。2015年下半年被alpha go横扫的欧洲冠军樊麾的棋力是2900左右。相当于职业2段和3段之间水平。完整版alpha go的棋力是3100多（2015年底时）。这个版本alpha go比之前增加了一个“价值网络”的深层卷积网络DCNN。他可以在不将牌局演算到终局就评估出双方胜率也就是上一篇文章所说的大幅度减化了计算。这种技术本来是用在识别图像技术上的。此时李世石棋力是3500多。相当于超出最高段位（职业9段）水平。柯洁的棋力是3600左右。其实宣布挑战李世石时alpha go棋力落后李400左右。它是通过自己和自己大量对局来提升棋力的。（战胜樊麾时它是通过观摩人类业余高段位对战历史数据学习，为了击败更强对手只能向更高技术的选手学习，就是自己了）。在不断对局中程序棋力不断提高，而提高的棋力自我对阵时产生更高水平的下棋数据。虽然凌哥没看到战胜李世石时alpha go的棋力但是我简单算一下推测出2016年3月战胜李时alpha go棋力大概是3800左右。（因为差230分五局三胜95%胜率可以推算单局胜率80%再低一些。李是3530左右棋力）所以当时柯洁已经不是alpha go的对手了。现在alpha go挑战各位围棋高手60连胜（唯一一次平局是人类棋手掉线）至于现在棋力应该是没办法评估吧。因为一场都不输的话根本不知道棋力是多少。按照棋力计算方法应该是棋力无限大了，也就是七龙珠漫画里面的战斗力爆表了。至少输一场才能估算出其实际棋力。其他：说到alpha没有期感，和人类下棋不一样。只要是因为人类学习下棋，是通过总结棋局规则和下法，分析因果关系和其中逻辑关系的，而alpha go只是推算走这一步它的胜率提高多少（这方面和深蓝没区别只是评估方式不同）它并不是真的有智慧懂得各种谋略。alpha go学习方式只是像训练动物一样。走对了给予奖赏鼓励以后以更高概率走这步，走错了就惩罚。而且这个效率很低，其实它的高水平是通过每天学习普通职业选手一辈子也不止的时间来学习下棋得来的。而且这个学习过程“没有高层思维和概念”，只是一个搜索过程。上文说道alpha go学习效率很低。因为alpha go学习了3000万盘棋局时面对新局面应变能力很差，分析发现这些棋局很多都是冗余的只相当于16万棋局。而几十万局棋对训练alpha go是不够的，它需要千万级别的棋局训练。所以电视里职业棋手解说说alpha go在每局都从李世石身上学到新技能是不可能的，一两局对alpha go是没用的。而李世石反而是从alpha go身上学到东西利用创新下法战胜alpha go。人类这种能力是人工智能不具备的。人工智能专家认为现在人工智能其实并不是真正的智能。alpha go只是下棋能力强的软件，IBM的沃森只是智力答题能力强的机器。真正的人工智能是让一个白板人工智能机器见到围棋，自己学习下棋规则，自己通过推理推断怎么下棋。（现在的alpha go的围棋规则和基础下棋策略都是人手编程的）deep mind致力于开发真正的人工智能程序。近期目标是玩几百种游戏都能战胜人类。这是向真正人工智能迈步。

alphago开发团队多少人 截止至2022年12月28日alphago开发团队有140名员工。根据查询相关公开信息显示：AlphaGo是一款围棋人工智能程序，由位于英国伦敦的谷歌(Google)旗下DeepMind公司的戴维·西尔弗、艾佳·黄和戴密斯·哈萨比斯与他们的团队开发，这个程序利用价值网络去计算局面，用策略网络选择下子。2015年10月阿尔法围棋以5：0完胜欧洲围棋冠军、职业二段选手，2016年3月对战世界围棋冠军、职业九段选手李世石。

AlphaGo 用了哪些深度学习的模型 AlphaGo依靠精确的专家评估系统（value network）、基于海量数据的深度神经网络（policy network），及传统的人工智能方法蒙特卡洛树搜索的组合，以及可以通过左右互搏提高自己的水平，这个真的是有的恐怖了有木有。李世石九段固然厉害，可人类毕竟是动物，机器软件程序是无休止的工作，这一点也是客观因素了。比赛已经结束了，李世石一比四不敌alphago。

AlphaGo为什么这么厉害 AlphaGo为什么这么厉害AlphaGo这个系统主要由几个部分组成：走棋网络(Policy Network)，给定当前局面，预测/采样下一步的走棋。快速走子(Fast rollout)，目标和1一样，但在适当牺牲走棋质量的条件下，速度要比1快1000倍。估值网络(Value Network)，给定当前局面，估计是白胜还是黑胜。蒙特卡罗树搜索(Monte Carlo Tree Search，MCTS)，把以上这三个部分连起来，形成一个完整的系统。我们的DarkForest和AlphaGo同样是用4搭建的系统。DarkForest较AlphaGo而言，在训练时加强了1，而少了2和3，然后以开源软件Pachi的缺省策略 (default policy)部分替代了2的功能。以下介绍下各部分。1、走棋网络走棋网络把当前局面作为输入，预测/采样下一步的走棋。它的预测不只给出最强的一手，而是对棋盘上所有可能的下一着给一个分数。棋盘上有361个点，它就给出361个数，好招的分数比坏招要高。DarkForest在这部分有创新，通过在训练时预测三步而非一步，提高了策略输出的质量，和他们在使用增强学习进行自我对局后得到的走棋网络(RL network)的效果相当。当然，他们并没有在最后的系统中使用增强学习后的网络，而是用了直接通过训练学习到的网络(SL network)，理由是RL network输出的走棋缺乏变化，对搜索不利。有意思的是在AlphaGo为了速度上的考虑，只用了宽度为192的网络，而并没有使用最好的宽度为384的网络(见图2(a))，所以要是GPU更快一点(或者更多一点)，AlphaGo肯定是会变得更强的。所谓的0.1秒走一步，就是纯粹用这样的网络，下出有最高置信度的合法着法。这种做法一点也没有做搜索，但是大局观非常强，不会陷入局部战斗中，说它建模了“棋感”一点也没有错。我们把DarkForest的走棋网络直接放上KGS就有3d的水平，让所有人都惊叹了下。可以说，这一波围棋AI的突破，主要得益于走棋网络的突破。这个在以前是不可想像的，以前用的是基于规则，或者基于局部形状再加上简单线性分类器训练的走子生成法，需要慢慢调参数年，才有进步。当然，只用走棋网络问题也很多，就我们在DarkForest上看到的来说，会不顾大小无谓争劫，会无谓脱先，不顾局部死活，对杀出错，等等。有点像高手不经认真思考的随手棋。因为走棋网络没有价值判断功能，只是凭“直觉”在下棋，只有在加了搜索之后，电脑才有价值判断的能力。2、快速走子那有了走棋网络，为什么还要做快速走子呢？有两个原因，首先走棋网络的运行速度是比较慢的，AlphaGo说是3毫秒，我们这里也差不多，而快速走子能做到几微秒级别，差了1000倍。所以在走棋网络没有返回的时候让CPU不闲着先搜索起来是很重要的，等到网络返回更好的着法后，再更新对应的着法信息。其次，快速走子可以用来评估盘面。由于天文数字般的可能局面数，围棋的搜索是毫无希望走到底的，搜索到一定程度就要对现有局面做个估分。在没有估值网络的时候，不像国象可以通过算棋子的分数来对盘面做比较精确的估值，围棋盘面的估计得要通过模拟走子来进行，从当前盘面一路走到底，不考虑岔路地算出胜负，然后把胜负值作为当前盘面价值的一个估计。这里有个需要权衡的地方：在同等时间下，模拟走子的质量高，单次估值精度高但走子速度慢；模拟走子速度快乃至使用随机走子，虽然单次估值精度低，但可以多模拟几次算平均值，效果未必不好。所以说，如果有一个质量高又速度快的走子策略，那对于棋力的提高是非常有帮助的。为了达到这个目标，神经网络的模型就显得太慢，还是要用传统的局部特征匹配(local pattern matching)加线性回归(logistic regression)的方法，这办法虽然不新但非常好使，几乎所有的广告推荐，竞价排名，新闻排序，都是用的它。与更为传统的基于规则的方案相比，它在吸纳了众多高手对局之后就具备了用梯度下降法自动调参的能力，所以性能提高起来会更快更省心。AlphaGo用这个办法达到了2微秒的走子速度和24.2%的走子准确率。24.2%的意思是说它的最好预测和围棋高手的下子有0.242的概率是重合的，相比之下，走棋网络在GPU上用2毫秒能达到57%的准确率。这里，我们就看到了走子速度和精度的权衡。和训练深度学习模型不同，快速走子用到了局部特征匹配，自然需要一些围棋的领域知识来选择局部特征。对此AlphaGo只提供了局部特征的数目(见Extended Table 4)，而没有说明特征的具体细节。我最近也实验了他们的办法，达到了25.1%的准确率和4-5微秒的走子速度，然而全系统整合下来并没有复现他们的水平。我感觉上24.2%并不能完全概括他们快速走子的棋力，因为只要走错关键的一步，局面判断就完全错误了；而图2(b)更能体现他们快速走子对盘面形势估计的精确度，要能达到他们图2(b)这样的水准，比简单地匹配24.2%要做更多的工作，而他们并未在文章中强调这一点。在AlphaGo有了快速走子之后，不需要走棋网络和估值网络，不借助任何深度学习和GPU的帮助，不使用增强学习，在单机上就已经达到了3d的水平(见Extended Table 7倒数第二行)，这是相当厉害的了。任何使用传统方法在单机上达到这个水平的围棋程序，都需要花费数年的时间。在AlphaGo之前，Aja Huang曾经自己写过非常不错的围棋程序，在这方面相信是有很多的积累的。3、估值网络AlphaGo的估值网络可以说是锦上添花的部分，从Fig 2(b)和Extended Table 7来看，没有它AlphaGo也不会变得太弱，至少还是会在7d-8d的水平。少了估值网络，等级分少了480分，但是少了走棋网络，等级分就会少掉800至1000分。特别有意思的是，如果只用估值网络来评估局面(2177)，那其效果还不及只用快速走子(2416)，只有将两个合起来才有更大的提高。我的猜测是，估值网络和快速走子对盘面估计是互补的，在棋局一开始时，大家下得比较和气，估值网络会比较重要；但在有复杂的死活或是对杀时，通过快速走子来估计盘面就变得更重要了。考虑到估值网络是整个系统中最难训练的部分(需要三千万局自我对局)，我猜测它是最晚做出来并且最有可能能进一步提高的。关于估值网络训练数据的生成，值得注意的是文章中的附录小字部分。与走棋网络不同，每一盘棋只取一个样本来训练以避免过拟合，不然对同一对局而言输入稍有不同而输出都相同，对训练是非常不利的。这就是为什么需要三千万局，而非三千万个盘面的原因。对于每局自我对局，取样本是很有讲究的，先用SL network保证走棋的多样性，然后随机走子，取盘面，然后用更精确的RL network走到底以得到最正确的胜负估计。当然这样做的效果比用单一网络相比好多少，我不好说。一个让我吃惊的地方是，他们完全没有做任何局部死活/对杀分析，纯粹是用暴力训练法训练出一个相当不错的估值网络。这在一定程度上说明深度卷积网络(DCNN)有自动将问题分解成子问题，并分别解决的能力。另外，我猜测他们在取训练样本时，判定最终胜负用的是中国规则。所以说三月和李世石对局的时候也要求用中国规则，不然如果换成别的规则，就需要重新训练估值网络(虽然我估计结果差距不会太大)。至于为什么一开始就用的中国规则，我的猜测是编程非常方便(我在写DarkForest的时候也是这样觉得的)。4、蒙特卡罗树搜索这部分基本用的是传统方法，没有太多可以评论的，他们用的是带先验的UCT，即先考虑DCNN认为比较好的着法，然后等到每个着法探索次数多了，选择更相信探索得来的胜率值。而DarkForest则直接选了DCNN推荐的前3或是前5的着法进行搜索。我初步试验下来效果差不多，当然他们的办法更灵活些，在允许使用大量搜索次数的情况下，他们的办法可以找到一些DCNN认为不好但却对局面至关重要的着法。一个有趣的地方是在每次搜索到叶子节点时，没有立即展开叶子节点，而是等到访问次数到达一定数目(40)才展开，这样避免产生太多的分支，分散搜索的注意力，也能节省GPU的宝贵资源，同时在展开时，对叶节点的盘面估值会更准确些。除此之外，他们也用了一些技巧，以在搜索一开始时，避免多个线程同时搜索一路变化，这部分我们在DarkForest中也注意到了，并且做了改进。5、总结总的来说，这整篇文章是一个系统性的工作，而不是一两个小点有了突破就能达到的胜利。在成功背后，是作者们，特别是两位第一作者David Silver和Aja Huang，在博士阶段及毕业以后五年以上的积累，非一朝一夕所能完成的。他们能做出AlphaGo并享有现在的荣誉，是实至名归的。从以上分析也可以看出，与之前的围棋系统相比，AlphaGo较少依赖围棋的领域知识，但还远未达到通用系统的程度。职业棋手可以在看过了寥寥几局之后明白对手的风格并采取相应策略，一位资深游戏玩家也可以在玩一个新游戏几次后很快上手，但到目前为止，人工智能系统要达到人类水平，还是需要大量样本的训练的。可以说，没有千年来众多棋手在围棋上的积累，就没有围棋AI的今天。

AlphaGo 为什么它能战胜人类 它能通过图灵测试吗？它能证明自己是人类吗？全人类挑战它，它会进化退化还是故障呢？ennn，，，它已经声明过了一切怪你没看说明书~

击败李世石的alphago属于强人工智能还是机器思维 属于弱人工智能。按照人工智能的分类，AlphaGo还属于弱人工智能Artificial Narrow Intelligence (ANI)。AlphaGo利用深度学习学习人类棋谱，模拟人类来选择几个优势点，然后通过蒙特卡罗树搜索，穷举计算这几个点胜率，从中优选。本质上来说，它还是搜索求解，而且是在非常固定的规则与模式下进行。

alphago 是人工智能还是机械智能 是弱人工智能，世界上的强人工智能非常少，一个手都能数过来。

如何评价柯洁与 AlphaGo 的对决 直接的面对面逻辑速率对抗，人脑不如人工智能是理所当然的，否则还要发明人工智能代替人力干什么？但是别忘了，人工智能都是人脑发明的，人工智能只能在发明者限定的范围里运作，所以人类大脑依旧是最强的，因为人脑有无限的想象力。

后AlphaGo时代崭露头角的围棋al都有什么？ 绝艺，星阵，凤凰等

AlphaGo到底是怎么赢的？ 阿尔法围棋(AlphaGo)为了应对围棋的复杂性，结合了监督学习和强化学习的优势。它通过训练形成一个策略网络(policy network)，将棋盘上的局势作为输入信息，并对所有可行的落子位置生成一个概率分布。然后，训练出一个价值网络(value network)对自我对弈进行预测，以 -1(对手的绝对胜利)到1(AlphaGo的绝对胜利)的标准，预测所有可行落子位置的结果。这两个网络自身都十分强大，而阿尔法围棋将这两种网络整合进基于概率的蒙特卡罗树搜索(MCTS)中，实现了它真正的优势。新版的阿尔法围棋产生大量自我对弈棋局，为下一代版本提供了训练数据，此过程循环往复。在获取棋局信息后，阿尔法围棋会根据策略网络(policy network)探索哪个位置同时具备高潜在价值和高可能性，进而决定最佳落子位置。在分配的搜索时间结束时，模拟过程中被系统最频繁考察的位置将成为阿尔法围棋的最终选择。在经过先期的全盘探索和过程中对最佳落子的不断揣摩后，阿尔法围棋的搜索算法就能在其计算能力之上加入近似人类的直觉判断。围棋

柯洁vsalphago什么时候开始柯洁对战alphago什么时间 柯洁vsalphago已经结束了。柯洁对alphago三战全负。2017年5月23日，柯洁执黑迎战谷歌AlphaGo，最终柯洁在收官阶段不敌AlphaGo，第一局以失败告终。2017年5月25日，人机大战三番棋第二局战罢，柯洁虽然发挥神勇，但因为中盘战斗劫材不利，中盘败北。AlphaGo2-0领先，已经赢得了三番棋的胜利。根据规则，第三局仍如期在27日举行。2017年5月27日，乌镇围棋峰会最后一天，也是万众瞩目的柯洁AlphaGo最后一场，面对AlphaGo，柯洁使出全身解数仍无济于事最终投子认负，本次人机大战最终以柯洁三连败告终。

AlphaGo是如何下棋的，它真的能“理解”围棋吗？ 看你对理解的定义，人类对人工智能最经典判据叫做图灵判据，即你与人工智能对话，你不能判断他是否是机器，即为一个成功的人工智能，现在alpha go可以说在围棋领域已经实现了图灵判据，所以，在围棋领域，它已经成功了。关于是否理解，现alpha go已经完成人类思维过程中的，学习（记忆），理解，运用，即把学到的知识分析后，重新组合使用，但如果按照很多人所体会的天人之道等，哲学内容。这就属于抽象理解，alpha go肯定没有完成，但这不妨碍，它已经理解围棋棋路

alphago中的蒙特卡罗搜索树是怎样实现的 AlphaGo依靠精确的专家评估系统（value network）、基于海量数据的深度神经网络（policy network），及传统的人工智能方法蒙特卡洛树搜索的组合，以及可以通过左右互搏提高自己的水平，这个真的是有的恐怖了有木有。李世石九段固然厉害，可人类毕竟是动物，机器软件程序是无休止的工作，这一点也是客观因素了。AlphaGo依靠精确的专家评估系统（value network）、基于海量数据的深度神经网络（policy network），及传统的人工智能方法蒙特卡洛树搜索的组合，以及可以通过左右互搏提高自己的水平，这个真的是有的恐怖了有木有。李世石九段固然厉害，可人类毕竟是动物，机器软件程序是无休止的工作，这一点也是客观因素了。比赛已经结束了，李世石一比四不敌alphago。有一种观点人为，只要下AlphaGo棋谱中所未记载的招数就能获胜，哪怕这些下法根本不符合围棋棋理。这种做法的可行性并不高。AlphaGo并非是对人类棋手弈棋棋谱记忆后的简单再现，而是具备了一定模拟人类神经网络的“思考”能力，既不是像过去那样采用穷举法寻找最有选项，也不是复制棋谱中所记载的定势或手筋。而是会对选择进行“思考”，删除那些胜率低的选择，并对具有高胜率的选项进行深度“思考”，最终从无数个落子的选择中基于自己的“思考”选择一个最优项。因此，若是人类棋手想凭借下几步不符合围棋棋理，或未被棋谱记载的围棋下法，就轻而易举战胜AlphaGo的可能性并不高。因为AlphaGo是人工智能，而不是一台只会复制人类棋手招数的机器。

AlphaGo用的什么CPU alpha go是一款程序，直播中大家所看到的只是一台普通电脑而已，只执行显示功能，其计算通过网络由谷歌的超级计算机完成。cpu一般采用定制的intel xeon处理器以及intel/nvida加速卡。

alphago战胜了人类世界围棋冠军是哪一年 2016年3月AlphaGo在围棋人机大战中击败围棋世界冠军李世石。2016年3月9日，围棋人机大战首局在韩国首尔四季酒店打响。赛前猜先阿尔法围棋猜错，李世石选择黑棋，率先展开布局。黑棋布局走出新型，阿尔法应对不佳，出现失误。李世石抓住电脑布局不擅长应对新型的弱点获得不错的局面。围棋的胜负关键往往是中盘阶段，阿尔法围棋之后的下法变得强硬，双方展开接触战。李世石抓住机会，围住一块大空，在大局上抢得先机。就在观战棋手都认为李世石占优的情况下，他却放出了非常业余的手法，瞬间使微弱的优势化为乌有，还变成了劣势。进入官子，阿尔法围棋根本不犯一点错误，等阿尔法围棋下了186手，李世石算清后投子认输。比赛规程李世石与阿尔法围棋的围棋人机大战为五番棋挑战，但无论比分如何将下满五局，比赛采用中国围棋规则，执黑一方贴3又3/4子（即7.5目），各方用时为2小时，3次60秒的读秒机会。五局比赛分别于2016年3月9日、3月10日、3月12日、3月13日和3月15日在韩国首尔钟路区四季酒店进行。

AlphaGo真的理解围棋吗？ 我非常认可这样一段话：你或许还是不能接受AlphaGo这个样子，我想这是因为，人们下围棋，一定要先理解“围棋”什么东西，下面才可以操作。但是AlphaGo却是在不知道(或者没有被提供数据)“围棋是一种2个人的，而且两个人面对面做的，对抗的，零和的，棋盘19*19的，棋盘是方的，上面是打格子的，格子也是方的，有黑白两个子的，黑子先下的，两个轮流下的，要下在格点而不是格子中间的，有限时要求的，棋子数量足够的，一个棋子不会占超过一格的，棋子是圆的，两边凸起的，中国古代发明的，一种博弈游戏”中的任何一点的时候，可以战胜人类。首先，我认为AlphaGo是可以理解围棋的。计算机对围棋有这样的规定（Tromp-Taylor规则定义），围棋是一个在19*19格点上进行，两个玩家“小黑”、“小白”，轮流分别把棋盘上的某一个格点染成黑色或白色的游戏。再加上提子和禁循环的规则，以及终局判断，就是完整的Tromp-Taylor规则。这样的围棋，和我们眼中的围棋，有什么本质区别吗？如果不考虑围棋文化，那么我可以肯定地说，没有区别。那么为什么AlphaGo会引起如此大的关注度，有人还说人类最后一块阵地失守，甚至还有人说人工智能将会取代人类。答：围棋是世界上最复杂的游戏之一。所谓“一着不慎，满盘皆输”，每一步棋都可能左右全局的结果。一般来说，一手棋的决策分两步。第一步，“选点”：凭经验或感觉给出几个候选的点；第二步，“判断”：分别对这几个点做形式判断，并进行比较。这两步，说来容易，但要做到顶尖高手的水平，对于天赋和勤勉的要求，不亚于一个优秀数学家所需要的。阿尔法围棋（AlphaGo）是一款围棋人工智能程序，由谷歌（Google）旗下DeepMind公司的戴密斯·哈萨比斯、大卫·席尔瓦、黄士杰与他们的团队开发。其主要工作原理是“深度学习”。那么何为“深度学习”？深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值（例如一幅图像）可以使用多种方式来表示，如每个像素强度值的向量，或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务（例如，人脸识别或面部表情识别）。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。同机器学习方法一样，深度机器学习方法也有监督学习与无监督学习之分．不同的学习框架下建立的学习模型很是不同．例如，卷积神经网络（Convolutionalneuralnetworks，简称CNNs）就是一种深度的监督学习下的机器学习模型，而深度置信网（DeepBeliefNets，简称DBNs）就是一种无监督学习下的机器学习模型。正是因为这种“深度学习”才让了AlphaGo学习到了博大精深的围棋，正是因为“深度学习”让AlphaGo从对围棋的无知到挑战世界顶尖棋手。那么，人又是为何会下围棋的呢？人在下棋的时候，每一个下棋步骤的决定也都是通过了类似的信号加减。我们对现在的棋盘状态有个价值判断，胜败概率判断。下棋在不同的格子，这种选择，也是通过经验；对不同的格子就有不同的胜败概率涨跌估算。同时我们也会通过经验来预测对方下面几个回合的走棋步骤。专家的经验多了，对这三个方面的价值判断能力也就更清晰了。一开始接触围棋，对这些东西都没啥预测能力，或者非常不准，因为根本没有机会经历类似的情况；一切都是新的状态。一步一步熟悉起来了，会保留更多的状态记忆。会想起以前经历过的。这才进一步准确判断不同选择的价值。再专业的那些人，他们不用刻意去想，已经成了下意识。思维已经跑到了上层建筑、还有上上层。什么时候走错或者不知道怎么走，都是因为某个层面还缺乏概念，或者还没经历过这个情况，无法认识到pattern。阿法狗也是通过类似的学习方式一步一步修建自己的判断能力准确度。神经网络里面的权重，对应的就是人类所学到的那些“规则”。他的规则层次，最后选择也都是有原因，有经验的，一样也是“理解”。跟人类的理解没差多少。

如何评价AlphaGo 最新版本 AlphaGo Zero AlphaGo这个系统主要由几个部分组成：走棋网络(Policy Network)，给定当前局面，预测/采样下一步的走棋。快速走子(Fast rollout)，目标和1一样，但在适当牺牲走棋质量的条件下，速度要比1快1000倍。估值网络(Value Network)，给定当前局面，估计是白胜还是黑胜。蒙特卡罗树搜索(Monte Carlo Tree Search，MCTS)，把以上这三个部分连起来，形成一个完整的系统。我们的DarkForest和AlphaGo同样是用4搭建的系统。DarkForest较AlphaGo而言，在训练时加强了1，而少了2和3，然后以开源软件Pachi的缺省策略 (default policy)部分替代了2的功能。以下介绍下各部分。1、走棋网络走棋网络把当前局面作为输入，预测/采样下一步的走棋。它的预测不只给出最强的一手，而是对棋盘上所有可能的下一着给一个分数。棋盘上有361个点，它就给出361个数，好招的分数比坏招要高。DarkForest在这部分有创新，通过在训练时预测三步而非一步，提高了策略输出的质量，和他们在使用增强学习进行自我对局后得到的走棋网络(RL network)的效果相当。当然，他们并没有在最后的系统中使用增强学习后的网络，而是用了直接通过训练学习到的网络(SL network)，理由是RL network输出的走棋缺乏变化，对搜索不利。有意思的是在AlphaGo为了速度上的考虑，只用了宽度为192的网络，而并没有使用最好的宽度为384的网络(见图2(a))，所以要是GPU更快一点(或者更多一点)，AlphaGo肯定是会变得更强的。所谓的0.1秒走一步，就是纯粹用这样的网络，下出有最高置信度的合法着法。这种做法一点也没有做搜索，但是大局观非常强，不会陷入局部战斗中，说它建模了“棋感”一点也没有错。我们把DarkForest的走棋网络直接放上KGS就有3d的水平，让所有人都惊叹了下。可以说，这一波围棋AI的突破，主要得益于走棋网络的突破。这个在以前是不可想像的，以前用的是基于规则，或者基于局部形状再加上简单线性分类器训练的走子生成法，需要慢慢调参数年，才有进步。当然，只用走棋网络问题也很多，就我们在DarkForest上看到的来说，会不顾大小无谓争劫，会无谓脱先，不顾局部死活，对杀出错，等等。有点像高手不经认真思考的随手棋。因为走棋网络没有价值判断功能，只是凭“直觉”在下棋，只有在加了搜索之后，电脑才有价值判断的能力。2、快速走子那有了走棋网络，为什么还要做快速走子呢？有两个原因，首先走棋网络的运行速度是比较慢的，AlphaGo说是3毫秒，我们这里也差不多，而快速走子能做到几微秒级别，差了1000倍。所以在走棋网络没有返回的时候让CPU不闲着先搜索起来是很重要的，等到网络返回更好的着法后，再更新对应的着法信息。其次，快速走子可以用来评估盘面。由于天文数字般的可能局面数，围棋的搜索是毫无希望走到底的，搜索到一定程度就要对现有局面做个估分。在没有估值网络的时候，不像国象可以通过算棋子的分数来对盘面做比较精确的估值，围棋盘面的估计得要通过模拟走子来进行，从当前盘面一路走到底，不考虑岔路地算出胜负，然后把胜负值作为当前盘面价值的一个估计。这里有个需要权衡的地方：在同等时间下，模拟走子的质量高，单次估值精度高但走子速度慢；模拟走子速度快乃至使用随机走子，虽然单次估值精度低，但可以多模拟几次算平均值，效果未必不好。所以说，如果有一个质量高又速度快的走子策略，那对于棋力的提高是非常有帮助的。为了达到这个目标，神经网络的模型就显得太慢，还是要用传统的局部特征匹配(local pattern matching)加线性回归(logistic regression)的方法，这办法虽然不新但非常好使，几乎所有的广告推荐，竞价排名，新闻排序，都是用的它。与更为传统的基于规则的方案相比，它在吸纳了众多高手对局之后就具备了用梯度下降法自动调参的能力，所以性能提高起来会更快更省心。AlphaGo用这个办法达到了2微秒的走子速度和24.2%的走子准确率。24.2%的意思是说它的最好预测和围棋高手的下子有0.242的概率是重合的，相比之下，走棋网络在GPU上用2毫秒能达到57%的准确率。这里，我们就看到了走子速度和精度的权衡。和训练深度学习模型不同，快速走子用到了局部特征匹配，自然需要一些围棋的领域知识来选择局部特征。对此AlphaGo只提供了局部特征的数目(见Extended Table 4)，而没有说明特征的具体细节。我最近也实验了他们的办法，达到了25.1%的准确率和4-5微秒的走子速度，然而全系统整合下来并没有复现他们的水平。我感觉上24.2%并不能完全概括他们快速走子的棋力，因为只要走错关键的一步，局面判断就完全错误了；而图2(b)更能体现他们快速走子对盘面形势估计的精确度，要能达到他们图2(b)这样的水准，比简单地匹配24.2%要做更多的工作，而他们并未在文章中强调这一点。在AlphaGo有了快速走子之后，不需要走棋网络和估值网络，不借助任何深度学习和GPU的帮助，不使用增强学习，在单机上就已经达到了3d的水平(见Extended Table 7倒数第二行)，这是相当厉害的了。任何使用传统方法在单机上达到这个水平的围棋程序，都需要花费数年的时间。在AlphaGo之前，Aja Huang曾经自己写过非常不错的围棋程序，在这方面相信是有很多的积累的。3、估值网络AlphaGo的估值网络可以说是锦上添花的部分，从Fig 2(b)和Extended Table 7来看，没有它AlphaGo也不会变得太弱，至少还是会在7d-8d的水平。少了估值网络，等级分少了480分，但是少了走棋网络，等级分就会少掉800至1000分。特别有意思的是，如果只用估值网络来评估局面(2177)，那其效果还不及只用快速走子(2416)，只有将两个合起来才有更大的提高。我的猜测是，估值网络和快速走子对盘面估计是互补的，在棋局一开始时，大家下得比较和气，估值网络会比较重要；但在有复杂的死活或是对杀时，通过快速走子来估计盘面就变得更重要了。考虑到估值网络是整个系统中最难训练的部分(需要三千万局自我对局)，我猜测它是最晚做出来并且最有可能能进一步提高的。关于估值网络训练数据的生成，值得注意的是文章中的附录小字部分。与走棋网络不同，每一盘棋只取一个样本来训练以避免过拟合，不然对同一对局而言输入稍有不同而输出都相同，对训练是非常不利的。这就是为什么需要三千万局，而非三千万个盘面的原因。对于每局自我对局，取样本是很有讲究的，先用SL network保证走棋的多样性，然后随机走子，取盘面，然后用更精确的RL network走到底以得到最正确的胜负估计。当然这样做的效果比用单一网络相比好多少，我不好说。一个让我吃惊的地方是，他们完全没有做任何局部死活/对杀分析，纯粹是用暴力训练法训练出一个相当不错的估值网络。这在一定程度上说明深度卷积网络(DCNN)有自动将问题分解成子问题，并分别解决的能力。另外，我猜测他们在取训练样本时，判定最终胜负用的是中国规则。所以说三月和李世石对局的时候也要求用中国规则，不然如果换成别的规则，就需要重新训练估值网络(虽然我估计结果差距不会太大)。至于为什么一开始就用的中国规则，我的猜测是编程非常方便(我在写DarkForest的时候也是这样觉得的)。4、蒙特卡罗树搜索这部分基本用的是传统方法，没有太多可以评论的，他们用的是带先验的UCT，即先考虑DCNN认为比较好的着法，然后等到每个着法探索次数多了，选择更相信探索得来的胜率值。而DarkForest则直接选了DCNN推荐的前3或是前5的着法进行搜索。我初步试验下来效果差不多，当然他们的办法更灵活些，在允许使用大量搜索次数的情况下，他们的办法可以找到一些DCNN认为不好但却对局面至关重要的着法。一个有趣的地方是在每次搜索到叶子节点时，没有立即展开叶子节点，而是等到访问次数到达一定数目(40)才展开，这样避免产生太多的分支，分散搜索的注意力，也能节省GPU的宝贵资源，同时在展开时，对叶节点的盘面估值会更准确些。除此之外，他们也用了一些技巧，以在搜索一开始时，避免多个线程同时搜索一路变化，这部分我们在DarkForest中也注意到了，并且做了改进。5、总结总的来说，这整篇文章是一个系统性的工作，而不是一两个小点有了突破就能达到的胜利。在成功背后，是作者们，特别是两位第一作者David Silver和Aja Huang，在博士阶段及毕业以后五年以上的积累，非一朝一夕所能完成的。他们能做出AlphaGo并享有现在的荣誉，是实至名归的。从以上分析也可以看出，与之前的围棋系统相比，AlphaGo较少依赖围棋的领域知识，但还远未达到通用系统的程度。职业棋手可以在看过了寥寥几局之后明白对手的风格并采取相应策略，一位资深游戏玩家也可以在玩一个新游戏几次后很快上手，但到目前为止，人工智能系统要达到人类水平，还是需要大量样本的训练的。可以说，没有千年来众多棋手在围棋上的积累，就没有围棋AI的今天。

alphago是什么语言开发的 Android以Java为编程语言，使接口到功能，都有层出不穷的变化，其中Activity等同于J2ME的MIDlet，一个 Activity 类（class）负责创建视窗（window），一个活动中的Activity就是在 foreground（前景）模式，背景运行的程序叫做Service。两者之间.

alphago 原理以及阿尔法围棋是什么 1、据阿尔法围棋团队负责人大卫·席尔瓦（Dave Sliver）介绍，AlphaGoZero使用新的强化学习方法，让自己变成了老师。系统一开始甚至并不知道什么是围棋，只是从单一神经网络开始，通过神经网络强大的搜索算法，进行了自我对弈。 2、随着自我博弈的增加，神经网络逐渐调整，提升预测下一步的能力，最终赢得比赛。更为厉害的是，随着训练的深入，阿尔法围棋团队发现，AlphaGoZero还独立发现了游戏规则，并走出了新策略，为围棋这项古老游戏带来了新的见解。 3、阿尔法围棋（AlphaGo）是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能机器人，由谷歌（Google）旗下DeepMind公司戴密斯·哈萨比斯领衔的团队开发。其主要工作原理是“深度学习”。

alphago战胜人类选手的三个法宝 计算能力、算法和大数据。AlphaGo是一款围棋人工智能程序，由位于英国伦敦的谷歌（Google）旗下DeepMind公司的戴维·西尔弗、艾佳·黄和戴密斯·哈萨比斯与他们的团队开发，这个程序利用“价值网络”去计算局面，用“策略网络”去选择下子。alphago战胜人类选手的三个法宝是计算能力、算法和大数据。

AlphaGo 是怎么下棋的？ 本来其实不想写这个的，但是看到很多网友以及一些围棋职业选手提出了一些疑问，比如「Google 没有顶尖的棋手为什么能开发出顶尖的围棋机器人？」还有「机械为什么可以在如此直觉主导的游戏中战胜人类？」。这些问题事实上在人工智能领域已经有很多理论来做解释。而且这些理论也并不是 Google 提出的。AlphaGo 所使用的理论大多还是十余年前左右的论文的一些成果。在此之前，使用了这些理论开发出来的人工智能其实已经在 2006 年就已经在 9x9 的小棋盘上战胜周俊勋九段，之后在 2013 年 CrazyStone 程序就已经在让四子前提下战胜过石田芳夫九段，而就在去年，Facebook 的围棋机器人在不让子的前提下，胜过职业选手。至于之前「前百度深度学习研究院」的吴韧所开发的异构神机也使用的是类似的理论，也在前几天战胜过职业棋手。这些方法上，AlphaGo 并无太大创新，很大程度上是 Google 团队实现得相对完善以及训练程度更好，以及人工智能算法的实现和调参存在很大的偶然因素。那么究竟是什么方法让机械拥有了和人一样直觉，而不是简单的机械化的思考。这事我们还是要从头讲起。早在 1996 年，IBM 的深蓝计算机就战胜了国际象棋世界名将加里·卡斯帕罗夫。但象棋有一个特点，那就是每一步下的选择是相对非常有限的，最多也就十几种可能。哪怕是通过最最暴力的搜索方法，把每种都跑一遍，搜索几十步内的最优解。虽然这个方法随着搜索深度是指数级增长的，但事实上由于底数比饺小，依靠强大的算力还是可以解决的。而深蓝计算机正是这么一台拥有强大算力的超级计算机。然而在围棋上，这样就不行了，因为围棋每一步都有上百种选择，如此大的底数纯粹的暴力就显然无法满足了。至少硬件的发展并非每年成百倍成百倍地快速增长的。同样的方法，显然是不适合使用在围棋上的。在 2002 年之前，人们长期研究一个可以通过计算静态地分析出每一子的价值出来。然而这个方法的发展一直很慢。直到人们试图尝试一种动态评估一个博弈的一种方法，这就是靠猜。这个方法被称为蒙特卡洛搜索树，其前身是非常著名的上世纪曼哈顿计划期间由乌拉姆和冯·诺依曼提出的蒙特卡洛方法。如果我们想知道圆周率的值，我们如何利用猜的方法来猜出圆周率呢？我们只需要在一个方形中随机而均匀地扔飞镖，数一下，多少个飞镖扔在了以方形边长为直径的圆里，多少扔在了外面，根据圆的面积公式和方形的面积公式就能把 π 算出来。而蒙特卡洛搜索树就是利用蒙特卡洛方法来优化搜索树。简单来说，就是，我们认为这一步下在一个地方是最优的，而我们不知道这地方在哪里。我们先通过一系列随机的采样，从而去猜测一个值，这个值可能是最优解，也可能是一个接近最优解的解。但至少，这可以用来估算像围棋这样大的棋盘的东西了，而不需要把每个细枝末节都同等对待地来暴力搜索。解决完计算量的问题，我们还要来解决人类在围棋上最大的优势——直觉，或者说「大局观」。那么如何才能拥有大局观呢？我们想一下，人们在下围棋的时候，通常会先考虑下在哪个片区，以获得什么样的目的。而这就是所谓的大局观。 AlphaGo 的另一部分重要思想，得益于神经科学的发展，即人类认识人大脑神经的发展。人类愈发了解了大脑内神经元的工作模式，包括人类学习、认知的神经模型。这样的非常基础的模型，极大地方便了利用计算机来模拟人类进行学习的过程。蒙特卡洛方法只是简化了计算，并不具备学习的能力。无论是单纯的蒙特卡洛搜索还是与 α-β 搜索结合的还是和置信区间结合一些版本，都与人类能越学越强的围棋技巧相比差上太多。至少，人脑是一个极其复杂的计算模型，哪怕是现在最好的计算机，其算力和整个大脑比起来还是差很多的。在 2007 年，一些科学家试图提出一个新的机器学习模型，即所谓的深度学习。所谓深度学习，你可以看做模拟许多许多人脑中的神经元构成的一个网络。网络的每一层，针对一个特性进行识别。网络的每一层，都是一个单纯分类的无监督学习模型。你可以想像一下，人眼看到一个图像。经过一系列神经元，首先识别出了里面的眼睛、然后识别了里面的鼻子、嘴，再根据这些特性，发现这是一个人。这样依次发现的机制。而学习是通过一个有监督的反向传播进行。即告诉你这张图像里有一条狗，然后反向的一步步调整网络，让网络适应符合怎么样鼻子、嘴、眼睛的是一条狗。通过不断地数据的训练，即可以让模型越来越优。这个模型在图像识别领域已经达到甚至有时超越了人的识别能力。而 AlphaGo 使用的就是深度学习来优化蒙特卡洛搜索树。在 AlphaGo 中有两个网络，一个是策略网络，一个是价值网络。策略网络即是一个大局观的网络，机器会先通过其经验，找出其应该做出进攻的反应还是防守的反应，表现在下在哪个片区是最为合适的，是不是应该跟棋之类的大问题。然后再通过蒙特卡洛搜索树去算出具体下在哪里是最合适的。而我们说到，深度学习模型是真的和人一样可以学习的。每下一次棋，它就可以进一步调优自己的策略网络。首先 AlphaGo 导入了上千个职业选手对弈的棋谱，使得自己有了一个基础的下棋策略。这时候的 AlphaGo 就和一个受过系统训练的围棋少年一样了。然而这和职业选手的区别还是很大。这也就是所谓的「Google 没有顶尖的棋手为什么能开发出顶尖的围棋机器人？」按照一般常理，AlphaGo 应该一段一段地和人挑战，越发提高自己能力。然而 AlphaGo 不是这么做的，它选择和自己对弈。两台 AlphaGo 来对弈，将对弈的结果调优自己的网络。这个听起来很奇怪，为什么两个下得都不怎么样的棋手一起下棋，棋艺能那么快提升呢？因为它一天能和自己下上百万盘棋，它可以把自己分身成几万份跑在几万台电脑上，以及可以昼夜不停也不会过劳死，而这是任何一个人类都做不到的。AlphaGo 的开发人员说，他曾在早期能下赢 AlphaGo，而很快，AlphaGo 的水平就远超了他。所以 AlphaGo 得到了飞速的提升。仅仅五六个月，AlphaGo 就能从战胜欧洲棋王挑战到世界顶尖选手的水平了。当然搞人工智能也要有基本法。这个基本法就是算力或者说是资源。虽然做了很大的优化，计算下围棋的计算量还是很大的。比起深蓝时依靠超级计算机来解决问题。AlphaGo 选择了一条适合 Google 的路径来解决算力问题。那就是分布式计算。使用分布式计算的 AlphaGo 版本比起不使用的版本其智能程度也是有相当大的提升。即使最简单，它也可以有更多时间来做随机的尝试，以找出更优的价值解。同样利用深度学习优化蒙特卡洛搜索的 Facebook 围棋团队，相比 Google 就没有那么壕力冲天了。无论是开发资源还是人员来说也是远少于 Google。Facebook 的围棋机器人之前也取得了相当好的成绩，大概可以击败职业二段选手的水平。但是比起 AlphaGo，还是差上许多。所以说，做这么一个人智能，背后的投入程度、重视程度也起到了很大的作用。这也是为什么深度学习目前做得很好的公司大多是一些顶尖的 IT 企业里的研发团队。比起 AlphaGo 在围棋上的成就，其实大多数人很好奇人工智能未来的何去何从。从这次中，我们看到计算机已经具备了人类大局判断能力，其本质是类似于人类的学习能力，即不告诉电脑应该怎么做，而让电脑看人类是怎么做的。这项的应用其实相当广泛，尤其在非常复杂的问题上。比如说，无人驾驶汽车之前发展很困难，是因为人们总是试图去把驾驶规则完全讲给电脑，而这点太过复杂，难以用纯逻辑说清。而今天 Google 的无人驾驶汽车也是使用的类似的深度学习的技术，让计算机观察人类开车并学习，从而模仿人类的判断。最终依靠计算机强大的算力和不会疲劳等特点，甚至超越人类的判断。短期来看，利用深度学习的人工智能在未来数年内将会得到很大的应用。而这也是 Google 热衷于下围棋的原因。醉翁之意不在酒，在乎山水之间也。Google 只是想利用围棋来显示他们在深度学习应用上的先进水平。就人工智能的最终目的来看，我们已经跨出了很大的一步。之前而言，我们很大程度局限于人类强大的抽象的思考能力，而模仿人类神经系统的模型已经很好地模拟了这种思考是怎么产生的了。进一步说，如果一个机器，拥有和人完全一样的眼睛、耳朵、鼻子、触觉等作为它的输入，以及类似于人类肌肉和关节的机械部件作为它的输出。并且模拟一个和人脑一样复杂程度的神经网络，并让它观察人类进行学习。是不是在某个未来，我们可以拥有和人类功能非常接近甚至超越人类的智能的出现。深度学习都为这样的强人工智能提出了理论上的基础。

基于人工智能的alphago是什么领域的机器人 人工智能应用领域。Alphago属于人工智能应用领域中的计算机博弈，所以基于人工智能的alphago是人工智能应用领域的机器人。AlphaGo的中文名:阿尔法围棋，实质:是一个人工智能机器人。

alphago是什么语言开发的 AlphaGo是使用C++和Python编写的。

AlphaGo的神奇全靠它，详解人工神经网络! 01 Alphago在不被看好的情况下，以4比1击败了围棋世界冠军李世石，令其名震天下。随着AlphaGo知名度的不断提高，人们不禁好奇，究竟是什么使得AlphaGo得以战胜人类大脑？AlphaGo的核心依托——人工神经网络。什么是神经网络? 人工神经网络是一种模仿生物神经网络(动物的中枢神经系统，特别是大脑)的结构和功能的数学模型或计算模型。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构，是一种自适应系统。现代神经网络是一种非线性统计性数据建模工具，常用来对输入和输出间复杂的关系进行建模，或用来探索数据的模式。神经网络是一种运算模型，由大量的节点（或称“神经元”，或“单元”）和之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆。网络的输出则依网络的连接方式，权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。例如，用于手写识别的一个神经网络是被可由一个输入图像的像素被激活的一组输入神经元所定义的。在通过函数（由网络的设计者确定）进行加权和变换之后，这些神经元被激活然后被传递到其他神经元。重复这一过程，直到最后一个输出神经元被激活。这样决定了被读取的字。它的构筑理念是受到人或其他动物神经网络功能的运作启发而产生的。人工神经网络通常是通过一个基于数学统计学类型的学习方法得以优化，所以人工神经网络也是数学统计学方法的一种实际应用，通过统计学的标准数学方法我们能够得到大量的可以用函数来表达的局部结构空间，另一方面在人工智能学的人工感知领域，我们通过数学统计学的应用可以来做人工感知方面的决定问题(也就是说通过统计学的方法，人工神经网络能够类似人一样具有简单的决定能力和简单的判断能力)，这种方法比起正式的逻辑学推理演算更具有优势。人工神经网络是一个能够学习，能够总结归纳的系统，也就是说它能够通过已知数据的实验运用来学习和归纳总结。人工神经网络通过对局部情况的对照比较（而这些比较是基于不同情况下的自动学习和要实际解决问题的复杂性所决定的），它能够推理产生一个可以自动识别的系统。与之不同的基于符号系统下的学习方法，它们也具有推理功能，只是它们是建立在逻辑算法的基础上，也就是说它们之所以能够推理，基础是需要有一个推理算法则的集合。 2AlphaGo的原理回顶部 AlphaGo的原理首先，AlphaGo同优秀的选手进行了150000场比赛，通过人工神经网络找到这些比赛的模式。然后通过总结，它会预测选手在任何位置高概率进行的一切可能。AlphaGo的设计师通过让其反复的和早期版本的自己对战来提高神经网络，使其逐步提高获胜的机会。从广义上讲，神经网络是一个非常复杂的数学模型，通过对其高达数百万参数的调整来改变的它的行为。神经网络学习的意思是，电脑一直持续对其参数进行微小的调整，来尝试使其不断进行微小的改进。在学习的第一阶段，神经网络提高模仿选手下棋的概率。在第二阶段，它增加自我发挥，赢得比赛的概率。反复对极其复杂的功能进行微小的调整，听起来十分疯狂，但是如果有足够长的时间，足够快的计算能力，非常好的网络实施起来并不苦难。并且这些调整都是自动进行的。经过这两个阶段的训练，神经网络就可以同围棋业余爱好者下一盘不错的棋了。但对于职业来讲，它还有很长的路要走。在某种意义上，它并不思考每一手之后的几步棋，而是通过对未来结果的推算来决定下在哪里。为了达到职业级别，AlphaGp需要一种新的估算方法。为了克服这一障碍，研究人员采取的办法是让它反复的和自己进行对战，以此来使其不断其对于胜利的估算能力。尽可能的提高每一步的获胜概率。（在实践中，AlphaGo对这个想法进行了稍微复杂的调整。）然后，AlphaGo再结合多线程来使用这一方法进行下棋。我们可以看到，AlphaGo的评估系统并没有基于太多的围棋知识，通过分析现有的无数场比赛的棋谱，以及无数次的自我对战练习，AlphaGo的神经网络进行了数以十亿计的微小调整，即便每次只是一个很小的增量改进。这些调整帮助AlphaGp建立了一个估值系统，这和那些出色围棋选手的直觉相似，对于棋盘上的每一步棋都了如指掌。此外AlphaGo也使用搜索和优化的思想，再加上神经网络的学习功能，这两者有助于找到棋盘上更好的位置。这也是目前AlphaGo能够高水平发挥的原因。 3神经网络的延伸和限制回顶部神经网络的延伸和限制神经网络的这种能力也可以被用在其他方面，比如让神经网络学习一种艺术风格，然后再将这种风格应用到其他图像上。这种想法很简单：首先让神经网络接触到大量的图像，然后来确认这些图像的风格，接着将新的图像带入这种风格。这虽然不是伟大的艺术，但它仍然是一个显著的利用神经网络来捕捉直觉并且应用在其他地方的例子。在过去的几年中，神经网络在许多领域被用来捕捉直觉和模式识别。许多项目使用神经这些网络，涉及的任务如识别艺术风格或好的视频游戏的发展战略。但也有非常不同的网络模拟的直觉惊人的例子，比如语音和自然语言。由于这种多样性，我看到AlphaGo本身不是一个革命性的突破，而是作为一个极其重要的发展前沿：建立系统，可以捕捉的直觉和学会识别模式的能力。此前计算机科学家们已经做了几十年，没有取得长足的进展。但现在，神经网络的成功已经大大扩大，我们可以利用电脑攻击范围内的潜在问题。事实上，目前现有的神经网络的理解能力是非常差的。神经网络很容易被愚弄。用神经网络识别图像是一个不错的手段。但是实验证明，通过对图像进行细微的改动，就可以愚弄图像。例如，下面的图像左边的图是原始图，研究人员对中间的图像进行了微小的调整后，神经网络就无法区分了，就将原图显示了出来。另一个限制是，现有的系统往往需要许多模型来学习。例如，AlphaGo从150000场对战来学习。这是一个很庞大额度数字！很多情况下，显然无法提供如此庞大的模型案例。

怎么看待AlphaGo战胜李世石 偶然

AlphaGo凭什么再胜世界围棋第一人 在13日结束的AlphaGo与李世石五番棋对决中的第四局，李世石胜出。连败三局之后，人类终于扳回一局。但这场胜利来得有些迟，AlphaGo此前已经痛快得赢得这场人机大赛的胜利。这场生生夺走一周眼球的人机围棋大战，人们最想追问的是，AlphaGo为什么能战胜人类？赛前，无论是职业棋手还是科技界，并不看好机器胜利机器赢了人类，这个结果让无数人感到吃惊与意外。在这场比赛开始前，很多职业棋手认为 AlphaGo 不可能赢得比赛。棋圣聂卫平在赛前下定论认为：电脑和人下围棋，百分之百是人赢。而科技界对 AlphaGo 是否能赢得比赛表示谨慎看好，并没有十足信心。这从 AlphaGo 创始人德米什 · 哈萨比斯（Demis Hassabis）在第二场比赛结束后的发言可以看出，他当时认为 AlphaGo 的胜利难以置信。在与李世石对弈前，AlphaGo 于去年 10 月与欧洲围棋冠军樊麾进行了对弈，以 5：0 战胜了樊麾，而在非正式对局当中, 樊麾则 2 次中盘战胜了 AlphaGo。这也被外界认为 AlphaGo 很难战胜李世石的原因。樊麾的等级为职业棋手二段，李世石为职业九段。围棋界公认，这两人的围棋水平为：樊麾是踏在了职业门槛，而李世石则是职业顶尖，前围棋世界第一人，代表了人类围棋最高水平。但仅仅过了 5 个月，AlphaGo 在五番棋中以 3：0 战胜了李世石，并且在比赛过程中下出了很多令专业人士都非常惊讶的妙手。很多关注人机大战的人都想要知道一个问题：Google是怎么设计AlphaGo的？比如，AlphaGo 的运行机理是什么？进入自我学习的阶段之后，谷歌团队是否还需要人工对其进行不断的人工优化、改良以及提升？还是完全凭借其自身的学习能力来提升？最近两天，DoNews 记者在 Twitter 上就该问题向德米什 · 哈萨比斯进行了两次提问，但德米什 · 哈萨比斯没有进行回应。在对外公布的所有信息中，包括其在《Nature》上发表过的两篇论文中，都只提到了他们的 AlphaGo 能够做什么，都没有透露 AlphaGo 的运行机制是什么，即 AlphaGo 到底是怎么做到的。德米什 · 哈萨比斯仅透露，就 AlphaGo 的对弈水平而言，他们的神经网络训练算法远比它使用的那些硬件重要得多。此外，这次人机对战所消耗的计算量差不多与 AlphaGo 和樊辉对弈中消耗的相当，使用的是分布式方案搜寻，能有效节省决策用时。人工智能战胜人类，为何引起这么多关注？围棋这项发源于中国的有两千年历史的智力游戏，曾被认为是最后一个人工智能不能超越人类的游戏。围棋游戏的规则是：棋盘由纵横各十九条等距离、垂直交叉的平行线构成。形成 361 个交叉点，在围棋中简称为 “点”。对局双方各执一色棋子，轮流下子，最后谁占的点多，谁就赢。虽然围棋规则简单，但建立在此规则之上的各种策略、棋理、布局、定式、手筋、手段，却是无穷无尽的。聂卫平曾解释了其中的原因，围棋棋盘上有 361 个点，其理论变化值是 361 阶乘，阶乘到底本身就是一个无限大的数，无法表达。比如，棋手在下第一手时有 361 个点可以选，下第二手有 360 个点，第三手是 359，361×360×359×……2×1，即 361 阶乘。（有数据统计，结果约是 1.43 乘以 10 的 768 次方。）这个数字有多大呢？Google 灵感来源于一个单词 Googol，以表示知识之海无穷无尽。Googol 代表 “10 的 100 次方”，这个数字是人类目前最有想象力的数字。即使人类已知宇宙中原子数量，也不过是 10 的 80 次方。同时，在围棋对弈中，还包含着很多变化：打二还一，打三还一，打劫，倒扑等，每一种变化都会衍生出无数的变化。在下棋过程中，棋手需要有一种判断。而此前，电脑被认为无法承担这种判断，因为这不是计算就能够完成的。AlphaGo 是怎么做到的?AlphaGo 结合了 3 大块技术：蒙特卡洛树搜索 (MCTS) 是大框架，这也是很多博弈 AI 都会用的算法；强化学习 (RL) 是学习方法，用来提升 AI 的实力；深度神经网络 (DNN) 是工具，用来拟合局面评估函数和策略函数。我们在这里用比较通俗的语言来解释一下：棋盘上有 361 个点，AlphaGo 会进行一层层分析：下在哪个点或区域是有利的？这时它会参考输入的过往的棋谱，对局和模拟，进行选择、推演，并对推演结果进行估值。AlphaGo 能够理解会根据“赢”这个目标来进行估值，选择出一个对“赢”足够优的解。围棋？AI 能超越人类的还有很多.AlphaGo 的胜利，引发了大讨论。因为人类开始面临着一个前所未有的情况：人类造出了，在智能的某个点上，超越自己的东西。通过黑白纹枰上的胜利，AI 已经在人类的智力围墙打开了第一个缺口，但这绝非最后一个。在过往漫长的岁月里，机器都只是人类劳动的一种替代与工具，无论飞机、汽车、起重机还是电子计算机、互联网，尽管看上去有着无限的能力，但却从未侵入由人类大脑所把持的领域——“创造”。而随着 AlphaGo 的胜利，这一天或许将成为历史。实际上，过去几天，这台人工智能在围棋盘上发挥的创造能力，已经超越了人类两千年于此道上积累的智慧结晶。如果我们检索人类的“资源库”，会发现，复杂程度超越围棋的智力行为并不多见。这也意味着很多传统人类脑力劳动的形态，发生改变。很多从事创作、设计、推演、归纳的工作，都将被 AI 部分替代。如果将思路拓展出去，可以应用在音乐的创作，等其他类似于元素组合式的创造，从某中意义上说，它能够击败围棋的顶尖高手，也就有可能让人难辨真假的音乐和旋律。甚至做出更多我们想不到的事情。按照德米什 · 哈萨比斯的设想，人工智能未来的主要用途将是医疗、智能助理和机器人。而人们通过这次比赛担忧的是，如果人工智能拥有创造性的思维，加上远超出人类的运算能力，是否有一天会统治人类。就像网友评论里说的段子一样，“第四局AlphaGo输了，是不是AlphaGo故意输的？细思极恐”。

AlphaGo 的“前世今生” 1996 年 2 月，在美国费城举行了一项别开生面的国际象棋比赛，报名参加比赛者包括了“深蓝”计算机和当时世界棋王卡斯帕罗夫。比赛最后一天，世界棋王卡斯帕罗夫对垒“深蓝”计算机。在这场人机对弈的6局比赛中，棋王卡斯帕罗夫以 4：2 战胜计算机“深蓝”，获得 40 万美元高额奖金。人胜计算机，首次国际象棋人机大战落下帷幕。比赛在 2 月 17 日结束。其後研究小组把深蓝加以改良。次年，也就是1997 年 5 月 11 日，在人与计算机之间挑战赛的历史上可以说是历史性的一天。计算机在正常时限的比赛中首次击败了等级分排名世界第一的棋手。加里·卡斯帕罗夫以 2.5:3.5 （1胜2负3平）输给 IBM 的计算机程序 “深蓝”。机器的胜利标志着国际象棋历史的新时代。其中，比赛的转折点出现在第二局。卡斯帕罗夫第一局获胜，感觉很好。但在第二局中，双方却打得不可开交。在第 36 步棋时，电脑的做法让卡斯帕罗夫不寒而栗。在当时的情况下，几乎所有顶尖国际象棋程序都会攻击卡斯帕罗夫暴露在外的皇后，但深蓝却走出了一步更为狡猾的棋，最终的效果也更好。这令卡斯帕罗夫对电脑另眼相看。对卡斯帕罗夫和所有旁观者来说，深蓝突然不再像电脑一样下棋（它顶住诱惑，没有攻击皇后），反而采取了只有最聪明的人类大师级选手才有可能使用的策略。通过在卡斯帕罗夫面前深藏不漏，IBM成功让人类低估了它的水平。他的斗志和体力在随后3局被拖垮，在决胜局中，仅 19 步就宣布放弃。后来，IBM拒绝了卡斯帕罗夫的再战请求，拆卸了“深蓝”。卡斯帕罗夫虽然后来多次挑战电脑战平，却无法找“深蓝”“复仇”，留下永久的遗憾。在今天看来，“深蓝”还算不上智能，它主要依靠强大的计算能力穷举所有路数来选择最佳策略：“深蓝”靠硬算可以预判 12 步，卡斯帕罗夫可以预判 10 步，两者高下立现。在 AlphaGo 诞生之前，计算机在除围棋之外，几乎所有棋类游戏上战胜了人类，唯独围棋没有被攻克，为什么呢？围棋游戏只有两个非常简单的规则，而其复杂性却是难以想象的，一共有 10 的 170 次方种可能性，这个数字之大，以至于用当今世界最强大的计算系统，算几十年也算不完，是没有办法穷举出围棋所有的可能结果的。所以，计算机需要一种更加聪明的方法。直到 2016 年，AlphaGo 第一版发表在了 Nature 自然杂志上，这可是牛逼得不要不要的期刊。而刚过去一年，Google DeepMind 又在 Nature 上发表了一篇 AlphaGo 的改进版——AlphaGo Zero，同样的围棋 AI，竟然在自然杂志上发了两次！可见他们的实力！ AlphaGo 战胜过欧洲冠军樊麾，韩国九段棋手李世石，而后又赢了世界冠军柯洁，种种迹象表明，人类已经失守最拿手的围棋了。这些围棋高手一个个都表示 AlphaGo 走到了他们想不到的地方，战胜了人类的生物极限。那 AlphaGo 又是怎么在策略上战胜人类的呢？很简单，它会做计划。阿尔法狗（AlphaGo）是通过两个不同神经网络合作来改进下棋。这就像有两个导师，每个都是多层神经网络。它们从多层启发式二维过滤器开始，去处理围棋棋盘的定位，就像图片分类器网络处理图片一样。经过过滤，13 个完全连接的神经网络层产生对它们看到的局面判断。这些层能够做分类和逻辑推理。这些网络通过反复训练来检查结果，再去校对调整参数，去让下次执行更好。这个处理器有大量的随机性元素，所以人们是不可能精确知道网络是如何“思考”的，但更多的训练后能让它进化到更好。导师1号：策略网络（Policy network） AlphaGo 的第一个神经网络大脑是“策略网络（Policy Network）”，观察棋盘布局企图找到最佳的下一步。事实上，它预测每一个合法下一步的最佳概率，那么最前面猜测的就是那个概率最高的。这可以理解成“落子选择器”。 AlphaGo 团队首先利用几万局专业棋手对局的棋谱来训练系统，得到初步的“策略网络”。训练“策略网络”时，采用“深度学习”算法，基于全局特征和深度卷积网络 (CNN) 来训练，其主要作用是给定当前盘面状态作为输入，输出下一步棋在棋盘其它空地上的落子概率。接下来，AlphaGo 采用左右互搏的模式，不同版本的 AlphaGo 相互之间下了 3000 万盘棋，利用人工智能中的“深度增强学习”算法，利用每盘棋的胜负来学习，不断优化和升级“策略网络”，同时建立了一个可以对当前局面估计白棋和黑棋胜率的“价值网络”。导师2号：价值网络（Value network） AlphaGo 的第二个大脑相对于落子选择器是回答另一个问题。不是去猜测具体下一步，它预测每一个棋手赢棋的可能，在给定棋子位置情况下。这个局面评估器就是 “价值网络（Value Network）” ，通过整体局面判断来辅助落子选择器。然后，AlphaGo 通过吸收人类几千年来优秀的棋谱，不断学习优化策略网络和价值网络，从而战胜了欧洲冠军樊麾，韩国九段棋手李世石，而后又赢了世界冠军柯洁。实际对局时，AlphaGo 通过“蒙特卡罗树搜索”来管理整个对弈的搜索过程。首先，通过“策略网络”，AlphaGo 可以优先搜索本方最有可能落子的点（通常低于10个）。对每种可能再通过“估值网络”评估胜率，分析需要更进一步展开搜索和演算的局面。综合这几种工具，辅以超级强大的并行运算能力，AlphaGo 在推演棋局变化和寻找妙招方面的能力，已经远超人类棋手。根据资料，最高配置的 AlphaGo 分布式版本，配置了 1920 个 CPU 和 280 个 GPU，同时可以跑 64 个搜索线程，这样的计算速度就好像有几十个九段高手同时在想棋，还有几十个三段棋手帮着把一些难以判断的局面直接下到最后，拿出结论，某一位人类棋手要与对抗，确实难以企及。但是，这并不是重点。终于说到重点了~~ Zero 英文意思是：零。除了围棋最基本规则（棋盘的几何学定义，轮流落子规则，终局输赢计算，打劫等），它就是一张白纸。放弃参考任何人类棋谱，完全自我学习。如果你和一个有人类老师的 AlphaGo 交手，那可能还会在它背后看到人类下棋的影子。但是 AlphaGo Zero，完全是一个无师自通的家伙，和它下棋，你可能闻到很浓烈的机械味。但从另一方面想，这样的 AlphaGo 打破了数千年来人类下棋思维的限制，探索了人类想不到的下棋境界，学会了一个崭新的下棋方式。仅仅经过 3 天的训练后，这套系统已经可以击败 AlphaGo Lee，也就是击败韩国顶尖棋手李世石的那套系统，而且比分高达100：0。经过 40 天训练后，它总计运行了大约 2900 万次自我对弈，使得 AlphaGo Zero 击败 AlphaGo Master，也就是击败世界冠军柯洁的系统，比分为 89：11。要知道职业围棋选手一生中的正式比赛也就一千多局，而 AlphaGo Zero 却进行了 2900 万次对局。在技术层面来说，AlphaGo Zero 使用的不再是之前提到的两套神经网络系统，而是将它们融合成一个神经网络系统，这样做能更有效利用资源，学习效果更好。其关键在于采用了新的 Reinforcement Learning（强化学习），并给该算法带了新的发展。而且，它不再仅仅使用 GPU，转而添加了自家的专门为机器学习打造的 TPU，而且使用的硬件个数也在逐步降低，然而学习的效果却不断上升。在短短 40 天没有老师教的训练中，AlphaGo Zero 超越了他所有的前辈，在这个时候，我相信它真正做到了在围棋场上无人能敌了。最后，正如 AlphaGo 之父 David Silver 所说，一个无师自通 AlphaGo 的产生，并不仅仅意味着我们的 AI 能在围棋场上战胜人类，放眼未来，它还意味着，在更多方面，我们能用这样的 AI 创造出更多人类历史上的新篇章。围棋场上，无论谁赢，最终获胜的都是人类自己。

alphago为什么会下象棋 alphago导入了上千个职业选手对弈的棋谱，使得自己有了一个基础的下棋策略会下象棋。根据相关信息查询显示，AlphaGo就和一个受过系统训练的围棋少年一样。然而这和职业选手的区别还是很大。这也就是所谓的「Google没有顶尖的棋手为什么能开发出顶尖的围棋机器人」按照一般常理，AlphaGo应该一段一段地和人挑战，越发提高自己能力。然而AlphaGo不是这么做的，它选择和自己对弈。两台AlphaGo来对弈，将对弈的结果调优自己的网络。这个听起来很奇怪，为什么两个下得都不怎么样的棋手一起下棋，棋艺能那么快提升呢因为它一天能和自己下上百万盘棋，它可以把自己分身成几万份跑在几万台电脑上，以及可以昼夜不停也不会过劳死，而这是任何一个人类都做不到的。AlphaGo的开发人员说，他曾在早期能下赢AlphaGo，而很快，AlphaGo的水平就远超了他。所以AlphaGo得到了飞速的提升。仅仅五六个月，AlphaGo就能从战胜欧洲棋王挑战到世界顶尖选手的水平了。

给你科普一下，为何AlphaGo这么牛？ AlphaGo依靠精确的专家评估系统（value network）、基于海量数据的深度神经网络（policy network），及传统的人工智能方法蒙特卡洛树搜索的组合，以及可以通过左右互搏提高自己的水平，这个真的是有的恐怖了有木有。李世石九段固然厉害，可人类毕竟是动物，机器软件程序是无休止的工作，这一点也是客观因素了。AlphaGo依靠精确的专家评估系统（value network）、基于海量数据的深度神经网络（policy network），及传统的人工智能方法蒙特卡洛树搜索的组合，以及可以通过左右互搏提高自己的水平，这个真的是有的恐怖了有木有。李世石九段固然厉害，可人类毕竟是动物，机器软件程序是无休止的工作，这一点也是客观因素了。比赛已经结束了，李世石一比四不敌alphago。有一种观点人为，只要下AlphaGo棋谱中所未记载的招数就能获胜，哪怕这些下法根本不符合围棋棋理。这种做法的可行性并不高。AlphaGo并非是对人类棋手弈棋棋谱记忆后的简单再现，而是具备了一定模拟人类神经网络的“思考”能力，既不是像过去那样采用穷举法寻找最有选项，也不是复制棋谱中所记载的定势或手筋。而是会对选择进行“思考”，删除那些胜率低的选择，并对具有高胜率的选项进行深度“思考”，最终从无数个落子的选择中基于自己的“思考”选择一个最优项。因此，若是人类棋手想凭借下几步不符合围棋棋理，或未被棋谱记载的围棋下法，就轻而易举战胜AlphaGo的可能性并不高。因为AlphaGo是人工智能，而不是一台只会复制人类棋手招数的机器。

为何说AlphaGo不是狗而是人类的老师？ 根据报道，几年前当计算机击败人类国际象棋顶尖高手时，就有很多专家表态，说计算机或人工智能不可能战胜人类围棋顶尖高手，因为围棋的变化比国际象棋多无数倍，考虑到布局、弃子、打劫、循环劫等变数，围棋的变化可谓无穷无尽，因此，依赖既定程序和数据记忆的计算机或人工智能，难以战胜具有主观能动性和随机应变能力的人类围棋高手。AlphaGo中文翻译名叫做“阿尔法狗”，这个中文名听起来有几分亲切，此番“人狗大战”开战之前，柯洁曾豪气万丈地表示，要代表人类打败这只狗。在三打两胜制中已然落败的柯洁，也不敢再说大话，而是改口称AlphaGo为“上帝”了。一向狂傲的聂卫平，这次面对“阿尔法狗”也变得谦逊了，开始称其为“老师”。当AlphaGo对柯洁第二局下出“并”的妙手时，聂卫平感叹，“阿老师的招太牛了，这个并我下辈子都想不到。柯洁想赢估计只能靠找到bug，或者我们派人去拔个电源什么的。”有专家表示称，在这几次“人狗大战”中，AlphaGo的一些行棋之术，也体现了某种随机应变的“创造性”，它的不少下法，是此前人类棋手未用过的。因此，我建议人类别把AlphaGo当成一只简单的狗，而应该尊其为老师。目前看来，对计算机或人工智能心存敬畏，不是坏事。

拥抱人工智能第三次浪潮:Alphago是如何战胜人类棋手的? AlphaGo 是由 Google DeepMind 开发的一款能够下围棋的人工智能计算机程序。它在 2016 年以 4 : 1 的成绩战胜了世界顶级棋手李世石，引领了人工智能的第三次浪潮。AlphaGo 可以战胜人类棋手主要归功于以下两点：深度神经网络学习： AlphaGo 首先通过大量的围棋数据和人类棋谱进行学习，形成自己的围棋知识库。它使用了深度神经网络的算法，自动学习感知棋局的特征，并且通过强化学习算法，自我完善，不断优化自身的决策策略。蒙特卡罗树搜索算法： AlphaGo 在进行下棋决策时，采用了蒙特卡罗树搜索算法。简单来说，就是对目前的棋局进行大量的模拟和尝试，并且根据已经学习到的知识和策略进行决策选择。这个过程重复进行，直到得到最优解。这种方法可以避免遇到局限性很高的固定模式，同时也充分考虑了要与对手的下棋思维彼此博弈的策略。当然，AlphaGo的胜利其实也代表了人工智能技术的一种里程碑式的突破，为人工智能的发展开辟了新的境界。

“alphago属于哪个流派” alphago属于是物联网流派。采用RFID技术，用感应天线识别电子标签，缺点在于识别效果极不稳定和成本随销量正向增加。

AlphaGo到底是怎么赢的 它有一种学习的功能，和别人下棋会学到别人下棋的方法。其实阿尔法狗对战柯杰就相当于在网上和阿尔法狗下过的千千万万的人一起对战柯杰

完胜人类后AlphaGo为何要从棋坛退役？ 根据报道，在5月27日“人机大战” 第三场比赛中，柯洁由于状态不佳，被 AlphaGo 拖入缠斗之后无奈宣布放弃。最终，AlphaGo 以 3：0 的成绩赢下本次乌镇围棋峰会比赛。对于 AlphaGo 的表现，“棋圣” 聂卫平现场点评：“人类目前最高也就九段，AlphaGo 至少二十段。”随后，AlphaGo 之父、DeepMind 创始人 Demis Hassabis 就公布了一个不太好的消息：“乌镇围棋峰会是它（AlphaGo）作为一个竞技程序所能企及的巅峰。因此，此次峰会将是 AlphaGo 参加的最后一场赛事”，而这也意味着 AlphaGo 将从棋坛 “退役”。但是这并不意味着 AlphaGo 将永远退出竞技舞台。去年，DeepMind 就已经宣布《星际争霸 2》将会是 AlphaGo 在围棋想要征服的下一个目标。在去年 11 月份，DeepMind 还曾与暴雪公司联手打造一款免费的 API，来帮助研究人员测试《星际争霸 2》人工智能算法。

AlphaGo英文怎么读 阿尔法够

猜你想看

yvonne fuli mesa fukuda alphard pathos myfriend debated rumor alps vcm cierre debbie debby fullmoon BLASE wiper iraq

大家在看

hamada posh koji avcc yammy proposes lingos lingoes mojave vimicro pentile wannacry veggie veggieg serto turnup netants turnto