第798章 图灵测试
第798章 图灵测试
听到这里,原本神色平静的大BOSS们,脸上终于露出了郑重。
能坐在这里的都是聪明人。
他们都能从徐良的话里听出大数据应用的真实性。
“不过,大数据和云计算只是基础,真正带来行业变革的是人工智能。
我相信很多人都听过‘图灵测试’。
让一台机器和一个人坐在幕后,让一个裁判同时与幕后的人和机器进行交流,如果这个裁判无法判断自己交流的对象是人还是机器。
这就说明这台机器有了和人同等的智能。
这便是大名鼎鼎的‘图灵测试’的全部内容。
计算机科学家们认为,如果计算机实现了五件事,就可以认为它拥有图灵所说的那种智能。
第一,语音识别。
第二,机器翻译。
第三,文本的自动摘要或者写作。
第四,战胜人类的国际象棋冠军。
第五,自动回答问题。
对于怎么实现这五件事,学术界分为传统人工智能的方法和现代其它的方法。
那么传统的人工智能方法是什么呢?
简单讲,就是先了解人类是如何产生智能的,然后让计算机按照人的思路去做。
这种方法又称为‘鸟飞派’。
就像人类观察鸟的飞行,发明了飞机。
观察鱼的游行发明了潜艇一样。
通过模拟进而发明。
但后来经过多年研究证明,这种方法非常不现实。
因为机器始终是机器,永远不可能像人那样思考。
科学家们不得不另辟蹊径。
到了20世纪70年代,大家开始尝试机器智能的另一条发展路径。
即,用数据驱动和超级计算的方法,来实现人工智能。
这种方法又称为机器学习或者知识发现,也就是我们之前说的现代的人工智能发展方式。
最早在这方面做出成果的是1972年美国康奈尔大学的教授——弗雷德·贾里尼克。
他不是人工智能专家,他是一位卓越的通信专家。
他认为人的大脑是一个信息源,从思考到找到合适的语句,再通过发音说出来,是一個编码的过程。
经过媒介(声道、空气等)传播到听众的耳朵里,是经过了一个长长的信道的信息传播问题。
最后听话人把它听懂,是一个解码的过程。
也就是说,他认为人工智能的语音识别,是一个典型的通信问题。
可以用解决通信问题的方法来解决。
为此贾里尼克用了两个数学模型,即马尔科夫模型,分别描述信息源和信道。
找到了数学模型后,下一步就是用统计的方法‘训练出’模型的参数,这在今天来讲就是机器学习。
通过这种方法,人工智能的语音识别率从过去的70%左右,提高到了90%。
同时语音识别的规模,从几百词上升到了两万多词,堪称革命性的发展。
最重要的是贾里尼克的研究得出一个结论。
即:
随着数据量的不断提升,系统会变得越来越好。
因此,国际上的人工智能研究分成了两派。
一派是模仿人的鸟飞派,一派是数据驱动派。
而后者之所以没有迅速发展起来,主要是因为数据获取非常困难。
第一,当时没有机读资料。
第二,很多文学明珠不同版本分散在不同国家,并且其翻译常常不是一一对应。
当然还有很多其它原因就不一一细说了。
但,这个困难在互联网时代被改变了。
它的出现,让研究机构可以轻易获得全球的机读资料。
而且数据量还在随着互联网的发展,每年呈几倍,甚至十几倍的增长。
在庞大的数据支持下,从1994年到2004年的十年里,语音识别的错误率减少了一半。
而机器翻译的准确性提高了一倍。
其中20%的贡献来自方法的改进,80%来自数据量的提升。
再就是今年2月份,在美国召开的全球机器翻译系统大赛。
鸿蒙和Google通过数据驱动的方法,取得了50%以上的BLEU分数。
比著名的南加州大学、IBM沃森实验室等研究机器翻译几十年的顶尖研究机构领先了5%。
而提高这五个百分点在过去需要研究5~10年的时间。
在中文到英文的翻译中,鸿蒙的得分比第三名领先了17%,同样采用数据驱动方法的Google比第二名领先了15%,这个差距已经超出了一代人的水平。
而鸿蒙和Google都是成立不超过十年的新公司。
在人工智能研发上的底蕴肯定没有南加州和沃森实验室深厚。
但我们却超过了他们。
原因是我们比他们更优秀吗?
不是。
那么差距是怎么产生的?
很简单。
作为全球最大的两个搜索公司,鸿蒙必应和Google都