第1949章 成精
特德姜讲了一个堪比他写的科幻小说般的故事。
“这个事情我是从一个计算机科学家朋友大卫·克里赛尔那里听到的,他接到锝国一家建筑公司的求助,说他们公司的施乐复印机出现了一些奇怪的问题。当他们在复印一个房子的平面图时,副本和原件之间总是会存在微小但无法忽视的差异。原件中,每栋房子的三个房间都有个矩形来说明它们的面积,房间分别是14.13平方米、21.11平方米和17.42平方米。然而在复印件中,所有三个房间都被标记成14.13平方米。”
刘玉琨听过这个故事,露出神秘的微笑。
李睿和妲露拉却觉得不可思议,复印机不就是应该把原件原原本本的复印下来吗,为什么复印件会和原件之间出现如此奇怪的差异呢?
如果不是内部程序出了问题,就只能是复印机成精了?
特德姜继续道:“那家公司对复印机进行了全方位的检查,没有发现任何问题,最后只能求助于大卫。大卫去看了一下,发现这是一台采用了数字扫描文档然后打印生成图像文件的现代复印机,而在扫描和打印的过程之间,复印机内部程序会把每个数字图像文件进行压缩,问题就出现在压缩环节中。”
“我们都知道,压缩分为两种,一种是无损压缩,另外一种是有损压缩。无损压缩恢复的文件和原始文件相同,而有损压缩恢复的文件只是原始文件的近似值。这台施乐复印机使用了一种被称为jbig2的有损压缩格式,是一种专为黑白图像而设计的,非常节省空间的技术格式,复印机会识别图像中看起来相似的区域,并将所有这类区域存储成一份副本。当文件被解压时,复印机会重复使用该副本来重建映像。结果就是,复印机判断出指定房间面积的标签非常相似,所以它只需要存储其中那个14.13平方米的房间,并且在打印时,对所有三个房间都重复使用这一个标签。”
“原来如此。”李睿和妲露拉明白了。
看来不是复印机成精了,还是内部程序的设计有问题。
看上去,一台复印机疑似成精的故事和人工智能之间没什么直接联系,复印机内部采用的压缩技术,才是这个故事的关键。
特德姜继续道:“大卫把这个问题指出来,并且联系了施乐的工程师,想必他们很快就会通过补丁来解决这个bug,而我则从这个故事中,发散想到了其他的问题。我们一直认为复印机只是完整的复制原件,但在数字时代,它却采用了一种微妙而模糊的方式来解决复制问题,它制造的副本看起来准确,实际上并不准确。我们正在研究的人工智能,是不是也可以采用类似的方式来发展呢?”
“发展不准确的复制?”妲露拉惊讶的问道。
特德姜笑了:“当然不是。”
他顿了顿解释道:“据我所知,微软谷歌还有其他一些公司正在研究语言模型,希望人类和机器能够通过某种方式进行沟通和对话,这就需要为机器准备极为庞大的数据库,最好是能够把整个万维网储存下来供机器调用。”
“那是不可能的。”妲露拉摇头道。
特德姜道:“确实不可能,但如果是采用压缩技术,尤其是有损压缩的技术,还是有可能的。这需要编写一个有损算法来识别所有数据中的统计规律,就可以把所有数据信息储存下来,供机器学习和使用。唯一的问题是,由于数据被高度压缩,机器无法通过搜索准确的引用来查找信息,就无法得到一个精确的匹配,只能通过一些要点来进行响应。”
“chatgpt……不,应该是问心义言……”李睿小声咕哝着。
“你说什么?”特德姜问。
李睿摇头道:“没什么。”心中却翻滚着巨浪,原来这么早就有人提出了类chatgpt的概念了。
特德姜继续道:“我相信通过类似的技术,人类会在不久的将来得到一种能够对话的人工智能,它保留了万维网上绝大部分的信息,但它无法精确的回答一个问题,而只能在数据库中搜索到一个近似值,再用独特的创建语法文本的技术来展现答案。这个答案会让你觉得还不错,但仔细思考的话,其实经不起推敲,这就是人工智能会在压缩、搜索、展现环节遇到的关键问题,谁能先解决这些问题,谁就有可能在这个领域先行一步。”
十年后,当最初的一批人工智能模型出现时,有的技惊四座,比如chatgpt,有的丢人现眼,比如问心义言。
前世李睿其实不清楚他们的差距到底在什么地方,现在听了特德姜的讲解,才大概有了一些了解。
问心义言那种乱七八糟的回答不知是哪个环节出现了问题,但chatgpt确实在数据的采用和文本的创建上有独特的技术,也就难怪一问世就让所有人目瞪口呆了。
刘玉琨一旁道:“我的想法是,人类永远都应该更相信自己,而不是压缩之后又复制的人工智能。”
李睿点头。
chatgpt的确令人惊艳,但最初的几个版本依然存在大量问题,很多问题看起来回答的十分精彩,可如果认真搜集资料对比的话,会发现其中错漏百出。