重生之乘风而起 第两千三百九十九章 让研究浪漫起来
搞完这些又花了近一个小时,周至也就懒得回卧室了,按照老习惯,朝座位边的大卧榻上一倒完事儿。
接下来的两天里,周至带着麦小苗开始熟悉甲骨缀合项目和数字图书馆的图数据库架构。
这两个项目也是接下来会契合细胞类神经网络实验研究的重点。
甲骨缀合项目最早源于瀚文大字库图片字转矢量字的自动识别技术,以及字根解构与拼合技术,这两个子项目的成功,也给瀚文大字库的研发节约了大量的时间,尤其是二期与三期项目,几乎是拿到两位老师兄《字海》的卡片后,在极短的时间内就完成了识别,输入,矢量化,入库等工作。
也由于二期字库的极快丰富,直接封杀了港岛、新岛、湾岛甚至岛国等汉字使用区想要自主研发全码字库的可能,吸引了日韩两国派遣工作组来“共襄盛举”,最终让瀚文大字库成为了全球唯一且统一的汉语言字符大字库。
这些技术当然不会在完成大字库研发后就束之高阁,而是继续深化发展,很快周至又给它们找到了应用场景,那就是甲骨缀合。
于是之前的两个技术,也就发展成了边缘识别契合算法和变化字根通合算法。
这两个算法说起来倒是简单,就是实现部分人眼和人脑的功能。
前一个算法就是不管图片上的碎片是大是小,位置如何,角度如何,也能够让计算机识别出其边缘特征,并且将之与数据库当中其余碎片的边缘特征进行匹配,如果找到匹配得上的位置,就会尝试进行甲骨的拼合。
拼合好之后的甲骨,上面的文字往往就从寥寥几个不明含义的散字变成一段话,很多隐藏在碎片当中的历史信息就会第一次呈现在研究者们的面前。
价值当然不言而喻。
而第二个算法就更加的离散和非线性了。
甲骨文字虽然已经十分成熟,但是其流行的历史时间相当长,且组字的时候并没有固定的结构,因此往往一个字,多达数十种写法。
比如步,其实就是一个左脚和一个右脚的字根,这两个字根的写法就有很多种,有繁有简,而这两个字根被贞人将之刻到甲骨上组合成“步”字以后,其位置关系和角度关系可谓五花八门。
对于经过训练的人类来说,这两个字根只要刻得大差不差,脑子当中很自然地就会冒出这种概念:这个是左脚,这个是右脚。
然后只要两个字根摆放在一起,大致上下交错就行,脑子就会自然而然地冒出另一个概念:嗯,这大概率是一个“步”字。
但是这样的思维活动,对于目前的计算机技术来讲,就显得过于的“高级”了,因为现在的计算机技术,主要还在处理线性逻辑运算阶段,而对于这类一个输入多个输出,或者多个输出共同导致一个输入的复杂非线性关系,还难以处理。
麦小苗研究的学科,就是用来解决这个问题的。
往大了说,这就是人工智能的方向,往小了说,这就是让计算机解决非线性问题的初级尝试。
当然了,要解决实际问题,光有数学理论和工具也没用,要和甲骨缀合这么复杂的项目契合起来,不了解项目目前的运行方式那是绝对不行的。
麦小苗在深入了解了甲骨缀合和数字图书馆项目之后,生出了一个疑问:“肘子问你个问题啊,你是不是从一开始就有发展神经网络系统的想法?因为从这两个项目现在的阶段来看,完全就是细胞元架构体系,完全符合神经网络系统最底层的系统结构,接下来我们只需要研究如何构建各个元之间的相互关系算法就好了。”
“小苗你实在是高看我了。”周至笑道:“这两个项目之所以具有如此的特殊性,完全在于它们都属于文史类的研究项目,与你们擅长的理工类项目思路完全不一样。”
“我一直在给天宇立冬春佳他们灌输一个观点,那就是理工的逻辑体系,常常是一个盘山公路一样的体系,有一条明确的道路到达山顶,这就是线性逻辑的显著特征。”
“而文史类的项目,其逻辑体系实际上是一个球型网状的结构,在这样的结构中,还用盘山公路一样的体系来解决问题,能够成功吗?”
“在一些小问题,局部问题上,的确可以成功。还是那个例子,比如关键词检索,搜苏轼二字,将历史上所有典籍中带苏轼的段落都给他找出来,最多在将苏轼这个词条下的各种标签比如东坡,黄州团练,前后赤壁赋,明月几时有等等搜检出来,得到一个苏轼的生平传记和历史评价,这就已经很难了。”
“能做到这一步当然已经很了不起,但是文史研究者想要探究的往往还有另外一类的问题,我举个课题为例:《试论苏轼人格魅力与宋人审美之间的相互关系,及其对后世美学之影响》。对于这样的问题,想要在目前的数字图书馆里寻找答案,那是没有现成的,需要进行大量的学习和资料收集以后,在学者的脑子里完成要素间的相互关联,最后经过复杂思维才能得到靠谱的结论。”
“理论上是可以让信息系统自我实现对这个问题的回答。”麦小苗点头:“只要细胞样本与关系算法类两个要素足够丰富,从一个点发散出去遍历整个球网,可以得到一大堆的事件概率组合,最终构成一个……用你的话说,靠谱的结论。”
“别问我啊。”周至说道:“该我问你才对,你的实验室,目标是这个吗?”
麦小苗想了想说到:“之前其实我也没有想好,因为我的研究多在理论上,回国前也了解了一下国内的发展现状,当时我以为最好的部署方式就是利用超算进行一些物理或者天文的研究,尝试对数据进行非线性处理,也就是说算力设备是单一的,而数据是分布式的。”
“还是你这干文科的想象力更加丰富,让我的研究都变得浪漫起来了。”
说完又苦起了脸:“可是这研发费用,可能……”
接下来的两天里,周至带着麦小苗开始熟悉甲骨缀合项目和数字图书馆的图数据库架构。
这两个项目也是接下来会契合细胞类神经网络实验研究的重点。
甲骨缀合项目最早源于瀚文大字库图片字转矢量字的自动识别技术,以及字根解构与拼合技术,这两个子项目的成功,也给瀚文大字库的研发节约了大量的时间,尤其是二期与三期项目,几乎是拿到两位老师兄《字海》的卡片后,在极短的时间内就完成了识别,输入,矢量化,入库等工作。
也由于二期字库的极快丰富,直接封杀了港岛、新岛、湾岛甚至岛国等汉字使用区想要自主研发全码字库的可能,吸引了日韩两国派遣工作组来“共襄盛举”,最终让瀚文大字库成为了全球唯一且统一的汉语言字符大字库。
这些技术当然不会在完成大字库研发后就束之高阁,而是继续深化发展,很快周至又给它们找到了应用场景,那就是甲骨缀合。
于是之前的两个技术,也就发展成了边缘识别契合算法和变化字根通合算法。
这两个算法说起来倒是简单,就是实现部分人眼和人脑的功能。
前一个算法就是不管图片上的碎片是大是小,位置如何,角度如何,也能够让计算机识别出其边缘特征,并且将之与数据库当中其余碎片的边缘特征进行匹配,如果找到匹配得上的位置,就会尝试进行甲骨的拼合。
拼合好之后的甲骨,上面的文字往往就从寥寥几个不明含义的散字变成一段话,很多隐藏在碎片当中的历史信息就会第一次呈现在研究者们的面前。
价值当然不言而喻。
而第二个算法就更加的离散和非线性了。
甲骨文字虽然已经十分成熟,但是其流行的历史时间相当长,且组字的时候并没有固定的结构,因此往往一个字,多达数十种写法。
比如步,其实就是一个左脚和一个右脚的字根,这两个字根的写法就有很多种,有繁有简,而这两个字根被贞人将之刻到甲骨上组合成“步”字以后,其位置关系和角度关系可谓五花八门。
对于经过训练的人类来说,这两个字根只要刻得大差不差,脑子当中很自然地就会冒出这种概念:这个是左脚,这个是右脚。
然后只要两个字根摆放在一起,大致上下交错就行,脑子就会自然而然地冒出另一个概念:嗯,这大概率是一个“步”字。
但是这样的思维活动,对于目前的计算机技术来讲,就显得过于的“高级”了,因为现在的计算机技术,主要还在处理线性逻辑运算阶段,而对于这类一个输入多个输出,或者多个输出共同导致一个输入的复杂非线性关系,还难以处理。
麦小苗研究的学科,就是用来解决这个问题的。
往大了说,这就是人工智能的方向,往小了说,这就是让计算机解决非线性问题的初级尝试。
当然了,要解决实际问题,光有数学理论和工具也没用,要和甲骨缀合这么复杂的项目契合起来,不了解项目目前的运行方式那是绝对不行的。
麦小苗在深入了解了甲骨缀合和数字图书馆项目之后,生出了一个疑问:“肘子问你个问题啊,你是不是从一开始就有发展神经网络系统的想法?因为从这两个项目现在的阶段来看,完全就是细胞元架构体系,完全符合神经网络系统最底层的系统结构,接下来我们只需要研究如何构建各个元之间的相互关系算法就好了。”
“小苗你实在是高看我了。”周至笑道:“这两个项目之所以具有如此的特殊性,完全在于它们都属于文史类的研究项目,与你们擅长的理工类项目思路完全不一样。”
“我一直在给天宇立冬春佳他们灌输一个观点,那就是理工的逻辑体系,常常是一个盘山公路一样的体系,有一条明确的道路到达山顶,这就是线性逻辑的显著特征。”
“而文史类的项目,其逻辑体系实际上是一个球型网状的结构,在这样的结构中,还用盘山公路一样的体系来解决问题,能够成功吗?”
“在一些小问题,局部问题上,的确可以成功。还是那个例子,比如关键词检索,搜苏轼二字,将历史上所有典籍中带苏轼的段落都给他找出来,最多在将苏轼这个词条下的各种标签比如东坡,黄州团练,前后赤壁赋,明月几时有等等搜检出来,得到一个苏轼的生平传记和历史评价,这就已经很难了。”
“能做到这一步当然已经很了不起,但是文史研究者想要探究的往往还有另外一类的问题,我举个课题为例:《试论苏轼人格魅力与宋人审美之间的相互关系,及其对后世美学之影响》。对于这样的问题,想要在目前的数字图书馆里寻找答案,那是没有现成的,需要进行大量的学习和资料收集以后,在学者的脑子里完成要素间的相互关联,最后经过复杂思维才能得到靠谱的结论。”
“理论上是可以让信息系统自我实现对这个问题的回答。”麦小苗点头:“只要细胞样本与关系算法类两个要素足够丰富,从一个点发散出去遍历整个球网,可以得到一大堆的事件概率组合,最终构成一个……用你的话说,靠谱的结论。”
“别问我啊。”周至说道:“该我问你才对,你的实验室,目标是这个吗?”
麦小苗想了想说到:“之前其实我也没有想好,因为我的研究多在理论上,回国前也了解了一下国内的发展现状,当时我以为最好的部署方式就是利用超算进行一些物理或者天文的研究,尝试对数据进行非线性处理,也就是说算力设备是单一的,而数据是分布式的。”
“还是你这干文科的想象力更加丰富,让我的研究都变得浪漫起来了。”
说完又苦起了脸:“可是这研发费用,可能……”