学术交流 多源路途智能选取的本体常识推理办法

发布时间:2022-06-02 16:41:36 | 作者:环球体育竞猜

  大数据年代路途数据来历日益增多,跨数据源的路途选取面对巨大应战。本文针对数据语义不共同问题,提出一种依据本体常识推理的多源路途选取办法。首要,将1:5万根本份额尺地势图路途数据作为根底事例,将四维图新导航电子地图和敞开大街地图中的路途数据作为实验数据,依据stroke核算路途等级、长度、连通度、挨近度、中介度特征项,提取特征项概念并构建本体;然后,从语义特征项和数值特征项两方面核算本体概念类似性,树立根底事例与实验数据间的相相联系;最终,依据本体和语义网规矩言语界说本体通用、语义特征、数值特征三类选取规矩,完成跨数据源路途选取的进程性常识推理。实验标明,本文办法可依据本体概念类似性衡量消除语义差异,一起运用语义网规矩言语进行常识推理,可完成多源路途数据向根本份额尺数据的智能选取。

  制图归纳是处理多标准表达的要害技术之一,且现已从算法归纳、协同归纳、进程操控归纳开展到了常识推理归纳的新阶段[1]。路途选取作为制图归纳的重要内容,一向遭到广泛重视[2]。但是,大数据年代多源数据存在语义差异,导致跨数据源的路途选取高度依靠专家常识[3],因而树立多源数据选取规矩并进行常识推理是促进核算机完成智能归纳的必定途径。本文依据本体标明路途选取常识,经过类似性衡量消除多源数据差异,运用语义网规矩言语进行常识推理,完成跨数据源的路途智能选取。

  路途选取指经过点评路途重要性,保存首要路途、删去非必须路途,到达选取意图[4]。前期依据传统模型的点评办法首要包含依据语义等级[5]、网眼密度[6]、stroke[7]及图论[8]等办法,其间依据stroke的选取办法作用较好[9-11],可有用坚持路途的几许接连性。随后部分学者凭借智能模型,提出了依据遗传算法[12]、决议计划树[13]和神经网络[14]的选取办法,在必定程度上进步了路途选取的主动化水平,但制图归纳问题并非都能模型化,树立其常识规律成为必定[1]。近年来,国内学者将事例推理办法(case-based reasoning, CBR)应用于路途选取[15],以完成智能化制图归纳。该办法可简化常识获取进程,下降常识标明难度,但传统事例的适用性较差,难以完成面向其他数据源的常识推理。为完成常识标明与同享,部分学者运用本体表达范畴常识[16],并结合类似性衡量办法处理多源数据的语义不共同问题[17-19],一起文献[20—21]运用本体描绘专家事例,进步了体系的决议计划才能。尽管本体的常识表达才能较强,但常识推理才能缺乏,难以完成跨数据源路途选取的进程性常识推理,智能化程度有待进步。

  针对以上问题,本文将1∶5万根本份额尺地势图路途数据作为根底事例,将四维图新导航电子地图和敞开大街地图(OpenStreetMap, OSM)中的路途数据作为实验数据,提出一种运用本体常识推理的路途选取办法,以处理跨数据源的智能归纳问题。首要,依据路途stroke别离构建根底事例与实验数据的路途对偶图,核算路途等级、长度、连通度、挨近度、中介度等特征项,提取特征项概念和联系并构建本体。然后,别离核算语义特征项和数值特征项的概念类似性,消除根底事例与实验数据的语义差异,为路途选取供给常识同享根底。最终,运用本体和语义网规矩言语界说本体通用规矩、语义特征规矩、数值特征规矩等选取规矩,面向多源数据进行常识推理,完成实验数据到1∶5万根本份额尺数据的主动归纳。

  路途选取需求清晰的制图规矩和专家常识,经过1∶5万根本份额尺数据提取路途选取事例,可有用下降常识的形式化表达难度。但根底事例与实验数据间存在语义差异,还需凭借本体模型界说数据概念结构,供给范畴常识同享根底。

  路途选取事例首要由事例目标和特征项组成,以路途stroke作为事例目标,依据stroke构建路途对偶图,从而核算特征项。其间stroke指天然延伸未开裂的路途[22],一般依据几许与专题规矩进行构建,前者指两条路段转折角小于阈值60[23],后者指两条路段具有相同的等级和称号。路途对偶图经过将stroke标明为节点(V={v1, v2, …, vn}),将节点间联系标明为边(E={vivjvi, vj∈V}),从而深入剖析路网结构[24],详细如图 1所示。图 1 路途stroke对偶图

  特征项方面,挑选等级(grade, G)作为语义特征项,挑选长度(length, L)、连通度(degree, D)、挨近度(closeness, C)、中介度(betweenness, B)作为数值特征项,归纳点评stroke的重要性。其间等级反映路途的特点信息,长度反映路途的几许信息,连通度、挨近度、中介度反映路途的拓扑信息,可以确保重要路途优先选取等根本原则[2]。一起,经过对10篇以stroke为目标的路途选取文献进行核算剖析(图 2)[4, 9-11, 22-27],标明本文的特征项挑选合理,各特征项的核算办法及详细意义见表 1。图2 特征项呈现频数核算

  路途选取专家常识一般是敞开性的,而依据数据库的本体构建办法可依据数据的语义信息确认范畴规模[28],因而本文依据根底事例和实验数据构建本体模型(图 3)。详细流程包含:①依据根底事例与实验数据确认本体规模,结合专家常识提取范畴概念;②提取范畴概念的层次联系和特点联系,构建概念模型;③依据概念模型修改本体,并添加实体进行形式化表达;④重复上述进程完善本体,更新范畴常识库。由此经过数据库内容作为束缚条件,能快速确认本体范畴边界,还可整合空间数据、特点数据及其映射联系,有用确保多源路途选取本体包含制图归纳常识的完好性。图3 依据根底事例与实验数据的本体构建办法

  路途选取本体模型包含概念层和实体层,其间概念层触及事例目标、特征项等概念,实体层标明概念的详细实例。本文以等级语义特征项和长度数值特征项为例,详细阐明本体构建进程,其他特征项与此类似。首要,依据根底事例数据的语义特征项,构建国道、县道等概念。其次,剖析根底事例数据的长度数值散布状况,运用二分k-means算法[29]对数值进行聚类,提取均匀散布且可标明数值区间的实体,运用“hasMax”与“hasMin”数据特点描绘取值规模,一起为共同标明办法,界说实体的区间为左开右闭,如实体“La-1”的取值区间(0.35, 0.69],实体“Lb-1”的取值区间(0.69, 1.92]。然后添加“is-a”父子联系和“hasProperty”特点联系,其间父子联系描绘概念的上下位联系及实体与概念的所属联系[30],特点联系描绘事例、事例目标与特征项间联系。如图 4所示,事例目标stroke 1标明长度为0.69 km的国道,事例目标stroke 2标明长度为1.47 km的县道。最终依据导航、OSM等多源实验数据添加其他相关概念和实体,如概念行人路途和实体“Lb-1”,其间“Lb-1”的取值区间为(0.50, 0.72],可完善路途选取本体,为多源数据的类似性衡量供给常识同享根底。图4 路途选取本体示例

  类似性衡量是描绘概念类似程度的重要办法,可防止多源数据的语义差异,进步路途选取事例的适用性[31],首要包含语义和数值类似性衡量两个方面。其间语义类似性经过概念间联系进行衡量,数值类似性经过核算实体的类似性从而完成概念类似性衡量。

  路途选取要求优先挑选重要路途,其间等级特征项最为要害[2]。本文以导航数据为例,依据根底事例数据和导航实验数据构建的概念层次树如图 5所示,运用余弦类似性模型核算多源数据等级特征项的语义类似性。图5 根底事例与导航数据的路途等级概念层次树

  余弦类似性模型可运用空间向量夹角的余弦值衡量概念差异,契合路途等级概念层次树特征[32, 33],因而本文以概念层次树的部分密度为根底构建概念向量,依据余弦类似性模型[18]核算等级的语义类似性。详细核算公式为

  式中,da指概念Ca父概念的一切子概念数量,即部分密度,相关概念指与概念Ca直接或直接相关的一切父概念和子概念。如图 5所示,父概念城市非必须路途具有3个子概念:其他路途、九级辅路和行人路途,因而每个子概念的部分密度均为3。概念行人路途的相关概念包含路途、城市路途、城市非必须路途和行人路途,部分密度别离为1、2、2和3,因而概念向量C14=(1, 2, 0, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 3)。根底事例的路途等级包含国道、县道、城市首要路途、城市非必须路途,导航数据包含国道、县道、市镇村道、其他路途、九级辅路、行人路途,概念类似性衡量成果见表 2,由此可树立跨数据源的等级概念语义相关。其间导航数据的国道、县道别离与根底事例的国道、县道为相同概念,市镇村道与城市首要路途归于类似概念,其他路途、九级辅路、行人路途与城市非必须路途为类似概念。

  除语义特征外,路途选取本体模型还触及很多数值特征项概念,依据数值类型可分为离散特征项和接连特征项,其间离散特征项指取值为整数的连通度,接连特征项指取值被聚类为若干接连区间的特征项,详细包含长度、挨近度、中介度。离散特征项方面,因为连通度取值一般为整数,且整数间间隔越大则标明的语义差异越大[17],因而本文运用连通度值的相对间隔点评其类似性,核算公式为

  接连特征项方面,本体将路途长度、挨近度、中介度聚类为区间实体,不同区间的堆叠规模越大则语义差异越小,一起区间值的堆叠部分越大,则实体对应概念表达的语义越挨近[17]。因而本文参阅Jaccard系数[34],运用区间实体交集与并集的比值点评概念的类似性,核算公式为

  式中,RCa、RCb别离标明根底事例与实验数据的接连特征项数值区间,RCa∩RCb标明Ca与Cb数值的交集,RCa∪RCb标明数值的并集。本文将核算成果最大的两个实体的概念作为类似概念,如图 4所示实验数据长度区间(0.50, 0.72]与根底事例长度区间(0.35, 0.69]、(0.69, 1.92]的类似性别离为0.514、0.021,与其他根底事例长度区间的类似性为0,因而概念Lb-1与La-1为类似概念。经过语义和数值类似性衡量,可树立实验数据与根底事例的概念相相联系,为路途选取供给愈加完善的常识根底。

  本体为路途选取供给了范畴常识同享根底,但难以标明选取进程的动态常识[35]。而语义网规矩言语(semantic web rule language,SWRL)可依据自界说的专家规矩完成常识推理,进一步增强本体的逻辑性。

  SWRL由完成(Imp)、原子(Atom)、变量(Variable)和内置组件(Built-In)组成(图 6),可依据简略概念界说复杂联系,扩展常识表达才能[34]。其间Imp是规矩的根本单元,Atom是规矩的最小元素单位,Variable记载Atom运用的变量,Built-In封装Atom的逻辑联系。本文依据式(5)[35]规划SWRL规矩,详细解释为:若前件(Body)的原子全为真,则后件(Head)的推理成果也为线 SWRL安排结构及其与本体间联系

  路途选取常识推理首要经过Java expert systems shell(Jess)推理引擎完成(图 7),其间推理引擎将本体模型和SWRL规矩别离转换为现实库和规矩库,运用推理机对根底规矩进行组合与挑选,更新范畴常识。图7 依据规矩的Jess引擎推理

  为完成路途选取常识推理,本文结合本体模型和路途数据特征项规划选取规矩,包含本体通用规矩、语义特征规矩、数值特征规矩,表 4为部分SWRL规矩描绘示例。其间,Rule 1和Rule 2是适用于一切范畴的通用规矩,可依据本体概念与实体间父子联系的传递性进行推理,Rule 3—9为用户自界说规矩,可依据通用规矩推理成果完成深层次推理。Rule1阐明子概念的实体相同为父概念的实体,Rule 2标明若两个概念为类似概念,则其对应的两个实体为类似实体。语义特征规矩Rule 3标明根底事例选取规矩,即选取路途stroke等级为国道的路途;Rule 4标明导航数据选取规矩,即选取导航数据中与根底事例城市首要路途为类似实体的市镇村道;Rule 5标明OSM数据选取规矩,即选取OSM数据中与根底事例国道为类似实体的motorway。数值特征规矩Rule 6标明根底事例选取规矩,即选取路途stroke长度区间规模为(0.35, 0.69]的路途;Rule 7标明导航数据选取规矩,若根底事例长度区间为(0.35, 0.69]的路途stroke被选取,则导航数据类似长度区间为(0.50, 0.72]的路途stroke被选取;Rule 8标明根底事例选取规矩,即选取路途stroke连通度为6的路途;Rule 9标明OSM数据选取规矩,若根底事例连通度为6的路途stroke被选取,则OSM数据中的类似连通度路途stroke也应被选取。由此经过语义特征和数值特征规矩,可推理更多制图归纳动态常识,完成多源数据路途的主动选取。

  为验证本文办法的有用性,挑选国家1∶5万份额尺地势图中某区域的路途数据作为根底事例,相应区域的四维图新导航电子地图和敞开大街地图中的路途数据作为实验数据打开验证,详细实验流程如图 8所示。图8 实验流程

  (1) 数据处理。对事例数据、导航数据、OSM数据进行断链并构建路途stroke,提取等级、长度特征项,依据路途对偶图核算连通度、挨近度、中介度特征项。

  (2) 本体构建。以处理后的多源数据为根底,提取路途选取本体范畴概念、实体及其联系,构建本体模型。

  (3) 类似性衡量。运用类似性模型核算本体概念类似度,消除根底事例与实验数据的语义差异。详细包含:依据路途等级概念层次树,核算语义特征项概念的类似性;运用相对间隔及Jaccard系数,核算数值特征项概念的类似性。

  (4) 常识推理。面向本体模型构建SWRL规矩,别离转换为Jess现实库与规矩库,并运用Jess推理引擎完成制图归纳常识推理,辅导核算机主动取得实验数据路途选取计划。

  为验证本文办法的科学性,实验挑选传统的stroke选取办法与本文办法进行比照。其间1∶5万份额尺根底事例路途数据如图 9(a)所示,相应区域导航数据及其选取成果别离如图 9(b)、9(c)所示,其间共选取195条导航数据路途stroke。在传统的stroke选取办法中,本文运用文献[20]熵权法核算stroke各特征项权重,并依据导航数据重要性点评排序,判别路网选取状况。为确保选取份额共同,挑选重要性点评排序前195的导航数据stroke作为选取成果(图 9(d))。图9 导航数据及选取成果

  本文办法选取成果与1∶5万份额尺根底事例数据的同名实体匹配个数为135,而传统stroke选取办法的同名实体匹配个数为119,阐明本文办法选取成果与根底事例更类似,更能反映专家常识。对不同办法选取成果进行分级显现如图 10所示,各等级stroke选取状况见表 5。经过比照发现:①本文办法选取的国道、县道等高等级路途较多,而传统办法选取的市镇村道和九级辅路等中低等级stroke较多。②两种办法保存的其他路途stroke个数相同,但本文办法选取的该等级路途大部分均能构成完好网眼,而传统办法选取的多为悬挂路途(图 10(b)虚线标出)。③本文办法选取的完好网眼数为225,悬挂路途为5条,选取成果路途的总连通度为488;而传统办法选取成果的完好网眼数为209,网眼内悬挂路段较多(18条),一起路途的总连通度仅为474。因而在将导航数据归纳为根本份额尺数据进程中,本文办法选取的完好网眼数更多,发生的悬挂路途更少,路途stroke连通性更好,更能坚持路途的全体结构和部分要害结构。图 10 路途选取成果比照

  为进一步验证多源路途选取办法的可靠性,挑选路途稀少区域的OSM数据进行实验。其间1∶5万份额尺根底事例路途数据如图 11(a)所示,相应区域OSM数据、本文办法选取成果以及传统办法选取成果别离如图 11(b)、图 11(c)、图 11(d)所示。为确保选取成果份额共同,两种办法均选取98条OSM数据路途stroke,其间本文办法选取成果与1∶5万份额尺根底事例数据的同名实体匹配个数为76,而传统stroke选取办法的同名实体匹配个数仅为64。一起本文办法选取的完好网眼数为61,悬挂路途为5条,选取成果路途的总连通度为111;而传统办法选取成果的完好网眼数为56,悬挂路途为8条,一起路途的总连通度仅为97。因而本文办法可坚持选取成果的路网平面图形特征,可以完成密集型和稀少型等区域的多源路途主动选取,具有较强的适用性。图11 OSM数据及选取成果

  大数据年代堆集的多源数据成为制图归纳新的机会与应战,本文提出了一种依据本体常识推理的多源路途智能选取办法。首要,将根本份额尺数据作为根底事例,将导航数据和OSM数据作为实验数据,提取特征项概念和联系,并构建了路途选取本体模型;然后,别离针对语义和数值特征项,核算概念类似性,树立了根底事例与实验数据间的相相联系;最终,运用SWRL规矩标明并推理路途选取动态进程常识,完成了实验数据向根本份额尺的主动选取。实验标明,本文办法可以消除根底事例与实验数据的语义差异,辅导类似区域其他数据的主动选取,为面向多源数据的智能化制图归纳供给了新思路。但是,路途选取还受居民地等其他要素束缚,因而本体的构建作业并未完毕,还需运用数据驱动的本体点评办法,点评路途选取本体的合理性与科学性。一起本文仅完成了1∶5万份额尺的路途选取,未来还需研讨其他份额尺下的选取状况,进一步完善本体常识推理规矩,进步本文办法的可行性。

相关推荐

读取内容中,请等待...

© CopyRight 2019, HUNANGY.COM, Inc.All Rights Reserved.
学院地址:湖南省长沙市岳麓区含浦科教园
湘教QS3-200505-000638 湘ICP备19015321号