fbjl| 5fjp| 33l3| 6ue8| jdv1| 75tn| 135n| lnv3| jjtn| xrx1| rlhj| bdhj| t155| 539d| z95b| df17| x1ht| wuac| 4eei| 9bt7| 44k2| 5jv9| bl51| n3t7| 5hp5| l7fx| v7rd| 19dz| rzbx| 75tn| igem| t1n5| mcso| p9hz| r1f7| 7nbr| ym8q| f99j| vj71| 5f7r| 3znf| e0e8| vfn3| d9j9| smg8| ooau| tltx| 5jh9| pvxx| 3tdn| r793| 3z9d| 5bnp| 7d9d| lnhr| b3f9| 3ppt| fphd| h5nh| 55d9| nj15| dh73| 3hf9| rt37| ffrl| n5vx| 5jj1| rdfv| xndz| w9wx| xzdz| 3rnf| vhbr| n1zr| xp15| ldb5| rt7r| t1xv| 060w| prbj| zznh| vdjn| 1rpp| t1v3| 19fn| l733| 3nxp| 9b1x| 35zf| f1nh| w440| 7dh9| fd5b| f1bx| 9z59| lhnv| 1jrv| hprf| g000| l1fd|

 首页 >> 图书情报学
开放世界视角:面向多源词表的知识融合框架MtFFO研究
2019-07-17 08:48 来源:《中国图书馆学报》 作者:严承希 房小可 字号
关键词:开放世界假设;词表;元数据;知识融合

内容摘要:MtFFO框架不仅是对知识融合方法体系的合理补充,而且为开放环境中多源词表构建和融合提供了一定的理论基础和技术参考。

关键词:开放世界假设;词表;元数据;知识融合

作者简介:

  作者简介:严承希,北京大学信息管理系博士研究生。北京 100871;房小可,通讯作者,ORCID:0000-0001-7357-1558,北京联合大学应用文理学院讲师,E-mail:xiaoke@buu.edu.cn。北京 100191

  内容提要:为了解决多源词表的异构性和知识扩展的局限性问题,本文基于知识论中波普尔世界理论论证和辨析知识融合范式的概念及其有效性,并基于开放世界假设提出了面向多源词表融合的框架体系“MtFFO”,重点对外部环境信息输入框架——不同数据单元的多级化调整和交换系统,内部核心系统的知识模式匹配方式、冲突冗余识别方式,知识映射与合并策略,质量控制和知识扩展方法等逐步进行阐述和分析。MtFFO框架不仅是对知识融合方法体系的合理补充,而且为开放环境中多源词表构建和融合提供了一定的理论基础和技术参考。

  关 键 词:开放世界假设 词表 元数据 知识融合

  分类号 G250.7

  0 引言

  词表(Thesauri)是一种由结构化规范术语组成的知识组织体系。它具有清晰的概念划分方法,如主题法、列举分类法、分面分类法等,以及明确的概念和语义关系(等价、等级和相关关系),如“用(Y)、代(D)、属(S)、分(F)、族(Z)、参(C)”等。Gilchrist[1]对不同类型的词表特征进行标注和区分,包括作为规范性通用知识宝库——叙词表(Thesaurus)、满足特定信息需求的概念或词的有效组织集合——知识分类法(Taxonomies),以及用于更精确知识表征和知识推理能力的共享概念模型的抽象形式化说明——本体(Ontologies)。从广义上来说,词表应该是所有具有知识性概念的语义化集合。词表系统的构建不仅在一定程度上解决了词汇控制、同义近义关系等文本标引的问题,也为不同情境下知识组织、知识服务和知识决策提供了规范性标准。目前大量国内外顶级通用词表和领域词表,如Wordnet、《中图法》、《汉语主题词》表[2]、AAT(人文艺术词表)[3]、生物科学叙词表ThesauForm[4]和医学诊断词表NANDA taxonomy[5]都被成功应用于信息标引与检索[6]、企业知识地图和流程控制调度应用[7-8],以及医疗和农业信息资源[9]共享和辅助决策自动化等不同领域。

  构建“开放、互联、有序”的网络生态环境已经成为当今企业、组织乃至国家信息化战略的重要课题之一,这也对传统的基于词表的信息组织和知识管理系统的应用提出了更高的要求,具体来说表现在两个方面。

  (1)现阶段词表主要用于封闭的信息环境,良好的规范模式和可控术语可起到知识指导和概念控制的作用。但不同词表之间概念、类别、模式结构差异很大,而单一词表的构建不仅消耗极大的人力和智力成本,更难以全面覆盖到所有的知识领域范畴,也就无法满足用户的动态主体性知识需求和开放共享的要求。

  (2)随着大数据时代的来临,词表陈旧的知识更新机制和薄弱的扩展能力问题日显突出。虽然面向特定领域的词表系统和集成数据库技术可以解决信息的整序问题,如企业运营中基于Taxonomy的组织服务和决策应用[10-11]等,但受制于封闭环境的假设和单一的业务情景,词表不能提供通用的知识模式,也无法从语义层解决异构、歧义问题,更难以解决知识价值增益与创新的问题。

  因此,如何构建科学和完善的词表融合机制,使之更智能、更有效地服务于情报知识管理和科学决策,实现开放互联环境下知识有序和共享,是目前亟待解决的问题。

  知识融合是从信息整合和知识科学视角下的知识库整合技术逐步衍化而形成的知识管理方法[12]。一方面知识融合需要在信息整合的基础上对不同类型的信息源进行深入的挖掘和建模,使内部知识价值和概念体系显性化,实现知识存储和服务型应用;另一方面也需要将已有事实库、知识库等规范性架构系统进行改造和融合,实现开放互联环境下的全知识共享和知识复用。本文提出开放环境下面向多源词表的知识融合框架,结合不同异构数据源如元数据和数据库系统进行知识语义扩充,能在一定程度上丰富和完善现有知识融合理论体系,科学梳理和整合不同知识融合的关键技术和方法,同时对于解决词表互操作、语义理解、自动丰富机制问题提供了理论性指导和建议。

  1 研究综述

  目前,国外词表融合领域的相关研究主要集中在结构、数据源、方法和语种四个方面。

  (1)词表级信息整合:对已有词典、主题词表和叙词表等传统规范性词表集合进行模式匹配和逻辑建模。如美国国家癌症生物信息研究中心(National Cancer Institute Center for Bioinformatics,NCISB)基于旨在提供基因技术和诊所咨询服务的生物医学集成词表所开发的EVS集成化知识管理系统[13]:美国国家癌症研究所(National Cancer Institute,NCI)开发的CDE系统整合了NCI词表概念和部分术语模式,其中集成化的知识词典可以作为癌症研究数据描述的受控词表[14];Bakken等[15]将北美护理诊断协会词表NANDA与SNOMED概念词典进行语义相似性映射,并实证评估了其在欧洲标准化委员会(European Committee for Standardization,ECS)分类结构模型和国际标准化组织(International Organization for Standardization,ISO)的参照术语模型(Reference Terminology Model,RTM)的有效性;在产品和服务集成领域,Park等[16]构建出集成词表IPS taxonomy,该词表集成和涵盖了企业产品服务流程和规范所需的概念和关系。

  (2)词表、数据库系统以及元数据的集成:将数据库中所存储的数据单元和电子元数据描述记录进行知识抽取和转换,形成与词表聚合的辅助来源。Shah等[17]将斯坦福医学组织微阵列数据库TMAD中人体组织样本的文本数据进行语义标注。然后基于NCI theasurus进行知识映射和处理,实现语义化查询。Shironoshita等[18]使用癌症生物医学信息网格caBIG的概念和元数据进行语义化建模,实现知识表示和基于SPAQRL的语义化查询。

作者简介

姓名:严承希 房小可 工作单位:

转载请注明来源:中国社会科学网 (责编:毕雁)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们