1 引言
问答系统(QuestionAnsweringSystem,QAS)是一种新的信息检索技术。它应用自然语言理解技术,通过对用户问题的理解,将答案直接返回给用户。由于现有的许多自动问答系统都是基于知识库的,知识库是自然语言处理的基础资源,知识库中知识的丰富程度、知识表示形式以及知识的组织方式直接关系到基于知识库的自然语言处理应用的性能。因此如何设计知识库对提高自动问答的性能和效率具有非常重要的意义。为此本文提出,以数据结构课程为例,采用本体技术构建课程本体,首先对数据结构课程知识进行了核心词汇分析, 提出若干类和属性, 然后借助本体知识库良好的分类特性、概念的形式化描述来对数据结构课程进行知识表示、知识存储,建立数据结构课程本体库,从本体库出发建立常见问题库和课程文档库。以此建立的常见问题库和课程文档库为后续课程自动问答系统的自动问答提高了效率。
2 本体技术
本体论(Ontology)来自哲学领域,比较流行的定义是Gruber在1993年提出的本体的概念,他认为本体是有关概念模型的明确的规范说明。本体的目标是捕获相关的领域知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇之间相互关系的明确定义。本体的研究包括概念和概念分类、本体上的代数。近年来,随着信息科学的飞速发展,本体论逐渐用于知识工程和信息科学等领域之中。
随着Web的发展,出现了许多本体描述语言,如早期基于一阶逻辑的EJF,基于框架和一阶逻辑的OCML,基于描述逻辑的LOOM等。随着进一步的发展,又出现了RDF(S)、OIL+DAML、OWL等。而其中,OWL是建立在XML/RDF等已有标准基础上,通过添加大量的基于描述逻辑的语义原语来描述和构建各种本体。本文中主要使用RDF(s)和OWL。
本体构建工具有很多,目前使用最为广泛是Protege本体构建工具,是使用java开发的、可扩展的、免费的、开源的本体工具。本文采用了Protégé 4.0.2版本作为本体的构建工具,构建《数据结构》课程本体。Protégé 4.0.2本体构建工具有很多优点:使用简单方便、文件的输出格式可以定制、用户接口可以定制、模块划分清晰、后台支持数据库存储。
3 课程本体的构建
课程知识本体是课程自动问答系统FAQ(Frequetily Asked Questions)库的基础,同时也是准确、高效的实现自动答疑的关键。课程知识本体界定了FAQ系统的范围,决定了关键词、知识范围和内容、知识点之间的相互关系,是系统准确性、智能性的基础。系统在充分理解课程大纲的基础上,根据教材体系设计课程知识本体。
课程本体的构建是一个严谨的过程,本文在参考相关本体构建方法的基础上,在领域专家的帮助下,采用以下的步骤来开发课程本体,尽可能保证本体的正确性和一致性:
(1)明确领域范围:主要考虑该课程领域本体要包含的内容、用途和使用者。
(2)考虑可重用性:考虑是否已有相关的课程本体,可否对其进行扩展或精炼。
(3)列举核心概念、基本概念:以某种方式表示课程领域中的概念。
(4)定义概念及概念间的层次和结构。
(5)定义概念的属性:提供相关的属性来详细描述概念的方方面面。
(6)基于课程本体构建该课程的常见问题库和知识库。
3.1 课程的概念本体
要进行课程本体的构建,首先要确定该课程中的关键知识点,课程知识点由课程的核心概念和基本概念构成。准确定义领域内核心的概念,以确定合理、完整的概念体系,构建课程本体。需要抽象概念、属性,及概念之间的关系进行描述和定义。
概念本体(CO-Concept Ontology)是用来描述某个知识领域内的一些核心概念和基本概念的本体,这些概念是被该领域内人们所共同认可的,本文将其表示为一个单独的本体,定义如下:
CO::=(Onm,Ch,Cj,Sx)
其中Onm是某个领域的课程名;Ch为该课程领域核心概念集合;Cj为该课程领域基本概念集合;Sx为该课程领域各概念的属性集合;
本文领域概念的提取是由多位领域专家及网络搜集获得,下面给出一个实例片段:
CO::=(Onm,Ch,Cj,Sx);
Onm=“数据结构”;
Ch=(数据结构、线性表、树、图);
Cj=(栈、队列、特殊线性表、串、多维数组、广义表、二叉树、查找、排序);
Sx=(Sx1数据结构:定义,发展历史,访问接口,分类;
Sx2线性表:定义,逻辑结构,存储结构,应用;
Sx3树:定义,遍历,转换;
Sx4图:定义,逻辑结构,存储结构,最短路径,遍历,关键路径,应用)
3.2 领域概念层次关系提取
根据上一节提取到的课程概念,确定课程概念间的相互关系,并且用精确的术语来表达这些概念以及概念之间的关系,本文在建立《数据结构》课程本体时主要考虑了基本概念之间的关系如表1-1所示,包括概念间的同义关系、蕴含关系、上下位关系、层次关系和缩写关系。同义词关系表示两个概念(类)之间的语义相等或非常相近,往往可以相互替换,如“线性表”别名“表”或“Linear list”等。蕴含关系表示两个概念(类)是继承关系。如线性表和特殊线性表具有继承关系。上下位关系表示下位词是上位词的特例,如特殊线性表是栈和队列的上位词。在问答中有时候通过该概念的上下位概念也能提取到潜在的有用信息。
3.3《数据结构》课程本体模型
《数据结构》课程知识本体按章设计,参考本体模型构建方法,以上文对课程本体的概念及概念间的关系的描述为基础,将课程的知识概念经过组合分类后,对课程知识点层次结构进行扩展,通过对《数据结构》课程概念及其属性、概念间关系的描述,可以将整个知识内容形成一个面向自动问答系统应用的本体资源,本文采用OWL语言来定义本体,用RDF语言来描述资源和标注过的文档。利用本体编辑软件Protégé 4.0.2作为本体的构建工具,构建《数据结构》课程本体模型。如图1-1是部分课程知识本体结构图。
3.4 常见问题库和文档库的构建
课程FAQ库是课程自动问答系统的核心,存储的是针对某一门课程内容最关键、最重要的问题集合。包括学生在学习过程中经常提问的问题及各类考试中频繁出现的题目等等,课程FAQ库把这些问题存储到数据库中,并配有准确的答案,为了使系统充分理解用户的提问意图,以便在自动答疑时把FAQ库中相关的问题集找出来,结合前面的分析,本文以课程知识本体为基础,应用短文本分类技术对所有问题分类,构建了《数据结构》课程FAQ库。
自动问答系统中对于用户提出的常见问题,首先用户输入查询问题,系统先在课程FAQ库中找到相同或相似的问题,返回相应的答案,对于一些问题是FAQ库模式难以回答的,比如:用户提出一些叙述形式的问题或者与应用相关的算法实现等问题。对于这些类型的问题,本文基于课程知识本体设计了课程文档库来解答。课程文档库按章对《数据结构》课程的内容以树形结构组织,课程文档库中存储的是该门课程知识的集合,是完整的关于课程知识的体系结构,具有良好的结构性,便于查找。在查找时可以将父结点、兄弟节点和子结点的相关信息返回。提高了查询结果的准确性。
4 小结
本文通过对自动问答系统的相关研究进行剖析,结合本体技术的核心内容和特征,对如何使用本体来构建课程知识本体库进行了论述。以《数据结构》课程为例,建立了《数据结构》课程知识本体,基于课程知识本体又建立了课程的FAQ库及文档库,为后续实现课程自动问答系统中的知识组织和自动检索奠定了基础。随后进行的研究工作包括完善课程知识本体库、FAQ库及课程文档库,设计基于课程知识本体库的自动问答算法,实现课程自动问答系统。
参考文献
. Journal of Chinese Information Processing,19(3):1-13.
[2]GRUBER T R.A translation approach to portable Ontology specifications[J].Knowledge Acquisition.1993,5(2):199-222.
[3]古华贞.基于本体的移动问答系统研究[D].大连理工大学,2006
[4]骆正华,樊孝忠,刘林.本体论在自动问答系统中的应用[J].计算机工程与应用,2005.
[5]叶忠杰.基于课程知识本体的智能答疑系统的研究与开发[D].浙江工业大学,2007
[6]周宁,张玉峰,张李义,信息可视化与知识检索[M].北京:科学出版社,2005
[7]王盛,樊兴华,陈现麟,利用上下位关系的中文短文本分类[J],计算机应用,2010
[8]冯成,陈智敏,领域本体建模方法的研究, 科学技术与工程[J],2009
中国论文网(www.lunwen.net.cn)免费学术期刊论文发表,目录,论文查重入口,本科毕业论文怎么写,职称论文范文,论文摘要,论文文献资料,毕业论文格式,论文检测降重服务。