一科技查新工作在科技研究开发、科研管理和国民经济建设中重要作用。
(一)为科研立项提供客观依据
科研课题在论点、研宄开发目标、技术路线、技术内容、技术指标、技术水平等方面是否具有新颖性,在正式立项前,首要的工作是全面、准确地掌握国内外的有关情报,查清该课题在国内外是否己有人研宄开发过。通过查新可以了解国内外有关科学技术的发展水平、研宄开发方向;是否己研宄开发或正在研宄开发;研宄开发的深度及广度;己解决和尚未解决的问题等等,对所选课题是否具有新颖性的判断提供客观依据。这样可防止重复研宄开发而造成人力、财力、物力的浪费和损失。
过去对新上项目、重点项目的选择不注意查新,导致重复研宄。据统计,我国科研项目重复率达40%而另外6(%中部分重复又在2(%以上,同时与国外重复也约占3(%左右,其中大部分是国外己公开的技术,因而造成了人力、物力、财力的严重浪费。
(二)为科技成果的鉴定、评估、验收、转化、奖励等提供客观依据
查新可以为科技成果的鉴定、评估、验收、转化、奖励等提供客观的文献依据。查新还能保证科技成果鉴定、评估、验收、转化、奖励等的科学性和可靠性。在这些工作中,若无查新部门提供可靠的查新报告作为文献依据,只凭专家小组的专业知识和经验,难免会有不公正之处,可能会得不出确切的结论。这样既不利于调动科技人员的积极性,又妨碍成果的推广应用。高质量的查新,结合专家丰富的专业知识,便可防止上述现象的发生,从而保证鉴定、评估、验收、转化、奖励等的权威性和科学性。
(三)为科技人员进行研究开发提供可靠而丰富的信息
随着科学技术的不断发展,学科分类越来越细,信息源于不同的载体己成为普遍现象,这给获取信息带来了一定的难度。有关研宄表明,技术人员查阅文献所花的时间,约占其工作量的50%所以科技查新工作很重要。
那么如何提高科技查新当中信息的可获得性、准确性和可靠性呢?可采用先进的网络智能检索技术。目前,信息检索技术正向两个方向发展:一是传统信息检索向全文文本、多媒体、多载体、多原理等新型信息检索的发展,在深度上提高管理和组织信息的能力,如探索自动抽词、自动索引、自动检索、自动文摘、自动分类、自动翻译等;二是信息资源的网络化和分布化,面向nemet中浩瀚无垠的资源,在广度上提高管理和组织信息的能力。在信息检索技术研宄领域中,基于概念、超文本信息和多媒体信息检索技术的研宄最为活跃,并己取得了突破性发展。网络的发展给信息的获取提供了广阔的空间,而检索技术的发展为人们利用信息提供更方便快捷的手段。
二信息检索智能化的系统的建立
(一)文献自动标引系统
标引是指用一个或若干个词来表示文献内容特征的过程。从1980年以后我国在中文自动分词方面取得初步进展,中文文献自动标引方面的研宄不断深入。尔后,由分词研宄向实际标引研宄转移,最近又提出了中文全文标引,这一热门课题的研宄为信息检索自动化打下了坚实的技术基础。
近年来,全文数据库建设在我国有了一些发展,目前具有全文标引功能的系统还不多,较为有名的有《中国学术期刊》、万方数据、维普期刊、中国专利数据库等,但《中国学术期刊》也只是将期刊原文关键词输入数据库作为主题词,而没有真正做到全文主题词标引,对文献本身没有带关键词的则连关键词也未给出。较为成功的是中国专利文献数据库。其全文检索词检索入口包括“申请号、申请日、公告号、公告日、国际专利分类号、范畴分类号、国别省市代码、发明人、申请人、关键词、发明名称、代理机构代码、代理人姓名、申请人地址及说明书摘要”输入其中的任何一项内容即可,如查询发明名称为“电视”时,只需在“全文检索词”窗口输入“电视”即可。
(二)建立语种自动识别系统
从理论上讲,这是一种基于跨系统跨平台的机器翻译系统,是信息时代全球化交流的一个重要解决方案。随着计算语言学的发展,人们开始探讨许多较深层的方法,一些系统采用了间接的方法进行翻译。目前正在商业运作的翻译系统都可以分为三个基本类型:直接型的、中间型的和转换型的,并且高度模块化,易于修改和扩展。自1989年以来,在基于规则的技术中引入了语料库方法,使得机器翻译的发展进入了一个新纪元。在机器翻译整体发展的同时,中英之间的互译却不易突破,目前国内较知名的产品有东方网神和金山快译,这些机器翻译产品在实际应用中还有太多的不尽人意,翻译出来的结果与其本意相差较远,这主要是中文的内涵远远超过字面意思,派生出来的含意在机器翻译中是不易解决的问题。从人类译者的角度来考虑,他们必须具备源语言、目标语言、相关主题、文化习惯等方面的知识,所以,理想的机器翻译系统必须有一个相应的知识库,其中包括真实世界的非语言学常识、与语义知识有关的语言知识和与主题相关的专业知识,尤其是常识,这是系统的智能水平的重要指标。
(三)建立信息智能导航系统
利用搜索引擎(SerhEngine)即用户在建立引擎的Web页上输入其所需信息的关键词,或使用页上的列表式目录链接,经过引擎的服务器在其内部的数据库中找到相关资料,并按一定的规则整理后通过网络传到用户本地主机的一种在线服务方式。近年来,因特网搜索引擎的发展非常迅速。据统计,全网级搜索引擎己有十几个,其它按专业领域划分的搜索引擎有数百个。
建立信息智能导航系统,即是作为一个嵌入功能模块在用户检索获取信息过程中的各个阶段,自动地或在用户激励下进行现场化智能化引导服务。其功能有:①状态分析:将用户信息检索过程通过规范化的状态来表示。②知识分析:确定每个状态及其问题的解决所要求的知识;确定这些知识的结构和来源;确定每个状态所对应的知识的相互联系;确定每个知识模块和整个知识库的结构与调用方式;知识、知识模块和知识库能自动更新。③状态和问题匹配:将状态与检索过程的具体环节或步骤连接起来,分析确定具体环节或步骤中出现的问题;针对问题进行分析或必要的交互式分析;对问题和知识进行精确匹配;将有关知识传递给用户;根据用户行为进行新的状态与问题匹配(本文是由江苏省科学技术厅承办的江苏省软科学研宄计划项目课题——科技成果评价方法与管理模式研宄析出的论文之一。省教育厅编号:02SJT630011)知识传递:知识组织和传递方式强调实用性和友好性;动态知识传递,即根据用户状态和问题动态组织需传递的知识等。
三搜索引擎设计的目标
从可以获得网络资源中中检索出对用户最有价值的信息。具体而言,设计一个好的搜索引擎应该考虑如下几点:
(一)在线信息索引
信息动态更替无时无刻不在进行,即使在搜索过程中,文档会被添加、删除、改变。需要精心设计网络蜘蛛,自动完成在线索引。
(二)有衡量文档相似度的合理标准
能够根据与用户查询相匹配的程度,对文档排序。
(三)具有跨平台工作和处理多种混合文档结构的能力
譬如既能处理HML(超文本连接标示语言:HPetxtMakiPlanguage)文档又能处理通用标记语言标准:SandadforQenea1Makuplanguage)、XML(扩展标记语言:eXendedMakedlanguage)文档。这里对XMI稍作提及。它是HTML的一个超集,SMI梢一个子集。一方面可以兼容现有的HTML文档,又允许自定义文档模式(DCMDOcmemModa)。它将信息按照一定的结构良好组织,为搜索提供了较大的方便。搜索引擎应对其予以有效的支持。除此之外,引擎还应该处理其他类型的文档,譬如W〇dWPS等,在nrnet环境中,这一点尤为重要。
(四)方便性
搜索引擎应该能在nemet或imane啲任何地方工作,从而挖掘、获得尽可能多的信息。网络蜘蛛既可收集特定站点的信息,又能遍历整个万维网,对整个进行索引。为了提高搜索速度,应该允许多个搜索引擎并行工作,将各个引擎的搜索结果整合,作为一个整体存放到数据库中。
(五)过滤功能
能过滤、处理非标准或者不支持的格式,对文档实行加密、解密;能提取文档内容进行后端处理等。
(六)高的召回率和准确率
所谓召回率是指一次搜索结果集中符合用户要求的数目与和用户查询相关的总数之比。所谓准确率是指一次搜索结果集中符合用户要求的数目与该次搜索结果总数之比。理想的搜索引擎应该使这两个指标尽可能得提高。
(七)多语言搜索支持
最基本的能支持英文和中文信息搜索。
(八)智能化等等。
四搜索引擎开发大致包括如下三个模块的实现:
(一)信息有序化组织模块
这是搜索引擎工作的基础。主要要考虑索引数据库结构设计、网络蜘蛛设计等。数据库设计关键问题是要考虑文档如何存储。现在一般采取Wod—Dccmen矩阵存储网络蜘蛛得到的全
文信息。如果不经过压缩处理,这种方法需要巨大的存储容量。可以采取SVD(奇异值分解:Sngu|arVaueDecanP〇i〇n)等矩阵分解技术,构造出新的基向量组,从该向量组中挑出若干主要基向量构成新的向量空间,将原来的向量向新的向量空间投影。这样可以大大减少存储量,提高处理速度。网络蜘蛛的任务是对网络信息进行索引,并将索引信息存放到索引数据库中。网络蜘蛛设计要考虑的主要问题:首先是采取什么样的搜索策略,是深度优先还是广度优先,或者采取其他的启发式搜索策略。然后要考虑如何处理获得信息,是将全文存放到索引数据库,还是仅仅提取文档的若干关键字,在索引库中存放关键字本身及其信息等。
(二)用户查询分析和数据库匹配模块
通过采取汉语分词、同义词表等方法,提取出用户查询的关键词语。如有必要可以进一步对用户请求进行语法和语义分析。查询分析的任务就是尽量了解用户真正的需求。然后要将用户的请求转化为操作数据库的查询请求。最后根据数据库查询请求得到用户需要的信息。由于用户很多情况下也不清楚自己宄竟想查询什么,还要允许用户对返回的结果进行选择,挑出真正所需,然后引擎根据用户挑出的文档,对查询条件进行修正,进行二次查询。
(三)用户界面设计
用户界面要简洁明快。要考虑通过界面将搜索引擎的各个部分有机地结合起来,为用户提供最好的服务。
智能搜索的智能体现在三个方面:①网络蜘蛛的智能化;②为特定用户主动提供相关信息;③搜索引擎人机接口的智能化。
网络蜘蛛通过启发式的学习采取最有效的搜索策略。选择最佳时机获取从nemet上自动收集、整理信息。
智能搜索引擎能通过观察用户的行为,学习用户的兴趣爱好,用户只要提出请求,它就能站在用户的角度,主动获得相关信息。另外能通过不断的训练学习增长智能。每次用户对引擎返回的信息进行评价,智能引擎根据用户的评价调整自己的行为。智能搜索引擎还能对搜索结果进行合理的解释。智能搜索引擎具有主动性:在任何特定的时候用各种方法与用户取得联系。这些特定的时刻可能是用户最关心的信息发生了某种变化等,而这些方法包括电子邮件,电话,传真,寻呼机,移动电话等。搜索引擎根据用户特定时刻的位置信息,选择恰当的方法跟用户通信。
智能搜索引擎可以通过自然语言和用户交互。它采取诸如语义网络等智能技术,通过汉语分词,句法分析以及统计学习理论有效地理解用户的请求,甚至能体会出用户的弦外之音,最大程度地了解用户的需求。
第三代搜索引擎PmdagQ与目前使用的其它各类搜索引擎相比,最大的优势在于它采用了其他搜索引擎以往从未采用过的对等(I2P)搜索理念来对互联网络进行全方位的搜索;长久以来,如何将搜索结果按照相关性进行排序一直是困扰搜索引擎技术的一大难题,Pmamo搜索引擎从一个新的角度尝试解决了这一问题,即通过大规模检查网络计算机的访问纪录决定搜索结果的排序顺序(在搜索的过程中,以点击率为基准,以降序来排列搜索结果)
(四)进行信息资源的整合
信息资源的整合是一个由计算机信息网络及相关技术构成的系统策略,它是指根据用户需要,分析检索条件,选择进入局域网信息库或进入NIERNET信息库,定位目标信息位置(存放信息资源的服务器物理地址)启动标引系统、翻译系统、信息导航系统、搜索引擎等,把检索结果经过整理和消除冗余后反馈给用户。
五结论
运用先进的网络信息智能检索技术能极大地提高科技查新的速度和效率,而为了提高科技查新信息的准确性和可靠性需要不断跟踪与应用新的网络信息智能检索技术。而信息搜索智能化和信息提取自动化是信息时代的发展需要,局域网和NTERNET的信息资源整合能促进信息资源的有效利用,加强信息资源的深层处理,提高检索系统的性能和易用性,实现信息检索的智能化和信息管理自动化,更好地实现科技成果信息资源的共建与共享。
中国论文网(www.lunwen.net.cn)免费学术期刊论文发表,目录,论文查重入口,本科毕业论文怎么写,职称论文范文,论文摘要,论文文献资料,毕业论文格式,论文检测降重服务。