第1篇:试论汉语史研究对“外汉”教学的重要性
王力先生在《汉语史稿》中说,汉语史是一门关于很与发展的科学,它跟中国史,汉民族史的关系是非常密切的。下面通过几个例子,来说明汉语史的学习研究在对外汉语教学中的重要性。
一.语法教学方面:汉语处置式:“把”字句
王力先生的《汉语史稿》P474页讲到处置式的产生与发展,“在现代汉语里,有一种特殊的语法结构,就形式上说,他是用一个介词性的动词“把”字把宾语提到动词的前面,就意义上来说,它的主要作用在于表示一种有目的的行为,一种处置。在唐代以前,只有一半的动宾结构短语表示处置意义,把子也只是一个动词,有拿着持着的意思。但是经过发展,宾语提前,宾语后面能够有语言的停顿,使得较长的句子不显得笨重,更重要的是由于宾语提前,显示处置的意义,语言更有力量,所以把字句的这种语气力量并不是一般的结构形式能够比拟。
在对外汉语实际教学中,讲清楚“把”字的原意是拿,但是我们在用把的时候基本的语法特点是由施事充当主语,把字在主语后,受事充当宾语。举例“我吃完了饭菜”,用把字句,“我把饭菜吃完了”,句子中所包含的信息:谁、说什么、用什么做什么、最后的结果怎样,宾语的提前使得句子强调的受事、状态等因素全部凸现出来,而且句子的语义感情更加清楚。
二.语音教学方面:韩国同学的“f”“p”
王力先生的《汉语史稿》134页清楚讲到了现代汉语拼音中bpmf四个韵母发音的来源。音韵不是凭空产生的,是从古音发展变化而来,事实上,在日本和韩国,有很多事物的发音是从中国古代方言发音中截取的。现代汉语拼音“f”的发音是从中古合口三等的pp’b’中发展而来,而韩国对中国古音借音的时期并没有出现“f”的发音,这也就是现代汉语拼音中“f”的发音对于韩国同学非常困难的原因。从汉语史的学习中明白了语音的发展演变过程,在对外汉语的课堂中,出现不同国家学生的发音问题之后,更容易通过比较发现不同国家的不同发音特征,进行针对性的修正,使得教学更有效率。
三、语用教学方面:他是教师?老师?
在对于语用方面,最多的就是偏误分析了,我们知道汉语中有许多词与词的区别,句语句的区别,对于我们这些母语使用者是非常简答的,我们可以根据语感去判断结合什么样的语境语义去使用什么样的词语和句子。但是对于第二语言学习者来说,这是一个难点,由此,偏误分析作为对外汉语教学的一个重要环节一直发挥着它的作用,我认为,偏误分析是一种对比分析的方法,对比分析就需要有纵向和横向两个角度。比如说,教师与老师,这两个词语的辨析,我们可以通过配价比较的方法横向去比较,但是我们同样可以在纵向的汉语史的研究中找出答案,蒋绍愚先生曾说,虽然这两个词语都包含一个共同的语素“师”但是这个两个语素的意思是有很大分别的。老师古代就是师,传到授业的人,而老的意思是年老;现代汉语中,这个老已经成为了一个词头没有实际意义如同“老板”。而教师这个词里的师,就是指一类具有某种技能的人,例如,牧师,讲师,教师曾经的意义是教授某种技能的人,但是近代才被专制做教授知识的这个职业。
通过以上简单的举例,我们不难得出这样一个结论,作为一名对外汉语专业的学习者,对于汉语本体只是不应该仅仅限于现代汉语、语言学以及教学法方面,更应该包括古代汉语,尤其是研究汉语史。我们作为专业学习者,作为梦想成为汉语教师的人,更应该明白这个道理,认识到汉语史学习研究的重要性,将它与对外汉语教学结合起来,共同推动语言学、对外汉语教学的进步,用进步的目光向前看!
作者:祁晗
第2篇:论历史文献对汉语史研究的作用
一、基本概念
(一)文献
“文献”一词最早见于《论语·八佾》:“夏礼,吾能言之,杞不足征也;殷礼,吾能言之,宋不足征也。文献不足故也。足,则吾能征之矣。”[1](P1)朱熹在《论语集注》里解释这段话时说:“杞,夏之后。宋,殷之后。征,证也。文,典籍也。献,贤也。言二代之礼,我能言之,而二国不足取以为证,以其文献不足故也。文献若足,则我能取之,以证吾言矣。”[1](P2)由此可见,“文”指“典籍”,“献”指“贤才”。今天提及“文献”一词,一般偏重于“文”,是古今一切社会史料的总称。
(二)历史文献
从广义上说,一切文献都是历史文献,它是一切自然科学文献和社会科学文献的总和,包含了古往今来的所有著作和所有文献。从狭义上看,“历史”通常指人类社会的发展过程,一切有关历史的记载和编纂就是历史文献,它属于历史学科,是文、史、哲、经济、法律等学科分类中的史学著作。[2](P6)本文提及的历史文献是广义上的历史文献。
(三)汉语史
汉语史是关于汉语发展的内部规律的科学。在这一门科学中,我们研究现代汉语是怎样形成的。这就是说,我们研究现代汉语的语音系统、语法结构、词汇、文字是怎样形成的。[3](P1)1957年王力《汉语史稿》的出版,标志着汉语史研究的开始。
二、历史文献对汉语史研究的作用
鲁国尧在《论“历史文献考证法”与“历史比较法”的结合》一文中指出:“研究汉语史的最佳方法,或者最佳方法之一是将‘历史文献考证法’与‘历史比较法’结合、融汇。”[4](P181)本人非常同意这一观点,由此我们也可以看出,对于汉语史的研究,运用最多的方法就是“历史文献考证法”和“历史比较法”。下面,我们将主要以这两种方法为例,谈谈历史文献在汉语史研究中的作用。
(一)历史文献对“历史文献考证法”的作用
顾名思义,“历史文献考证法”就是在历史文献中找到汉语发展内部规律的证据,这必然离不开历史文献,所有的研究、推论、构拟全赖于历史文献。中华民族历史悠久,文化繁荣,历史文献异常丰富,这为我们的汉语史研究提供了得天独厚的条件,对历史文献进行深入系统的研究,能极大地推动汉语史研究的发展。
如《切韵》音系的性质一直以来是各家争论的焦点,对于这个问题的讨论,我们可以在《切韵序》的文献中找到依据。《切韵序》中有一段重要的论述“因论南北是非,古今通塞”,针对这一点,洪诚认为“假定《切韵》是记录一个方音系统,那么讨论古今南北的是非通塞是多余的”[5](P164),由此可以考证出《切韵》记录的应该是一个综合音系。
此外,我们需要注意的是,不仅仅语言学方面的历史文献对汉语史研究有重要作用,其他历史文献同样对汉语史研究有着重要作用。如林焘在《北京官话溯源》一文中,考察了语言、历史、政治、人口、民俗等各方面的文献,从而指出“一千年来我国东北地区和北京人口相互流动的历史情况充分说明东北方言是一千年前在现代北京话的前身幽燕方言的基础上发展起来的,在发展的过程中,仍旧不断和北京话保持密切接触,并且曾两次‘回归’北京:一次是12世纪中叶金女真族统治者迁都燕京时,另一次是17世纪中叶清八旗兵进驻北京时。这两次的语言回归对北京官话区的形成和现代北京话的发展都起了很大的推动作用。两种方言相互影响,日趋接近,形成了一个包括东北广大地区和北京市在内的北京官话区。”[7](P109)这也是林焘将东北官话纳入北京官话区的重要依据。通过上面的论述,我们不难看出,林焘认为东北方言与北京话同源,且由于政治和移民的影响,二者一直保持着密切的联系,所以发展至今,出现了“从东北地区经赤峰、围场、承德直到北京市,形成一个在东北非常宽阔,进入河北省后逐渐狭窄,到北京市后只限于城区的北京官话区。”[7](P109)这也就是为什么与北京市毗邻的河北方言听起来与北京话截然不同,但是远在黑龙江的哈尔滨方言却与北京话极为相似的原因。
(二)历史文献对“历史比较法”的作用
“历史比较法”是历史比较语言学的理论和方法,“它运用比较的方法确定语言之间的亲属关系以及这种关系的亲疏远近,重建原始语,把各亲属语言纳入母女繁衍式的直线发展关系之中,因而提出语系、语族之类的概念。”[10](P2)
历史比较语言学所处理的材料主要包括现实的语言和历史文献。由历史比较语言学产生发展的过程可以看出,历史文献在历史比较语言学的研究中占有非常重要的地位,要进行比较,语言材料非常重要,正是有了大量的语言材料的积累,才有了历史比较语言学的诞生。个别语言的历史研究是历史语言学的基础,没有对具体语言的详细的、深入的研究,历史语言学的一般原理、方法、原则就无法建立。而这些语言材料除了在活的语言中搜集外,最重要的搜集途径就是历史文献。
(三)历史文献的局限性
虽然历史文献对汉语史研究有着极其重要的作用,但是它还是有一定局限性的。首先,对于有文字来说的语言,可以凭借文字、文献材料建立有史时期的语言史。这就是说,对于没有文字的语言,或者是史前的语言,历史文献对其语言史的研究几乎没有作用。其次,对于拼音文字,文字、文献材料能很好地反映文字的创制或改进、改革时期的语言的语音面貌,但是对于表意文字来说则不尽然,如汉语能从各时期的诗歌、韵书、韵图中归纳出各个时期的音类,但是不能推测出具体的音值。
针对这些局限,王力提出,要将“死材料”与“活材料”结合起来。也就是说,对于汉语史的研究,不仅要注重历史文献的考证,也要重视方言和亲属语言的研究与运用,只有将二者结合起来,才能打开汉语史研究的新局面。
三、结语
本文以汉语史研究中非常重要的“历史文献考证法”和“历史比较法”为例,详细地论述了历史文献对于汉语史研究的重要作用。与此同时,也提出了历史文献在汉语史研究中的局限性。为了将汉语史研究推向更加深入、系统的新阶段,我们要将“死材料”与“活材料”结合起来,在注重考证历史文献的同时,重视对方言和亲属语言的研究与运用。
作者:于丹
第3篇:汉语史语料学在对外汉语词汇教学中的应用初探
汉语言的历史源远流长,从古代汉语、近代汉语传承下来的现代汉语,不免带有历史的印记。不论是语音、词汇还是语法,现代汉语仍然保留了许多古代汉语的特征,所以以现代汉语为主的对外汉语教学研究仅仅从共时角度着眼是不够的,从历时角度加以考察才是科学的研究角度。其中,汉语词汇教学作为对外汉语教学的核心内容之一,与古代汉语的联系最为密切,也较为容易通过语料进行考证,现代汉语词汇是在长期的历史积淀下不断变化的产物,与历代的汉语词汇均有不可分割的联系,所以借助汉语历史语料分析现代汉语词汇,不仅可以探索古代文言对现代汉语词汇的影响,加深我们对现代汉语中各种词汇现象的认识,而且对汉语的教学与研究有着莫大的帮助,甚至现在许多网络上流行的新词新语也和古代汉语延续下来的构词法有着一定的联系,这也是将汉语作为第二语言学习的高阶学习者需要掌握一定的文言知识和相关文化背景的原因。
一、古代单音词与现代复音词的比照
单音词、复音词是就词的音节构成情况划分的。古代汉语单音词占优势,但在向现代汉语演化的过程中逐渐实现复音化,这也是为减少同音词及歧义必然的趋势。当然,这并不意味古代汉语中就没有复音词,只是表明现代汉语中许多复音词都由古代汉语中的单音词发展而来,其中很多现代汉语双音词的不自由语素仍保留文言中的古义。我们可以通过研究古汉语单音词和现代汉语复音词语料的对应情况,来帮助学生正确理解词义、扩充词汇量。我们将古代汉语单音词和现代汉语中意义相当的复音词进行比照,主要有如下三种情况:
(一)古代的单音词与现代对应的复音词没有相同的语素
这种情况下的古代单音词一般都有较为生僻的涵义,或是多义词中表示较不常用的意义,因此被完全不同的复音词取代。例如:
因退立,股战而栗。(《汉书》)股:大腿
惟仲康肇位四海,胤侯命掌六师。(《尚书》)师:军队
上例中的“股”“师”在现代汉语中的常用义不再是“大腿”“军队”的意思,日常会话中也很难用到。在《对外汉语教学初级阶段词汇大纲》(以下简称为《初级词汇大纲》)中,含“股”的词项仅在例句“一股冷空气正缓缓向东移动”中作为量词出现,“师”出现在“老师”“教师”“师傅”三个词项中,并不涉及“军队”这个义项。因此,在初级词汇教学中并不需要特别涉及此类含生僻义语素的词汇教学,但是随着教学的深入和阶段的提高,当遇到“悬梁刺股”“兴师动众”这类成语教学时,就有必要联系历史文化背景来解释词中各语素的含义,而且特别需要提醒学生辨别其与通常意义的区别,以免发生混淆,破坏对词义的正确理解。同样的例子还有“救火”的“救”,意为“阻止”,这符合其在《说文》中的解释“救,止也”。对于这部分不自由语素还保留古义的现代复音词,是不能只凭英语翻译或是现代汉语的常用义来解释的。
(二)古代的单音词,加上前后缀,成为现代的复音词
这种情况下,古代的单音词不改变原意,添加一个词缀以便发音和组句,顺应词语复音化的趋势。例如:
虎兕争兮於廷中,豺狼斗兮我之隅。(《楚辞》)虎:老虎
先陨而后石何也?(《谷梁传》)石:石头
上例中的“虎”“石”在现代汉语中意义没变,只是在形式上增加了词缀,变得更加口语化了。《初级词汇大纲》中,“虎”出现在“老虎”“马虎”两个词项中,“石”出现在“石头”“石桥”“石子”三个词项中,均保留了古义,都是在原词干的基础上添加了前后词缀而成。对外汉语教学中,我们可以借鉴英文词根、词缀的原理,定期、集中为学生列举一些含有相同词根或者词缀的例子,培养学生的认词猜义的能力,这对于学生的日常阅读无疑会有一定的帮助。
(三)古代两个同义或近义的相关单音词组成一个现代的双音词
这种情况也是为了顺应词语双音化的潮流,用古代汉语中意思相近或相关的单音词来共同构成现代汉语的复音词,例如:
朋、友——朋友道、路——道路婚、姻——婚姻
减、少——减少洪、水——洪水事、业——事业
艰、难——艰难知、道——知道衣、裳——衣裳
学、习——学习恐、惧——恐惧城、市——城市
从这些例子可以看出,这些现代汉语的双音词并不是凭空造出来的,而是经常在古代汉语中以词组的形式出现,后来凝成一体,引申成为现代汉语的双音词,比如“婚姻”,在《史记》“寡人与楚接境壤界,故为婚姻,正义婿之父为姻,妇之父为婚,妇之父母婿之父母相谓为婚姻”中,“婚”“姻”作为近义的单音词还是有些微的区别的,在现代汉语中才合成双音词来表示“嫁娶、结婚的事”。所以在对外汉语教学中,可以适当分解语素来讲解词义,加深对词义来源的理解。同时,也需要分辨现代汉语双音词中近义语素的区别与联系,特别是对学习古代汉语的二语学习者来说,不能将古代连用的两个单音词误解为一个现代的双音词,避免以今释古。
二、古代复音词与现代汉语词汇的融合
复音词是顺应历史潮流、随着时间的推移逐步增多的,古代复音词相较于单音词来说还是占少数。复音词可分为单纯复音词和合成复音词两大类。单纯复音词只含一个语素,包括联绵词和外来词,联绵词是汉语固有的,音译外来词则是通过译音方式吸收的其他民族语言词汇。合成复音词含有两个及两个以上语素,古汉语的合成复音词主要包括重叠词和复合词。通过研究不难发现,古代复音词通过长期的筛选和进化已逐渐融入到现代汉语的词汇中。
(一)联绵词
联绵词是由两个音节连缀成义的单纯词,从语音出发可分为双声、叠韵、双声兼叠韵、重言、非双声叠韵几种类型,现代汉语中也仍保留这个定义及分类,不同的是旧词的淘汰和语音上的变化。对外汉语教学中需要注意的主要还是语义方面的问题,需要提醒学生不能拆开连绵词解释,切忌望文生义,如“望洋兴叹”中的联绵词“望洋”,出自《庄子·秋水》“于是焉河伯始旋其面目,望洋向若而叹”,不能误解为望着海洋,而是指目光呆滞、神情迷茫的样子。
(二)外来词
语言作为交际工具,随着国际交流的加强也必然会不断受到他国语言的影响。相比现代汉语,古代汉语的外来词相对来源较少,也留有许多历史变迁的印记。汉代佛经的传入,使汉语中增加了一些梵语译词,如“玻璃”“浮屠”;少数民族的融合以及与世界各国的交往,也使不少民族词、外语词进入汉语,如“骆驼”“葡萄”“喇嘛”“可汗”。虽然有些古代外来词现在已不常用,但是吸收外来词的传统依然在继续,现代汉语中的外来词不仅有音译形式,还有音译兼表意、音译与意译相结合、直接借用等形式,如“沙发”“纽约”“芭蕾舞”“卡片”“积极”等。在教学中可以通过解释外来词的来历,吸引来自不同国家、民族学习者的兴趣。
(三)重叠词
古汉语中单音词的重叠形式颇为常见,如“朝朝(每天早晨)”“人人(每人)”,而现代汉语的重叠词则更加灵活多样,有AA、AAB、ABB、AABB、AABC、ABAC、ABCC等多种形式,如“悠悠”“兴冲冲”“清清楚楚”“默默无闻”“无影无踪”“虎视眈眈”等。因为现代汉语叠音词结构较为松散,所以比起古代汉语,不仅数量上有明显增加,也较容易找到规律,构词能力更强。在教学中,可以鼓励学生举一反三来学习叠音词,如量词重叠含有“每”的意思,部分双音节形容词可以变成AABB的形式表示强调。
(四)复合词
古汉语中的复合词从语法角度可以分为主谓式、偏正式、并列式、动宾式和附加式,这种构词法在现代汉语中得到了继承和发展。但需要注意的是部分并列式复合词的两个语素并不都参与表义,其中一个语素表示显性意义,而另一个语素的意义是隐性的,这就是偏义复词。偏义复词作为古代汉语学习的一个难点,在现代汉语中也会经常出现,如“无足轻重”,“轻重”偏指“重”,意为“不值得重视”。对比古今偏义复词,可以发现其在古汉语中偏指义语素相对不固定,更需要依赖上下文来进行判断,语素之间的结合也较为松散。多数情况下现代汉语对偏义复词的判定不需要语境,如“国家”“窗户”等,它们的意义已经固定,不像在古汉语中仍保留选择性。但是有一些偏义复词无论是在古代还是在现代都需要借助语境来进行判断,例如“长短”,《史记》中“而朱公长男不知其意,以为殊无短长也”的“短长”即偏“长”;《脏腑记叙》中“余刻此图,并非独出己见,评论古人之短长”即偏“短”。现代汉语中“一较长短”就是“比较谁更好”的意思,“长短”偏“长”,但在“他很小心,生怕有个长短”中,“长短”偏“短”。古今比较之下会发现,现代汉语对古代汉语词汇词义进行浓缩简化的同时,也有着继承和发展。在汉语教学中,对于有固定偏义的复词可以不做过多的解释,但是对于需借助语境来判断的偏义复词就要提醒学生特别注意一下。
三、汉语史语料学在对外汉语词汇教学中的运用及意义
通过简要对比古代汉语和现代汉语的词汇关联情况,我们可以大概了解汉语词汇的发展方向,即词语的复音化。具体的关联发展情况和相应的汉语教学方法总结如下图所示:
随着多个复音词代替一个多义的单音词及复音词本身的更新变化,加上社会改革带来各种各样的新词新语,汉语的词汇越加复杂多样。但语言的变化不是一朝一夕就能完成的,而是在不断的变化发展中进行的,特别是词汇,作为其中更新最快的部分,在对外汉语教学中不能让学生死记硬背、以偏概全。
借助汉语史语料学来收集词汇资料,了解汉语发展过程中词汇的变化情况和词义来源,无疑可以为我们的二语教学工作提供一个有益的参考方向,其作用大致可以概括如下:
(一)有利于更好地理清词义。对对外汉语词汇教学而言,我们不仅要关注正在变化更新的词汇,也需要考察历史。一方面,现代汉语构词能力最强的字义系统来源于古代汉语;另一方面,现代的书面语中也依然保留大量古汉语词汇,特别是古汉语中的成语、名句现在仍大量沿用。所以通过借助汉语史语料学搜集词语例证、对古代文献的词语进行归类整理,可以帮助学生总结构词规律,探求词义理据,并学会通过分析、预测来理解、记忆新词。同时,有利于加强学生对词汇中语素义的把握,也便于学生正确分辨同义词、近义词。
(二)有利于奠定良好的汉语基础。通过历代语料的考证,不仅可以使学生准确把握词汇义,扩充词汇量,也能够让他们对词源有一定了解,这无疑对汉语的学习有很大帮助。
(三)有利于激发学生兴趣。引入古汉语的词汇语料,可以使汉语学习者接触到不同于现代汉语的汉语语言风格。对词语的追根溯源及古汉语的天然美感,都可以吸引已有一定审美能力的二语学习者继续学习、探索下去。
(四)有利于更好地理解中国的传统文化。通过对比古今词汇的变化,可以窥见中国历史的变迁,词汇是时代的忠实折射物。中、高级的汉语教学中就包含许多中华文化因素,真正理解现代汉语的语言,还需要从古代汉语中寻求答案,古汉语的词汇就是学习的入门。对一些保留古义的词汇的熟练运用,耳濡目染中国古代的思维方式与语言习惯,可以让学生从文化层面上理解和运用汉语,这也是对外汉语教学希望达到的最优教学目标。
当然,古汉语史语料繁多,而留学生的学习时间和精力有限,在词汇教学中如何合理引入并分配涉及古汉语词汇的学习内容,如何提高学生的学习效率,如何分类搜集语料来分析特定的词汇现象,都是值得我们继续探讨的问题。
作者:张静
第4篇:汉语史研究中的数字化研究手段简介
一、最初的方法
汉语史研究中的数字化研究手段是语言学的计算机辅助研究,即CAR(Compute-AssistedResearch)的一部分。①(P56)最初语言学引入的数字化手段集中在语料库,特别是现代语言语料库的建设方面,即将以往由纸制材料存储的语料改为由计算机存储,从而实现了由自然人的阅读向机器阅读的转变。机器阅读以其速度、精确度方面的优势为语言研究中的统计、采样、辞书编纂等提供了方便。数字化最先在汉语史研究中的应用也是从古籍语料库的建设和利用开始的,其后又引入了关系数据库等手段,为文献语料精细分析加工提供了可能。
我们认为,迄今汉语史研究的数字化主要包括语料的数字化(古籍电子语料库建设)、原有语言知识的数字化(汉语史专家知识库建设)和新语言知识生成的数字化三个层次。语料的数字化多借助于古籍文献语料全文检索系统而实现,原有语言知识的数字化和新语言知识生成的数字化则既借助全文检索系统,又借助关系数据库及其编程技术而实现。
(一)古籍文献语料全文检索系统
古籍文献语料全文检索系统,亦被称作古籍电子化,是指“利用现代计算机技术,对古籍文献进行科学系统的整理,主要应解决存储与检索问题”,它服务于相关人文社会科学的各个部门。据《国学宝典》的设计制作者尹小林先生的观点②,古籍全文检索系统的主要制作程序包括以下十个方面:1.选书;2.数据规划;3.录入;4.补字;5.审校;6.标引;7.软件编写;8.数据联调;9.软件测试;10.界面设计。
汉语史因其主要的工作就是从古代文献语料中发现语言规律,故而成为古籍文献语料全文检索系统的最为主要的用户之一。古籍文献语料全文检索系统的主要优点是“长于检索,能从各种格式、超大容量的文件中迅速、彻底地搜索目标字串,显示包含目标字串的句子,并能返回全文检阅原文,也可以马上输出,进行编辑”。③(P61)如考察某词的发展,可利用台湾中央研究院研制的“汉籍全文检索系统”,输入一词,查遍全部《二十五史》四千余万字,只需一、二秒,并将检索结果依序穷尽排出,供浏览或打印。如将此项工作交由一个学者,只怕皓首穷经,也未必能保证精确不漏。④(P69)一般的古籍数字化工作面向的用户较为宽泛,对于特定用户所需要的特殊文献未必都能照顾到。从事汉语史研究工作的学者需要特定的语料和文献,这些古代文献包含大量异体字、古今字、通假字、冷僻字、讹俗字,在制作和显示方面有着特殊困难,故而其生产缺乏社会认同度,只能由从事语言研究的学者和单位自己承担。近年来,不少的单位和专家都意识到汉语言文字典籍数据数字化工作的重要,也有了一些初步的成果。
(二)关系数据库系统
全文检索系统只是利用数字化资料的最为基础的应用,它以字符串作为数据,采用的是非组织化的整体存储方式,数据之间的关系被人为隔开,该方式决定我们只能通过它进行直接的、穷尽性的字符串检索。然而语言研究中的要求是多种多样的,绝不满足于全文检索系统的检索字、词、句。
关系数据库技术是在全文检索技术之后又一个深受语言研究者青睐的技术手段,两者各有所长,互相补充。全文检索系统主要存储非线性的、非结构化的数据信息,数据库系统则主要存储、管理有组织的、结构化的数据信息,通俗地讲,就是类似于表格的数据信息。所谓关系数据库是指能处理二维表格,能够进行投影、连接和选择等关系操作的数据库。该数据库既便于人们观察数据的关系,又具备强大的系统管理功能,能开展一些全文检索系统不能胜任的工作。
数据库技术运用于汉语史研究是从汉语史专家知识库的建设开始的。从事汉语史研究的学者发现大量的语言学典籍,其文献结构本身就是结构化的。如《广韵》《集韵》等韵书,文献本身即构成语言知识,它们是古代语言学家语言研究成果的一个固化。1986年华中工学院陈汉清、邓希敏完成的《古今字音对照手册》计算机处理系统通过了技术鉴定。该系统将《古今字音对照手册》作为信息源全部存入计算机,建立了古今字音对照的原始资料库、数据资料库以及面向专家分析、研究、检索、验证系统,大大方便了音韵学研究。⑤[P89-91]此外,关系数据库技术还可应用于汉语史专书词汇、方言、以及诗文韵部的整理等研究中。这些技术的运用大都必须与数据库编程语言或其他编程语言结合起来,通过对数字化语料和原有语言知识进行排比、对照、分析来生成新的语言知识。
二、新的方法——XML标注语言
(一)语言研究需要标注技术
“计算机原本是数值计算的工具,后来虽然也可以处理文档,但这种处理仍然是二进制数值的计算。现在学者最常用的计算机功能就是全文检索,检索结果显示的是字、词、句子,但计算机不过是在对字符的编码进行匹配,对记录字符串的数值进行运算。计算机并不能懂得文档的内容——知识。不能处理知识,计算机就不能用来进行学术研究。要使计算机‘理解’文档内容,可以采用标记(Tag)对文档内容进行标识。”⑥(P9)这种标识应该是能够由语言研究者自主定义的,可根据需要随时扩充其标记。虽然关系数据库技术出现后,可以将文档的内容分析为字段和记录的形式加以存储,也在某种程度上实现了内容的可理解。但是数据库一方面依赖于特定的软件管理系统,另一方面它又肢解了原文档内容的整体性,降低了语言学典籍的可读性。特别是大量的汉语史文献,其文档结构为立体型,如用关系数据库存储,将不得不建立多个数据库表进行关联,如此程序的编写和语言知识的提取分析都将不胜其烦。所以汉语史研究引入一种自定义的、面向纯文本的、能存储结构化数据的标注技术就显得非常重要了。
(二)XML标注语言简介
XML(ExtensibleMarkuplanguage,可扩展标记语言)正是符合我们要求的一门创建结构化数据的技术。它实际上是一种元语言,即一种使用标签存储结构化数据的规范,该规范由W3C组织建议使用。XML将加了标签的数据保存在标准的文本文件中,可以使用任何的文本编辑器,比如Windows操作系统自带的记事本应用程序,来读取和编辑XML文件。XML是可扩展的,这意味着在创建XML文档时,不会局限于一套预先定义的标签,而可以根据你自己的需要创建所需要的任何标签,如我们汉语史研究独有的会意、转注、初文、或体、亦声、省声等均可自行定义。⑥(P9)XML标准还提供了一套与这些细节相关的规则,比如如何创建标签、XML文档如何结构化。XML文档存储的数据虽被加上了标示语义的标签,但由于XML保持数据存储与数据显示相分离的原则,我们借助标签提取的数据在显示上将相对独立。
(三)XML技术在汉语史研究中应用
在汉语史研究中,我们应用XML技术包括了文本生产、数据建模、文本标注、属性提取、文本转换以及应用程序接口的编写等工作。
汉语史的研究材料首先是古代文献,目前大量的古代文献已经被录入电脑,成为可资利用的电子文档。适于汉语史研究需要的古籍电子文本,至少满足以下几个要求:一、纯文本格式;二、繁体文本;三、学术质量高。⑥(P9)就目前情况来看,很多的面向汉语史研究的古籍电子文本还只能由从事语言研究的工作者自己来制作。
有了数字化的电子语料,下面就要对语料文本的自身结构展开分析,为预计生成的XML文档建立数据模型。数据模型提供了XML文档的逻辑结构的一种表示。它指定文档可以包含的元素以及这些元素之间的关系,这种关系往往是一种立体的成树型的结构。DTD(DocumentTypeDefinition)和XMLSchema是用于指定数据模型的两种可用技术。比较而言,Schema是一个更强大和灵活的数据建模工具。XMLSchema的W3C的推荐标准叫做XSD,它可以更加准确地描述文档结构。
建立数据模型后我们就可以根据模型对我们的数据进行标注了,标注并加以声明的文本就是我们需要的XML文档。大部分情况下,XML都是通过程序来创建的,而MicrosoftWord2003目前也可以创建XML文档。
创建的汉语史XML文档,由于各个元素都被加上了相应的标签,我们就可以按图索骥,从中提取我们需要的元素和知识。要从原有XML文档中提取、转换并显示出我们需要的元素和信息,我们可以利用XML的样式表技术。样式表有两种:即层叠样式表(CSS)和可扩展样式表(XSL)。目前两种技术可结合使用,即用CSS控制结果在浏览器中的显示,用XSL转换XML文档以生成另一结构的XML文档。
作者:甘勇
中国论文网(www.lunwen.net.cn)免费学术期刊论文发表,目录,论文查重入口,本科毕业论文怎么写,职称论文范文,论文摘要,论文文献资料,毕业论文格式,论文检测降重服务。