数字化方面论文参考文献范文 和域外汉籍数字化探析以越南汉喃文献为中心方面函授毕业论文范文

本论文主要论述了数字化论文范文相关的参考文献,对您的论文写作有参考作用。

域外汉籍数字化探析以越南汉喃文献为中心

在广义上,汉文古籍包括散布于中国周边及海外其他国家的“域外汉籍”部分.其中,尤以日本、越南、韩国等地汉籍为代表,这些地区通常被冠以“汉文化圈”之称.域外汉籍绝大部分是以汉字为书写语言,具有较高的文化内涵和学术研究价值,其重要性已引起学界极大的关注.传统的历史、文献等研究方法从不同视角对域外汉籍的版本内容、语言文字和材料运用等进行了探索,取得了丰硕成果.如何进一步挖掘并利用域外汉籍中重要的内容信息,如时空坐标、文本逻辑、人物关系、社会网络,是需要思考的方向.本文尝试以越南汉喃文献为考察对象,探讨汉喃文献的数字化途径、信息构架和特色资源开发等问题,揭示进一步挖掘汉喃文献蕴含信息的路径和方法.

1 越南汉喃文献及数字化概况

1.1 越南汉喃文献概述

越南现存大量汉文历史典籍,以及以越南特有的“喃字”书写的文献,统称为“汉喃文献”.有相当数量的汉喃文献用以描述历史上中越两国之间的政治、经济、文化交往等,不但对研究越南历史,而且对从不同视角审视中国历史都具有不可估量的价值.这些汉喃文献的来源途径大致有4类:(1)历史上由中国刻印或者抄写成书,通过各种方式传到越南的文献;(2)历史上曾经归附中国各王朝的越南士人撰写的文献,如15世纪初归附明朝的黎澄撰写的《南翁梦录》;(3)越南各时期文人士子编撰的汉喃文献,这部分典籍占据了汉喃文献的绝大多数;(4)历史上越南基层社会产生的乡约、地簿、契约文书、家谱等民间文献.

目前越南汉喃文献收藏比较丰富的主要有越南国家社会科学院翰林院汉喃研究院(以下简称“汉喃研究院”)、越南国家图书馆、越南国家第四档案馆(主藏阮朝档案文献)、法国远东学院图书馆、法国国家图书馆东方写本部、法国亚洲学会图书馆、日本东洋文库等.其中,汉喃研究院是越南汉喃文献收藏和研究重镇,所藏文献中古籍多达2 万多件,还有5 万多件石碑、铜钟、磬、木牌等铭文拓片.这些汉喃文献为该类资源的数字化建设提供了文本保障.

1.2 越南汉喃文献数字化现状

相较于中国、日本等国,越南汉喃文献数字化较为落后,但还是取得了一定发展.2006年“喃字遗存保护会”(The Vietnamese N?m PreservationFoundation,VNPF,美国一所非营利性语言保护组织) 联合越南国家图书馆,创立“汉喃古籍文献典藏数位化计划”项目,将越南国家图书馆所藏部分汉喃文献进行扫描存储,截至2013年完成超过2000份汉喃文献的数字化工作并免费提供在线查询和阅读服务.日本大学东洋文化研究所及日本国会图书馆等机构不同程度地对所藏越南汉喃文献进行了数字化整理.这些数字资源建设的共同特点是以保存和阅读为目标的汉喃文献“数字化存储库”(见表1).

对比表1 所列的几种越南汉喃文献数据库,分析其数字化方式和途径,可以管中窥豹.作为汉喃文献存量最为丰富的越南尚未有专门的数据库,不得不说是遗憾.表1中的几种数字化资料呈现方式也存在弊端:首先,数字化理念仅停留在以文本保存为目的、以文本共享为基础的初级阶段.无法对资源进行检索、整合及分析等操作,无法体现文献资料的优势和特色,也不利于挖掘文本深度信息.其次,数字化量级有限.目前数字资源最为丰富的“汉喃古籍文献典藏数位化计划”也只是将越南国家图书馆所藏的部分汉喃文献进行扫描和分类存储,越南汉喃研究院等其他机构仍有数量巨大的汉喃文献有待进一步挖掘利用.最后,数量丰富的民间文献尚有很大开发空间.鉴于上述,不论从越南汉喃文献保护层面,还是资源共享和学术研究层面,加强汉喃文献数字化建设很迫切.

2 越南汉喃文献数字化的基本功能构架

越南汉喃文献除了具有中国古籍和其他域外汉籍的共同特性外,还兼有自身特点.这些特点既是汉喃文献独特价值的体现,又是其数字化的重点和难点.充分利用这些特点,构建越南汉喃文献数据库的基本功能,有利于深度挖掘这类文献的数据信息.

2.1 建立汉喃文献专业字库和词库

越南汉喃文献中,有数量可观的以“喃字”书写的文献,是越南特有的“汉籍”.喃字是越南在历史上为了适应本民族语言表达需要,以汉字为素材,运用汉字形声、会意、假借等造字方式来表达越南语的文字.喃字构造原理有独特的方式,主要有假借字和自创字两大类[1].其中,一部分是用汉字对越南语进行表音和表意.比如,“ ”,对应越南语为“Ba”,意为“三”,越南语读音即ba(巴),该喃字的构造方式为:用汉字“巴”表音,用汉字“三”表意,从而构造表述越南语发音和含义的新字体.再如,“ ”,越南语含义是“向下、下”,该喃字用“下”表意,用“吹”表音,构造出一个新含义的字.还有一部分会意字.比如,“ ”,其构造方式用“天+上”来表示“天”的意思.再如,“ ”,以“人+上”组成一个新字体,表示“头目”之意,而其读音与任何一个汉字部首均无关,主要是利用组合字的意思进行表意.

现存的越南汉喃文献中,以喃字书写的文献占五分之一多,还有数量可观的正规汉字和喃字夹杂书写的文献[2].与越南正史不同,喃字文献以描写普通民众的宗教和社会生活为主,具有社会史和经济史研究价值.因此,以数字化为问题导向,深入挖掘和利用汉喃文献,具有很高的学术和现实意义.

由于越南历史上儒学盛行,除却喃字文献,越南在文献刊刻、传抄流通过程中,也会因避讳对一些字进行处理,包括改字、空字、缺笔、拆字等,从而出现一些特殊字.比如,陈朝时期避讳“月”字,因此“月”字中少一横;因对“宗”避讳,同样以缺笔形式将其变成“ ”.越南汉喃文献中还存在一定数量的俗字、异体字或俗语表达,这些字体没有严格规范,词汇倾向于民间口语化,目前尚未有系统的整理研究成果,多数是靠研究者在阅读文献过程中依据经验等加以识读.比如,“咱”和“听”,在越南刻本和抄本中就存在差别,刻本中通常使用规范的字体“听”,如“听命”;而在抄本中有时候习惯用“咱”,书写为“咱命”,表达的依然是“听命”之意.

上述因为使用喃字、避讳、俗语等造成的新字体和词汇,有别于传统汉字结构,无法用目前的汉字识别系统进行辨识和数字化,所以建立越南汉喃文献专属的字库和词库就显得尤为重要.在这方面,需要加强汉喃文献中喃字、俗字、俗词的研究和整理.目前越南喃字研究已经较为深入,出版了不少喃字研究成果和字典,亦建立了喃字字库.以此为依托,建立相应的越南汉喃文献专业字库和词库在理论上成为可能.

2.2 建立汉喃文献的外部视角和分析框架

越南汉喃文献作为域外汉籍的重要组成部分,若得到充分挖掘和利用,可以促使研究者从不同视角探析研究对象.葛兆光提出,利用域外汉籍“从周边看中国”就是一种外部视角[3].凭藉越南汉喃文献,以不同的事件记录视角和历史承载方式反观中国历史发展,不但可以扩大研究视阈,而且可以客观审视历史发展脉络,其核心问题是如何利用越南汉喃文献的数字资源建立外部视角模型.笔者构建两个途径.

2.2.1 同一事件的不同视角和不同解读

(1)建立事件轴和时间轴的对比分析模型.文本比较分析是研究文献的重要方法,通过文本内容或写作风格的对比分析,可探析文献之间的继承关系和简单脉络.以数字化文本为基础,进行大量数据分析,可窥视传统分析方法难以发现的内在逻辑关系,思考文本出现异同的深层原因.历史文献的比较研究需要满足若干基本条件,否则缺乏可比性和可信度.概而言之,版本可信度是文献比较的核心要素,时间、地点、人物、事件这四个确定历史脉络的基本信息点至少要满足其中的一项或多项才具有对比分析的可能性.

历史文献的版本可信度对历史研究分析准确性至关重要.例如,对陈荆和校合本《大越史记全书》和西南师范大学出版的点校本《大越史记全书》(以内阁官版为底本)进行初步全文词频分类和权重分析,发现“天下”一词在两个版本中运用次数不一,但均出现了400多次,属高频词汇.如果简单凭藉该高频词汇探究作者吴士连的著史理念等问题,很容易得出错误的信息导向.现存《大越史记全书》版本众多(如正和本、内阁官版、引田利章本、陈荆和校合本),就吴士连的《大越史记全书》而言,仅有前15 卷为其所撰,此后经过多位史家扩充,最后形成24 卷正和本《大越史记全书》.这其中后来者对吴士连原文本作了哪些调整和篡改不得而知,“天下”一词的使用是吴士连本意使然还是后来者观念的表达则难以确定.如果选择的版本无法提供准确的信息,会导致相关分析结果失之千里.因此,版本可靠度的意义不言而喻.建立包括不同版本的数据库,方便研究者对比分析显得尤为重要.

(2)历史基本信息点的满足.以越南汉籍《大越史记全书》和《大越史略》对比分析为例,《大越史记全书》是越南编年体通史,以古汉语文言文编撰,是研究越南历史最重要的史书之一,全书编撰架构以时间为顺序,以叙事为主体;《大越史略》同样采用编年体方式编撰,以时间为顺序,每个时间段后以叙述历史事件为主体.两部历史文献所描述的历史发展脉络和时间段具有重合点,因此具有相同的对比要素,分别为时间(Time)和事件(Event).在此基础上,可选择相同要素进行定位,对比相同时段内历史事件叙述的异同,或者同一事件两者之间存在的时间记载差异等.另外,又可将《大越史记全书》和《大越史略》记载的诸多历史事件和脉络与中国史籍中的记载对应,通过数据库构建的对比分析框架,初步了解同一事件双方记载的不同视角和不同观点.以问题导向作为基本理念,以数据分析结果为视角,展开深入研究,想必会进一步扩大研究视域并提供新的研究思路.

2.2.2 关键词定位,扩展内容表述

关键词信息定位的准确性直接关系到获取文本的准确性和充分性.不同研究者对关键词的需求和要求不一,不同的文献侧重点亦不同,研究者对于文献的把握也至关重要.建立一种关系型信息查询功能,或许可以最大限度地解决关键词涵盖范围问题.由于研究者自身学术视野和学术积累不同,关键词信息定位也存在差异.研究者对熟悉的文本可以通过自身主观判断,迅速定位所需信息,剥离无效信息.然而面对信息量庞大的文献,研究者无法全部了解,因此需要定位辅助.历史研究注重时间、人物、事件等信息,在关键词定位的时候,相应的信息应当能全部提取出来,以便使用.对搜索出来的信息,可按时间进行排序,然后根据研究需要,将不符合的时间段剔除,如此获取的信息会更精确并更具针对性.同时,还可以根据地点信息,将不符合要求的地理信息剔除.

在惯用的关键词检索中,关键词少则单字,多则词组或短句,蕴含信息量有限.譬如,研究者需要了解《大越史记全书》中有关“黎圣宗”的资料信息,若以词组“黎圣宗”进行检索,所得结果均是以“黎圣宗”为词眼的信息文本.但是,《大越史记全书》中涉及“黎圣宗”的信息并非都以此名进行叙述,因此传统的关键词检索弊端在于检索手段单一,需要研究者具备充足的史料基础,对检索的信息有深刻的认识和理解,否则就容易出现上述信息搜罗不全的情况.事实上,研究者对于很多文本信息或者核心信息并非完全掌握,甚至完全陌生.此时研究者需要通过某一个关键词定位与此有关的所有信息去同时也希望借助关键词定位的信息去发现日常阅读文本时未能发现的新问题.因此,建立一种关联性信息定位理念,比如,将“黎圣宗”的名称、字号、谥号以及人物事件信息等进行关联,可实现有用信息迅速定位,既扩大了信息定位的准确度和广泛度,又提高了文献的利用价值.

3 建立汉喃文献数据的时空坐标框架

任何历史都发生在一定的时空范围内,具有时间和空间二维性,因此可将人物、事件、地点与具体的地理坐标结合,以数字地图的方式直观呈现,建立起立体的时空数据模型.目前将地理信息系统(Geographic Information System,GIS)运用到历史研究中比较成功的案例有“中国历史地理信息系统” (China Historical GeographicInformation System,CHGIS)和“中国历代人物传记资料库”(China Biographical DatabaseProject,CBDB),两者都将文献中的地理描述转化为GIS 上可显示的地理实体标识.GIS不仅成为历史研究的可视化工具,也在历史研究中起到辅助思考、发现问题的作用.历史文献中蕴含的地理信息转化成数字地图上的具体坐标实体,其分布态势和规律也就显而易见.以某种分布态势或规律作为问题导向,可深入探讨现象背后的形成要素,剖析现象产生过程,构建新的解读路径.在此,笔者以越南碑铭文献和燕行文献为例,阐述汉喃文献数据与时空坐标叠合的途径、价值及机制等.

3.1 碑刻文献时空信息提取的价值和意义

越南碑铭文献不仅数量庞大,而且较之纸质文本可追溯年代更早.以越南10 世纪后期建立自主政权开始算起,历经丁、李、陈、黎、阮等朝,皆有碑铭文献发现,可以说碑铭文献构成了越南历史文化研究最为宝贵的第一手材料.越南碑铭文献内容涉及民间活动、文件、宗族世系、寺庙活动等社会、政治、经济的各个层面,包罗万象,具有极高的史料价值.

越南已整理出版《李陈诗文》《河内碑文》《谅山碑文》《莫代碑文》《河西碑文》等碑铭文献,而《越南汉喃铭文汇编》《越南汉喃铭文拓片总集》的出版进一步丰富了越南汉喃铭文的数量.这些碑铭可弥补其他史籍记载之阙失,纠正传世文献之戕误,而且这些碑铭文献中同样蕴含着丰富的人物、时间、事件以及地点等信息.以《越南汉喃铭文拓片总集》为例,这套碑刻文献搜罗了22000个单位的碑铭拓片,主要内容有规约类、寄忌类、颂德类、事功类、诗歌类和其他[4].以时间和空间为基本框架,越南汉喃碑铭文献数字化架构可从两方面考量.

3.1.1 基于时空坐标系统的碑铭地域分布和数量分析

借鉴“中国历史地理信息系统”(CHGIS)构建经验,以时间和空间为坐标轴,对碑铭文献进行时空坐标的定位.这些碑铭文献的发现和搜集都有具体的时间和地点要素,辅之以GIS 手段,碑铭的分布地域、分布规律,以及分布差异等信息便可呈现出来.通过这一途径,既加深了对碑铭产地的直观认识,明确不同地域碑铭数量分布的异同,又可以将大量碑铭固有的地理信息呈现出来,而其中的某种分布规律和现象即是进一步研究的思考路径之一.

3.1.2 基于时空坐标系统的碑铭内容分析

越南汉喃碑铭文献涵盖了当地社会、经济、生活、祭祀、乡约、田丁簿等各方面内容,蕴含着丰富的时间和地理信息,通过深入挖掘这些信息,可进一步了解地方社会组织结构、运作机制,以及土地开发模式等问题.在此基础上,又可进一步窥见古代越南普通百姓的日常生活、地方与“”的关系,以及构建基层组织结构时的政治因素、路径方法、区域形成模式等.

3.2 燕行文献与时空坐标的结合

越南汉喃文献中,另一类比较有特色的为燕行文献.以《越南汉文燕行文献集成(越南所藏编)》为例,该书共收录了53位越南历代文人的79 部作品,时间跨度为14-19 世纪.其中,一部分作品不但记录了沿途各种人文和自然景观,还绘制了从越南升龙城(今越南河内市)到中国北京的路线图,以及沿途的景观图,当中的一部分诗文也是应景诗或者旅途有感而作,这些作品蕴含了丰富的时空信息.结合数字人文理念和相关技术手段,以文本数据为基础,燕行文献可进一步挖掘的信息途径或有3种.

3.2.1 构建以人物为核心的关系网络

借鉴“中国历代人物传记资料库”(CBDB)构建理念和组织架构,以人为核心,构建群体人物的个体属性(出生、死亡、家庭、教育等)和社会属性(职业、地位、仕途等)框架,进而以人物信息为基础,构建社会关系网络分析模型.突出人物核心地位,建立燕行文献的人物信息库,一方面可以展开人物的社会关系、亲属关系、仕途脉络等研究;另一方面也可进行人物籍贯的地域分布等拓展研究.

3.2.2 燕行文献路线图的复原和对比

部分越南燕行文献保留有绘制精美的地图,客观反映了当时的地理信息.结合“地理信息系统”(GIS)技术,通过研究将地图中的各类地理信息准确定位在GIS 平台上,辅以其他技术手段,使静态的文字和图画资料以动态化的模式呈现出来,既可以生动直观地发现今昔异同,亦可以发现文字或图画中不易为人察觉的地理分布现象和规律,为进一步挖掘文本信息提供导向.

3.2.3 沿途景观复原和对比

越南燕行文献大都记载了行程沿途各地的社会组织、人物习俗、建筑风格、河流峰峦等人文和自然景观,通过数字化途径统合此类信息,以相关研究为基础,以计算机技术为手段展开研究,对进一步探讨人文和自然景观形成背后的逻辑思路、方式途径、视角观念等大有裨益.

4 域外汉籍数字化共享的途径和意义

数字化不仅是提高文献资源保存和利用率、实现资源共享的有效途径,更是一种研究视角和思路的扩展——以问题意识为导向,发现新的问题和矛盾点.技术手段所要达到的目标并非直接展示研究成果或历史原貌,而是将某种未能发现的潜在规律及现象呈现出来.这种规律或现象的形成原因、条件及其他要素则需要历史研究者以科学的研究方法深入探讨.越南汉喃文献是域外汉籍的重要组成部分,以汉喃文献为中心,扩大至域外汉籍,通过不同国家、不同地区、不同文本数据库的建立,增强域外汉籍文献的共享程度,开发互为兼容的数据库,使数据之间可以互相利用.不可置否,数字人文技术的发展,使得历史文献的利用方式和路径发生了质的改变,也促使研究者对数字文献的利用程度进一步加深.文献资源的数字化过程是一个漫长而艰巨的任务,笔者在此仅希望抛砖引玉,引起学界对越南汉喃文献乃至域外汉籍数据库建设的重视.不同学科对于数据库的需求和使用存在差异,构建一个适合学科研究需求的数据库不仅是技术人员的责任,也是人文学科研究者需要面对的课题.

数字化论文范文结:

关于本文可作为相关专业数字化论文写作研究的大学硕士与本科毕业论文数字化论文开题报告范文和职称论文参考文献资料。

1、期刊数字化

2、数字化用户期刊