关于项目类论文写作资料范文 跟数字人文项目莱比锡开放碎片文本序列(LOFTS)探究类论文写作资料范文

本文关于项目论文范文,可以做为相关论文参考文献,与写作提纲思路参考。

数字人文项目莱比锡开放碎片文本序列(LOFTS)探究

摘 要 文章以“莱比锡开放碎片文本序列”项目(Leipzig Open Fragmentary Texts Series)为对象,在厘清其研究背景、人员构成及目标主旨的基础上,阐述了该项目的技术路径及三个子项目:《希腊史残卷》数字化项目、阿忒那奥斯数字化项目及帕罗斯石碑数字化项目的具体内容及相互关系.

关键词 数字人文 古籍数字化 关联数据 LOFTS

引用本文格式 赵洪雅. 数字人文项目“莱比锡开放碎片文本序列”(LOFTS)探究[J]. 图书馆论坛,2018(1):10-20.

1 项目缘起及研究背景

  “莱比锡开放碎片文本序列”项目(Leipzig Open Fragmentary Texts Series,LOFTS) ①是由莱比锡大学数字人文中心(Humboldt Chair of Digital Humanities, University of Leipzig)、美国塔夫斯大学珀尔修斯数字图书馆(Perseus Digital Library,PDL)和哈佛大学希腊研究中心(Center for Hellenic Studies,Harvard University)联合开发的数字人文项目.2013-2014年是LOFTS项目的发轫阶段.莱比锡大学数字人文中心最初在2013年“人文计算与数字文化协会”年会(Associazione per l´Informatica Umanistica e la Cultura Digitale)上提出这一项目,成为“开放文献学项目”(Open Philology Project)② 的一个分支.此后在一系列数字人文研讨会上历经多方探讨,最终在2014年7月举办的“开放文献学——全球化社会中的历史语言”研讨会(Open Philology Historical languages in an open,global society)上,LOFTS项目的目标主旨、技术路径及编辑实践等问题才得以明确和细化.

  LOFTS项目是在数字化基础上,对古典文献中的“碎片文本”进行元数据标引和深度整合的尝试,研究对象是古代文本中大量存在的引文和佚文,即西方古典文献学中所谓的“碎片文本”(Fragmentary Texts).古希腊、古罗马时期有大量作品是通过后人的引用才得以保存至今③.部分作品尚有原文留存,但更多作品成为佚文,其吉光片羽散入后世文本,被迫脱离最初的上下文语境,在后人阐述、解释自己的观点时被摘录、嵌入,从而得以流传至今.这些引文和佚文形式多样,有的是一字不差的原文照录,有的是语义含糊的间接意译,有的则是古希腊语、拉丁语、阿拉伯语、古叙利亚语之间的译文转换[1].这些支离破碎的碎片文本往往只是原著的一小部分,却是经过后世学者摘录、转引、翻译、重组和加工之后的产物,在文本研究领域中极具价值.尽管与原著相比,碎片文本或多或少存在“失真”现象,不可能完全再现作品原貌,但恰恰是这种或是人为或是无意造成的传播演变,为碎片文本本身提供了来自后世不同时段、不同作者的多元化阐述,为文本研究提供了广阔的天地.

  随着计算语言学(Computational Linguistics)与语料库语言学(Corpus Linguistics)的盛行,西方古典文献学开始对包括碎片文本在内的“文本引用”(Text Reuse)现象进行深入反思[2],定期举办研讨会,启动项目,开发分析工具.比如,“分享古代智慧”项目(Sharing Ancient Wisdoms)、“文本嵌入”项目(Tesserae)和“欧墨鲁斯”项目(Eumaios)均是在建立大型语料库的基础上,尝试对不同文本中的相同元素进行分析.鉴于文本引用现象几乎在所有人文学科中普遍存在,尤其是以文本为首要研究媒介的学科(如历史学、版本目录学)更是如此,因此,在大型语料库中采用现代信息技术检测互文、袭用和翻译现象的研究方法,成为数字人文研究的发展方向之一.

  在数字人文视域下,文本也是数据的一种形式.碎片文本作为引用者主观加工之后的产物,其附带的传播演变信息也可以以数据的形式呈现.这种以海量数字文献资源为基础、以大规模数据检索为手段的文本研究方法具有传统文本研究不可比拟的优势,不仅能够体现某一相同文本元素在传播过程中的不同演变形态,还能够分析它们之间的复杂关系[3].“莱比锡开放碎片文本序列”项目即是在这样的研究背景下展开的.

2 人员构成及目标主旨

  LOFTS项目组由主编、助理主编和技术顾问三类成员构成.主编由莱比锡大学助理教授莫妮卡·伯蒂(Monica Berti)担任,对项目进行整体规划布局.5位助理主编分别来自美国塔夫斯大学、福尔曼大学、圣十字学院、纽约州立大学布法罗分校及德国汉堡大学,均为熟悉古典文献学、计算语言学、文本传播等领域的学者,负责对“碎片文本编辑器”(Fragmentary Texts Editor)中的元数据进行审校、修改.6位技术顾问来自美国塔夫斯大学、杜克大学、伊利诺伊大学香槟分校、英国伦敦国王学院及加拿大蒙特爱立森大学,负责对具体技术问题提供支持.该项目最初由莱比锡大学数字人文中心提出总体构想,借助美国塔夫斯大学珀尔修斯项目(Perseus Project)的基础设施和数字平台,以及哈佛大学希腊研究中心在古典文献学方面的学术支撑,三家机构共同协作,充分体现了数字人文研究跨学科、跨领域、跨国界的特点.

  以往在开展传统文献整理工作时,首先要汇集众书,在博览群书的基础上广泛摘录(Decontextualized Extract)某人某书的相关文本,逐一胪列,集腋成裘,并形成引文索引,进而可以裒辑为某人或某一地区全部作者的文献汇编.从本质上讲,这种汇编式著作本身即一种超文本(Hypertext),但传统的辑佚方法会导致引文或佚文与其上下文语境相割离,上下文中关于该段引文或佚文的简介、描述、文学评论、词素、句法特征等大量丰富的潜在信息丢失.而数字环境则为所辑录的引文或佚文提供一种嵌入原始语境(Contextualized Annotations)的可能,使之超越传统纸质作品的局限性[4].

  LOFTS项目的目标即是在数字环境下创建一个开放的、动态的、基于协作众包的数字人文基础设施平台,使其能够将某作品所引用的碎片文本与其源文档相链接,并能与其他多个版本相比对,如与保存在其他作品中的相同内容进行比对——将阿忒那奥斯所引用的荷马的某段著述与荷马的现存作品相比对[5].通过对比引文与原文之间的差异,可以检验作者在进行文献征引时的可靠性与准确性,推断作者的引用习惯.

  LOFTS项目可以充分展现碎片文本、原文与其注释之间的复杂关系.作者在引用碎片文本时也在表达自己的观点,因此,碎片文本的上下文语境通常会对碎片文本及其原文产生相互注解的作用.通过原文,读者可以更好地理解作者的引用意图;通过后世作品的上下文阐述,也可以对碎片文本及其原文萌生新的理解.一些后世文本版本精良,如后世阿拉伯人对古希腊作品的译著,可与现存古希腊残本相互参校,对揭示古希腊碎片文本而言极具文献价值.

  具体来说,LOFTS项目的主旨是将含有碎片文本的纸质作品进行数字化,构建支持协同编辑、标注及数字出版的平台,生成一个开放的、相互关联的超文本,从而可以全面展示碎片文本、原文及注释之间的相互关系,最终生成一个动态的古希腊语、拉丁语碎片文本集合[6].要实现这些目标,有赖于基础设施的构建和相关技术的支撑.

3 基础设施及实现路径

3.1 基础设施平台:Perseids平台

  LOFTS项目采用Perseids平台④进行数字环境下古典文献源文档的协同编辑、注释和网络出版.Perseids平台并非单一的应用程序,而是一个由众多来源各异的工具和网络服务聚合而成的数字环境.LOFTS项目主要采用Perseids平台内的“碎片文本编辑器”(Fragmentary Texts Editor,FTE)⑤ 进行操作,该编辑器由珀尔修斯项目开发,整合并扩展了相关开源软件,允许用户对引用文本及其句法进行标注,可以实现多文本对齐和数字出版,并为协同编辑创建了一个严格的、透明的同行审查和信用机制.该编辑器最初针对纸草文献学(papyrology)的研究需求而开发设计,也能够支持其他书写媒介,包括纸莎草、陶片、碑刻拓片、手稿、抄本、刻印本等文献的编辑工作.

3.2 编码格式

  LOFTS项目采用XML(扩展标记语言)和RDF(资源描述框架)格式编码,具有跨平台、跨系统的特性,便于机器读取和处理.

  LOFTS项目采用TEI (Text Encoding Initiative,文本编码计划)作为编码的元语言,以EpiDoc子集作为XML的标记集.TEI适于对电子形式全文的编码和描述,可以对文本属性信息与文本结构信息进行规范标记,应用范围广,标记层次高,具有很强的灵活性和可扩展性[7].EpiDoc(Epigraphic Documents)即铭文文献,起初是针对碑刻铭文进行编码的子集,进而发展为TEI在古代文献和文物领域的专业子集,在文献书写介质的物理属性和历史属性等方面对TEI中的元素、属性、对象值及编码操作等进行推荐,可视为TEI在古典文献领域的补充.例如,依据《EpiDoc编码指南》(The EpiDoc Guidelines),关于铭文的物理属性的描述可作为<teiHeader>的一部分被编写在<physDesc>元素中;文本在书写介质上的位置和布局信息可编写在<layoutDesc>元素中;还有碑碣尺寸、字母描述、装饰图像等特有的元素和值[8].

  输出方面,则对每个文本、版本及译本赋予稳定、可链接的URI(统一资源标识符),实现了全网域范围内的唯一标识和定位.URI使文本数据在标识和访问时即与互联网紧密融合;而RDF在数据格式上具备通用性与开放性,能很好地满足互联网环境下的数据开放共享需求,并可以通过网络服务应用程序接口(API)对“碎片文本”进行检索.LOFTS项目通过采用这些标准化的、通用性强的数据编码格式及开放数据模型,基于Web提供开放数据服务.

3.3 TEI对“碎片文本”的标引

  要实现对引文或佚文的标引,用户首先要在一段文本中辨别出属于引用部分的字段;其次,对能够体现出引用的全部元素进行编码,包括命名实体、该段引文或佚文的标题、创作时间、作者姓名、籍贯、称号以及对该段引文或佚文的描述、文学评论、词素、句法等;最后,如有其他文献也征引了同一碎片文本,那么也要对该篇文献的相关元素进行编码.但古典文献中的征引情况复杂多样,有同一文本而词汇稍有不同者,亦有词汇一致而句法变化者,还存在不同版本、译本和平行文本(parallel texts)之间的差异,所有这类与之相关的信息也都要进行编码和对齐.

3.3.1 TEI对篇章结构的限定

  TEI元数据标准提供生成XML所需要的标记语法和词汇,使文本的引用段落能够被明确标识,并链接到保存这一“碎片文本”的源文档中.例如,古希腊作家阿忒那奥斯(Athenaeus)在其作品《欢宴的智者》(The Deipnosophists)3.6章中引用古希腊学者伊斯特洛斯(Istros)的某段佚文,即可用TEI的<div>元素来限定书目和章节[9],表明该段佚文自“

  同样,在表达篇章结构时,TEI可以进一步限定卷(book)、章(chapter)、节(section)、段落(paragraph),甚至句子和词汇之间的包含和并列关系.以古希腊历史学家修昔底德(Thucydides)巨著《伯罗奔尼撒战争史》(The Peloponnesian War)为例,整体书目结构为book>chapter>section,如《伯罗奔尼撒战争史》第1卷第1章共分为3节,通过TEI可以清晰地表达卷、章、节的结构关系:

3.3.2 EpiDoc子集与编码过程

LOFTS项目制定了一个与珀尔修斯数字图书馆语料库相兼容的EpiDoc模板,涵盖基本布局和引用结构,不仅可以记录LOFTS的编辑选择,还可以指导项目组之外其他感兴趣的学生、学者进行操作.编码过程由两个阶段组成:LOFTS项目组首先解决布局、引用元素等问题;之后,鼓励用户以众包的形式完成初步编辑工作,用户可以进一步为EpiDoc文档添加标记信息,如人名、地名或其他相关实体.

  在第一阶段中,LOFTS项目的编辑团队首先要为每一位碎片文本的作者创建一个XML文档,每个文档含有一个<teiHeader>,记录有关作者、题名、卷数等信息.<text>元素中的结构反映了每卷的结构,如有需要,即可使用上述<div type等于"textpart">元素,通过赋予不同的@subtype值来实现对篇章结构的限定.如有其他译文文本或平行文本,则需要在另一个单独的XML文档中编写,以便实现文本对齐.

  以古希腊剧作家、诗人和哲学家艾恩(Ion of Chios)为例,他的许多戏剧和诗歌只有少数标题和片段被保存下来.古希腊碎片文本的集大成之作《希腊史残卷》收录了若干条艾恩的古希腊语碎片文本及其相对应的拉丁语译文.以艾恩第6号碎片文本为例,这段佚文通过被古希腊历史学家普鲁塔克(Plutarch)在其著作《希腊罗马名人传·客蒙篇》(Greek and Roman Lives·Cimon)所引用而保存至今.其希腊语文本使用<cit>元素进行编码:

   <cit>元素中包括<bibl>元素和<quote>元素.在<bibl>元素中,需要标注文本来源,包括源文的作者(Plutarch)及其著作的题名卷数(Cimon. c. 5).如果作品中有对其他作品的引用,也要被标记在<bibl>元素中,且最终会生成一个参考文献的主文件.在<quote>元素中,则要具体标注该段佚文的古希腊语文本.如果原文中有注释,则需要使用<note>元素进行标注,列于<cit>元素之中.拉丁语译文及其他不直接相关的信息都在<p>元素中进行编写,在此阶段中还需要将特殊字符替换为Unicode实体(如拉丁文译文中的双元音“■”被替换为“&#230”),以避免由于字体等原因造成形似字母之间的混淆(如大写的拉丁字母“C”与大写的希腊字母“Σ”).

  人名使用<persName>元素编写,但古希腊人名中通常含有丰富的潜在信息,如源于父名的姓或名、绰号或所从事的职业等,对这些附加信息进行标注可以提升文本的加工程度和质量.作品题名使用<title>元素编写,希腊语和拉丁语文本中的所有作品题名都需要编入同一个

  此外,有相当一部分佚文,由于失传或上下文割裂等,在来源归属或现存状况上都已难以考辨.对于这种情况,纸质版《希腊史残卷》有时会使用不同的符号(如圆括号、方括号或问号)以示某种不确定性.对于这种不确定性,LOFTS项目组选择在<cit>元素中通过赋予@ana不同的值(“#dubia”,“#incerta”,或“#anonyma”)来进行标记.在TEI中,也可以使用@cert或<certainty>元素来标记这种不确定性,但项目组成员往往很难判断《希腊史残卷》中的符号是出于引文内容的不确定、作者归属的不确定,还是现存状况的不确定.因此,与其在<cit>、<bibl>或<quote>元素中频繁切换使用@cert或<certainty>,LOFTS项目组选择在<cit>元素中固定使用@ana,但赋予不同的值以示区别.

  第二阶段是众包注释阶段.第一阶段中创建的这些XML文档保存在Perseids平台中,以供第三方进一步注释.LOFTS项目允许并鼓励用户为人名、地名、参考文献、数字、拉丁文译文、作品标题等添加任何信息.最后,LOFTS项目的编委会对每个文档进行终审.经过EpiDoc编码后的文档将逐步上传到《希腊史残卷》数字化子项目的数据库中,为用户提供下载和共享.

3.4 统一资源名称(URN)

  LOFTS项目采用“荷马多文本项目”(Homer Multitext Project)开发的规范文本服务协议(Canonical Text Services,CTS)⑥,依据CTS/ CITE架构对引用文本标注.CTS/CITE架构用于在文本中创建唯一标识符,允许LOFTS项目中的所有实体(包括具体的,如手稿原件、某一文本或词汇、数字图片;以及抽象的,如仅在概念上存在的佚文佚书、历史上存在过的某一场所)都拥有一个独立的URN(Uniform Resource Name,即统一资源名称).URN可以根据指定的语义唯一地标识某一实体,并可以引用多个URL(Uniform Resource Locator,即统一资源定位符).LOFTS项目的URN分为以下两种类型.

4 三个子项目

  在LOFTS项目构架下,项目组开展三个数字人文子项目.LOFTS项目首先将一部西方古典文献辑佚的集大成之作——《希腊史残卷》进行数字化,并将其确立为第一个子项目,即《希腊史残卷》数字化项目(DFHG).该书辑录了大量古典时期的碎片文本,可以为其他子项目中出现的相关条目提供关联、对齐,也为参与教学的学生和学者提供不同版本间的检索、查阅,为LOFTS项目起到基础资源库的作用.在此基础上,LOFTS项目选取纸质文献《欢宴的智者》及铭文文献帕罗斯石碑开展第二、第三个子项目,分别作为“嵌入式碎片文本”和“遗存式碎片文本”的范例进行研究.

4.1 《希腊史残卷》数字化项目(Digital Fragmenta Historicorum Graecorum Project)⑧

  19世纪德国古典主义学者卡尔·穆勒(Karl Müller)的五卷本《希腊史残卷》(Fragmenta Historicorum Graecorum)是古希腊时期碎片文本的辑佚之作.该书从存世文献中辑录出大量佚文,具有极高的学术价值和史料价值.五卷本《希腊史残卷》收录634位古希腊作者的7255条碎片文本,摘录自1199部作品8214条原文,总字数超过230万字.全书分为两部分,第一部分包括亚里士多德、尤西比厄斯、普里斯库等人的原文或佚文;第二部分则抄录了保存于亚美尼亚语著作中的古希腊和叙利亚文本.第一卷中还录有帕罗斯石碑(Marmor Parium)及罗塞塔石碑(Rosetta Stone)的铭文原文、译文及评论;其余四卷均以年代为先后,将公元前6世纪至公元7世纪范围内的作者按序排列,其名下的佚文也按照作品号和书号按序著录.《希腊史残卷》在体例上对每一卷的内容、引文来源及参考书目都有介绍,有时佚文前还附有作者的传记信息及相关文本证据的简介.在排版上,每页都分为两列,页脚部分还注有该页所有希腊语文本的拉丁语译文.

  《希腊史残卷》内容全面,体例完整,使这部作品非常适合作为LOFTS项目的“底本资源库”与其他项目中的“碎片文本”进行关联和对齐.《希腊史残卷》数字化项目首先将纸质版的五卷本《希腊史残卷》进行了数字化,然后采用EpiDoc子集将其标注为TEI XML文档.莱比锡数字人文中心与珀尔修斯数字图书馆认为,该项目不仅仅是为了增加馆藏数字资源,更重要的是为LOFTS项目和Perseids平台的不断开发提供新的文本素材.经过EpiDoc标注的《希腊史残卷》将在Perseids平台中被用户进一步注释和关联,为未来的其他项目提供支持.

4.2 阿忒那奥斯数字化项目(Digital Athenaeus)⑨

  阿忒那奥斯数字化项目(Digital Athenaeus)以阿忒那奥斯的作品《欢宴的智者》(The Deipnosophists,又译为《餐桌上的健谈者》)为研究对象.《欢宴的智者》是阿忒那奥斯在公元3世纪早期撰写的一部虚构的谈话式作品,记述22位饱学之士在一个罗马宴会的餐桌旁谈论关于美食、文学和艺术方面的内容.由于阿忒那奥斯在书中引用的大部分作者(包括荷马在内的众多古代历史学家、哲学家及诗人)的著述现在都已湮没不传,这部书可以说是挖掘古希腊戏剧、诗歌、编年史、植物学、动物学、社会风俗及其他学科文献资源的重要资料.就《欢宴的智者》的文本结构而言,阿忒那奥斯可谓是现代超文本概念的先驱,他使传统按顺序阅读的方式被“碎片文本”之间的逻辑关联所取代[11];阿忒那奥斯引用的佚文数量繁多、类型多样、准确性高,使《欢宴的智者》这部作品非常适合使用CTS/CITE架构进行尝试.同时,《欢宴的智者》也可以作为个案,通过生成详细的引用书目,研究阿忒那奥斯时代文学的传播模式、作者的引用习惯与其对待征引文献的态度.

  由于《欢宴的智者》有两个版本,该项目还开发了许多应用工具及数据库以辅助相关研究的展开,如CK版本转换器(Casaubon-Kaibel Reference Converter),可用于查阅、生成不同版本之间的页数和段落序号;荷马引用文本分析库(Homeric-reuse),可以对《欢宴的智者》中所引用的荷马史诗《伊利亚特》中的文本进行比照分析;马立可作家索引(Meineke-Index Scriptorum)及凯伊培尔作家索引(Kaibel-Index Scriptorum)分别将1859年奥古斯特·马立可(August Meineke)和1890年乔治·凯伊培尔(Georg Kaibel)再版该书时加入的索引部分进行了OCR转化,形成了阿忒那奥斯引用书目及作者索引、对话角色索引(Kaibel-Dialogi Personae)等数字化版本.这些应用工具和数字资源可以帮助用户核查不同版本的文本内容、消除数据中的歧义,使古籍数字化向更加“数据化”“可视化”的研究范式转化.

4.3 帕罗斯石碑数字化项目(Digital Marmor Parium)⑩

  帕罗斯石碑数字化项目意在将“碎片化的文本内容”与“碎片化的承载介质”纳入到LOFTS项目的框架中来,为未来研究众多残破不全的碑刻和纸莎草文献打下基础.帕罗斯石碑数字化项目(Digital Marmor Parium)的研究对象是一块出土于希腊帕罗斯岛(The Greek island of Paros)的大理石石碑.该石碑保存了公元前1581年至前298年的希腊编年史,同时还附有该段时期统治者(国王或执政官)的名单,以及刻碑者对这一时期某些历史事件的简短记述,是极为可贵的石刻史料.尽管这些史料的汇编者姓名已不得而知,但大致可以从史料内容推断出刻碑时间约在公元前264或前263年.石碑断裂为上下两部分,其中一部分已经缺失,只能通过17世纪塞尔登(J. Selden)对铭文的抄录而一窥究竟,其余残碑则分别收藏于牛津大学阿什莫林博物馆(Ashmolean Museum)及希腊的帕罗斯考古博物馆(Archaeological Museum of Paros).

  与大量引用碎片文本的《欢宴的智者》不同,帕罗斯石碑本身就是通过书写媒介的“碎片”形式而流传至今的,但同样可以视为刻碑者对事件文本的筛选与整合.就文本结构而言,每一事件的叙述结构相似,均包含对该事件的简短描述、该时期雅典国王或执政官的姓名以及距离刻碑时间的年数.这样规整、统一的叙事体例非常便于项目组采用EpiDoc子集对铭文的结构、句法进行标注,生成TEI XML文档,并为其中所提到的命名实体(人名、地名、事件等)编写注释.项目组还通过开源工具TimelineJS生成了可视化的历史事件轴线,不仅可以使帕罗斯石碑上的历史年表与其他古代历史年表相比对,还可以与现代学者对年表内容的不同阐述进行对比[12],并结合GIS地理信息系统和地名标注生成事件地图.

5 启示

  LOFTS项目对我国古籍数字资源建设及古典文献整理工作都极具启发意义.数字人文研究的基础是结构化和注释丰富的语料库,有足够可访问的丰富数据才能够产生高阶知识[13].我国在进一步开发古籍数字资源时,应在系统整合现有数字化成果的基础上,进一步进行数据的标注、提取和结构化组织,为用户提供数字化的文献资料、结构化的文本数据、相关开源工具及必要的技术支持.同时加强与国外数字人文领域及我国学术界的多方交流与合作,充分介入到人文学者的教学与科研过程中,以国际视野的前瞻性和多元化的融合性为基点进行反思与发展.

项目论文范文结:

关于对写作项目论文范文与课题研究的大学硕士、相关本科毕业论文项目论文开题报告范文和相关文献综述及职称论文参考文献资料下载有帮助。

1、建设工程项目管理论文

2、信息系统项目管理师论文

3、工程项目论文

4、工程项目管理论文

5、项目成本管理论文

6、信息系统项目管理论文