当前位置:巨优公文网>范文大全 > 公文范文 > 植物信息分类编码数据库系统概述

植物信息分类编码数据库系统概述

时间:2022-12-20 09:05:03 公文范文 来源:网友投稿

摘要 介绍了我国植物信息数据库中的植物编码系统,重点介绍了植物编码的生成方法。该系统通过将关系数据库ORACLE与Mi,crosoft C所提供的完备计算模型与关系查询语言的强功能管理手段结合起来,弥补了现行商用数据库的不足,获得了较高的时空效率。

关键词 关系数据库 植物编码系统 编码生成方法

中图分类号 S184

文献标识码 A

文章编号 1004-8421(2009)07-162=02

植物信息分类作为植物学科中最基础和最综合性的一门分支学科,包含了大量的信息资料,借助于数据库技术无疑能更有效的管理、分析、评价和利用这些信息资源,因此,植物分类学领域内出现了各种数据库,包括单一的资料性数据库、标本馆里数据库、特征描述数据库、专著研究数据库,以及大型的植物志数据库等。植物信息分类数据库朝着包含植物信息愈来愈全面,执行任务愈来愈多的方向发展,其信息资源可以反复使用,为多种分类学目的服务,为多个用户所享用,同时让用户更方便地查询,在数据库中起十分重要的作用。因此,建立一个内容广泛的植物信息分类数据库是很有意义的。在植物信息数据库中,植物名称是必不可少的项目,一般都作为数据库发展的一个制约因素。目前,已有一些单位在进行植物名称的编码工作,但对科以上的等级、定名人、种下单位及品种的编码以及杂种编码重视不够,为编码的使用带来很大的局限性,而且现行的编码系统对每一植物种类的编码范围作了限制,只给将来的增补工作留下较小的余地。因此,需要构建起一个植物编码系统,使植物分类信息与编码一一对应,用编码代替植物学名及其亲缘关系。使用时,编码系统将植物分类信息转化为编码,其相应的操作转化为库中对编码的操作;查询后返回的编码,可利用编码系统的逆运算机制,得到显示的植物分类信息。

1 植物编码系统中包含的植物分类等级

根据国际植物命名法规及国际栽培植物命名法规可知,植物名称可归纳为:

植物名称=<属名><种加词><定名人>{<种下单位加词><定名人>(品种名称)}

(式1)

种下单位=<亚种>I<变种>I<变型>

(式2)

在植物信息数据库中,对于像科名这样较高类群的处理,可以作为附加字段,在传输文件时删去。然而,一个足以说明植物亲缘关系的分类系统,对于植物引种驯化、培育改造以及植物资源的发掘利用乃至科普教育等工作来说,都是重要的科学内容。因此,在植物信息数据库的植物编码系统中,包括科以上的各级单位是很必要的。

植物分类单位的主要等级自上而下依次是:界(reg-nun)、门(divisio)、纲(class)、目(ordo)、科(familla)、属(ge-nus)、种(species)等,它们之间的关系像一棵“倒立的大树”。因此,编码的关键便进一步转化为用数据库中树型结构来表示和实现植物分类等级间的树型结构。

2 植物编码的生成和翻译

对植物编码时,要充分统计植物的种类,要留有足够的空间以便于将来的增补工作,同时在数据库建立过程中要实现数据库的向下兼容性,任何关系数据库和应用都可以移植到树型关系数据库中而不用重写。

2.1 植物编码的生成在关系数据库中,实现树型结构一般采用压缩法。但压缩法是建立在严格的关系模型基础之上的,由于关系模型的表(二维)结构和应用模型的树结构之间存在着天然的差异,实现时必须将应用模型的树结构转化为关系模型的表结构,这种转化不可避免地是以时间或空间的损失为代价的,空间损失的原因在于数据模型的不一致,时效损失的原因在于其计算模型不完备。由此该文给出了植物分类等级的层位码压缩方法自动实现植物编码。该方法通过计算模型与关系数据库查询语言的强功能管理手段结合起来,构成一个时空综合效率高的编码系统。

此系统的核心在于植物编码本身表示了各节点所处的层次及其在层次中的位置,并采用了字符串的编码方式。在编码的制定过程中,还对植物的各分类等级的数量进行了充分的统计,以确定各层次编码的位数,所以此编码系统能应付所有的应用需要。其c语言与ORACLE结合设计的形式决定了此编码系统既可单独使用,又可移植到与植物有关的其他数据库中使用。

层位码的实现方法是将植物的各等级分别设置成一张表,其结构如表l:

编码中在充分统计各分类等级数量后,确定其各编码的字符长度并用“×”表示,同时可用具体数字来编码物种。如编码为4201003~表示被子植物门(4)木兰纲(2)胡桃目(01)胡桃科(003)枫杨属(0006)的枫杨(00009)。编码的生成可用公式表达为:节点编码=父节点编码lI节点序码(Ⅱ为连接操作符)。其节点编码是植物编码中的一个子串,它的长度依层次的增加而增长,当达到植物的最低分类等级时其节点编码就是该植物的编码,而当植物分类系统中所有等级的表创建完成后,便形成了完整的植物编码系统。

2.2 植物编码的翻译 编码生成以后,复杂的植物分类信息在系统内部便有了一个统一而简洁的内部表示,使用时可通过截取植物编码来求得各节点的编码,并由此查得各节点信息,将得到的所有节点信息按序拼接起来,便可获得其完整的植物分类信息。植物编码的翻译虽然要打开每一层次的节点表,并在多个表中查询,但这不同于横压法中必须层层遍历完整路径的查询方法,层位码到任何层次节点编码的映射只须一次串的截取操作,同时可获得所有层次的节点编码,加上ORACLE一次可打开多张表,其搜索深度为l,具有较高的时效。

与此同时。考虑到在植物学名中定名人的引用在实际应用中的意义,本系统舍弃了植物名称不包含定名人的方法,将定名人引入植物编码系统。为了避免引用定名人缩写的差异而引起的混淆,并减少冗余存贮,本系统建立了一个定名人字典,将植物学名中经常重复出现的定名人信息存于字典中。

特别值得一提的是,在此编码系统中,采用纵压法将门、纲、目、科的信息压缩到一张表中。它将树结构中一条完整的路径作为表中的一行,路径上每一层次的节点作为表中的一列,纵压法中的表结构如表2:

因此,原来不同层位的信息在表中均处于同一层位,其搜索深度为1,具有很高的时效。虽各节点的总数较多,冗余存贮数量较大,但其表结构却很易实现,如表3:

上表中当前节点信息表示各分类等级中的典型特征。如:木兰纲中叶为典型的网状脉;三尖杉目中种子核果状,全包种子,子叶两枚等。

由此可见,表中的一行只表示树结构中的一个节点,各层次的节点均存于同一张表中,其中当前节点信息记录节点值,父节点编码记录该节点的父节点在表中的编码值,通过父节点编码,便可使表中各个分离的节点信息连接起来,还原成树结构。由于横压法中一行只代表一个节点,所以它克服了纵压法中重复存贮的问题,这样虽然搜索深度增加了1,

但却减少了一张表,减少了冗余存贮,且可直接利用ORA-CLE所提供的标准实现。

3 杂种名称的编码问题

该编码系统提供了处理杂种名称的方法,其科以上单位编码的生成和翻译与上述情形相似,属以下各单位的编码生成和翻译随杂种的命名方法而不同。

3.1 杂种公式在处理杂种公式时,该系统采用亲本学名记录法,即分别输入母本和父本的学名,形成一个杂种编码。显示和打印(编码翻译)时,则通过截取杂种编码来求得各节点编码以求得各节点信息,将得到的所有节点信息按序拼接起来,便得到用连接码(×或+)连接母本、父本的名称。如是种内杂种或同一种内种以下诸分类单位间的杂种,可根据命名法规,自动将父本的属名、种加词、定名人等略去或用缩写。

3.2 拉丁文集合名称因杂种被给予一个拉丁学名,所以处理拉丁文集合名称也就变得格外简单,只要区分出它是属于属间杂种、种间杂种还是属于种以下的诸分类单位间的杂种后,分别在不同的字段上加上杂种标记,输出时连同标记一起输出即可。

3.3 非拉丁文集合名称因为使用的是相当于拉丁文集合名称的现代语言,所以其编码的生成与翻译方法与拉丁文集合名称相似。

4 结语

通过对以上植物编码系统的描述可知,本编码系统具有如下优点:①本系统通过将ORACLE与Microsoft c所提供的完备的计算模型与关系查询语言的强功能管理手段结台起来,弥补了现行商用数据库的不足;②在植物编码系统中,总体上采用的是层位码法,但考虑到具体情况结合采用了压缩法,使得时空效率大大提高;③ORACLE数据库的变长记录格式,在植物编码系统中显著地提高了存贮空间利用效率;④ORACLE数据库具有通用性强,大、中、小、微各档计算机兼容,植物编码系统的可移植性强;⑤本系统具备处理植物分类单位各等级、品种及杂种的编码能力。

参考文献

[1]赵上洞译,国际植物命名法规[M],北京:科学出版社,1984。

[2]黄志球,尤晓梅,刘永志,oracle 中树型结构的实现,第七届全国管理信息系统学会论坛,北京:1994。

[3]顾姻,贺善安,植物园植物记录计算机管理系统[M],南京:河海大学出版社,1990。

[4]ALLKIN R,BISBY F A,The structure of monographic database[J],Tax-on,1988,37:756-763。

[5]CUTIBILL JL,New methods for handingbiololglealinformation[J],Bot J[,inn,Sco,1971,3:2.53-260。

推荐访问:概述 编码 植物 分类 信息

版权所有:巨优公文网 2018-2024 未经授权禁止复制或建立镜像[巨优公文网]所有资源完全免费共享

Powered by 巨优公文网 © All Rights Reserved.。备案号:沪ICP备18054162号-1