您的当前位置：首页 XML

XML

来源：刀刀网

维普资讯 http://www.cqvip.com 第３９卷第７期　计算机研究与发展　Ｖｏ１．３９．Ｎｏ．７　２００２年７月　ＪＯＵＲＮＡＩ　ＯＦ　ＣＯＭＰＵＴＥＲ　ＲＥＳＥＡＲＣＨ　ＡＮＤ　ＤＥＶＥＩ　ＯＰＭＥＮＴ　Ｊｕｌｙ　２００２　ＸＭＬ数据的结构化处理方法　施伟斌①②孙未未①　施伯乐①　０（复旦大学计算机与信息技术系　上海２００４３３）　０（上海理工大学电子信息工程系　上海２０００９３）　（１ｙ００８　１　３６＠ｏｎｌｉｎｅ．ｓｈ　Ｃｎ　Ｊ　摘　要越来越多的数据采用ＸＭＬ格式表示和交换，对ＸＭＬ数据的有效访问方法是目前需要解决的关键问题　之一．对通过面向对象数据库系统访问ＸＭＬ数据的方法进行了讨论，提出了将ＸＭＬ数据映射到对象模型的规则　以及建立ＸＭＬ数据的ＯＯＤＢ模式的方法．为了建立高效地访问路径提出了一种ＸＭＬ数据的结构索引，并介绍了　利用结构索引实现基本的数据操作的方法．实验结果表明，提出的方法具有较高的效率．　关键词ＸＭＬ，数据模型，面向对象的数据库，模式，结构索引　中图法分类号ＴＰ３１１　Ａ　ＭＥＴＨｏＤ　ＦｏＲ　ＳＴＲＵＣＴＵＲＩＺＡＴＩｏＮ　ｏＦ　ＸＭＬ　ＤＡＴＡ　ＳＨＩ　Ｗｅｉ—Ｂｉｎ①②，ＳＵＮ　Ｗｅｉ—Ｗｅｉ①，ａｎｄ　ＳＨＩ　Ｂａｉ—Ｌｅ￣　①（Ｄｅｐａｒｔｍｅｎｔ　ｏｆ　Ｃｏｍｐｕｔｅｒ　ａｎｄ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｔｅｃｈｎｏｌｏｇｙ。Ｆｕｄａｎ　Ｕｎｉｖｅｒｓｉｔｙ，Ｓｈａｎｇｈａｉ　２００４３３）　０（Ｄｅｐａｒｔｍｅｎｔ　ｏｆ　Ｅｌｅｃｔｒｏｎｉｃ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｅｎｇｉｎｅｅｒｉｎｇ．Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｓｈａｎｇｈａｉ　ｆｏｒ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ，Ｓｈａｎｇｈａｉ　２０００９３）　Ａｂｓｔｒａｃｔ　Ｉｎ　ｔｈｉｓ　ｐａｐｅｒ，ｔｈｅ　ａｕｔｈｏｒｓ　ｄｉｓｃｕｓｓ　ａ　ｍｅｔｈｏｄ　ｆｏｒ　ａｃｃｅｓｓｉｎｇ　ＸＭＬ　ｄａｔａ　ｔｈｒｏｕｇｈ　ｏｂｊｅｃｔ—　ｏｒｉｅｎｔｅｄ　ｄａｔａｂａｓｅ　ｓｙｓｔｅｍ．Ｔｈｅｙ　ｐｒｏｐｏｓｅ　ｒｕｌｅｓ　ｆｏｒ　ｍａｐｐｉｎｇ　ＸＭＬ　ｄａｔａ　ｔｏ　ｏｂｊｅｃｔ　ｍｏｄｅｌ　ａｎｄ　ａ　ｍｅｔｈｏｄ　ｔｏ　ｅｓｔａｂｌｉｓｈ　ＯＯＤＢ　ｓｃｈｅｍａ　ｆｏｒ　ＸＭＬ　ｄａｔａ．Ｔｈｅｙ　ａｌｓｏ　ｇｉｖｅ　ａ　ｍｅｔｈｏｄ　ｔｏ　ｃｒｅａｔｅ　ａ　ｔｅｍｐｏｒａｒｙ　ＤＴＤ　ｂｙ　ｅｘｔｒａｃｔｉｎｇ　ｓｔｒｕｃｔｕｒｅ　ｉｎｆｏｒｍａｔｉｏｎ　ｆｒｏｍ　ＸＭＬ　ｄｏｃｕｍｅｎｔ　ｏｎ　ｔｈｅ　ｎｅｅｄ　ｏｆ　ｓｃｈｅｍａ　ｂｕｉｌｄｉｎｇ．Ｉｎ　ｏｒｄｅｒ　ｔｏ　ｅｓｔａｂｌｉｓｈ　ｅｆｆｉｃｉｅｎｔ　ａｃｃｅｓｓ　ｐａｔｈ，ｔｈｅ　ａｕｔｈｏｒｓ　ｐｕｔ　ｆｏｒｗａｒｄ　ａ　ｓｔｒｕｃｔｕｒｅ　ｉｎｄｅｘ　ｆｏｒ　ＸＭＬ　ｄａｔａ，　ａｎｄ　ｉｎｔｒｏｄｕｃｅ　ａ　ｍｅｔｈｏｄ　ｏｆ　ｉｍｐｌｅｍｅｎｔｉｎｇ　ｏｐｅｒａｔｉｏｎｓ　ｂａｓｅｄ　ｏｎ　ｓｔｒｕｃｔｕｒｅ　ｉｎｄｅｘ．Ｅｘｐｅｒｉｍｅｎｔｓ　ｗｉｔｈ　ｒｅａｌ—ｌｉｆｅ　ＸＭＬ　ｄｏｃｕｍｅｎｔｓ　ｉｎｄｉｃａｔｅ　ｔｈａｔ　ｔｈｉｓ　ｍｅｔｈｏｄ　ｉＳ　ｅｆｆｅｃｔｉｖｅ．　Ｋｅｙ　ｗｏｒｄｓ　ＸＭＬ，ｄａｔａ　ｍｏｄｅｌ，ｏｂｊｅｃｔ—ｏｒｉｅｎｔｅｄ　ｄａｔａｂａｓｅ，ｓｃｈｅｍａ，ｓｔｒｕｃｔｕｒｅ　ｉｎｄｅｘ　化的模式＿６］，然后实现ＸＭＬ数据的查询．对于有环　引　习　的情况所建立的模式可能非常庞大，文献Ｅ７］提出了　改进的方法，但也损失了精确性．文献［８］介绍了半　ＸＭＬ正在被广泛接受成为Ｗｅｂ上表示和交换　结构化数据与ＯＯＤＢ集成的方法，所实现的系统　数据的新的标准．ＸＭＬ允许用户自定义描述内容　Ｏｚｏｎｅ是建立在对象数据库系统Ｏ　之上，其中对半　的标识，因而可用于以文本格式保存结构化的数据．　结构化数据的处理主要采用ＬＯＲＥ系统中的方法．　如何有效地访问大量的ＸＭＬ文档中的数据是近来　不少研究采用关系数据库的方法［３　，将ＸＭＬ数　研究的一个热点ｌ＿１　］．一些研究（如ＬＯＲＥｌ＿２］）采用　据保存在关系数据库中，利用关系数据库系统的查询　半结构化的模型，通过抽取结构信息来建立半结构　机制实现对ＸＭＬ数据的查询．由于关系模型不支持　原稿收到日期：２００１—０４—２４；修改稿收到日期：２００２　０４—０２　本课题得到国家自然科学基金资助（６９９３３０１Ｏ）　维普资讯 http://www.cqvip.com ８２０　计算机研究与发展　复杂类型的属性，因此采用这种方法处理ＸＭＩ　数据　从关系和通过ＩＤＲＥＦ（Ｓ）属性定义的引用关系是　存在一定的局限性．一个文档通常被转换为多个表，　ＸＭＩ　元素之问的两种主要关系．由于子元素和引　元素与表之间的关系不够直观，查询常常涉及多个表　用元素的访问方法不同，为了便于查询处理应对这　的连接，导致效率降低．文献Ｅｓ］讨论了将ＸＭＩ　数据　两种关系加以区别．为此，我们对ＯＤＭＧ的对象模　映射到关系或对象一关系数据库的优化处理方法，为　型进行了扩展，增加两种特殊的联系，即从属联系和　了避免模式过于庞大，只将一部分数据转换到数据库　引用联系．次序是一种特殊的关系，对于某些应用　中，其余数据仍然保存在ＸＭＬ文档中．文献Ｅｓ］没有　（如定义规范的文本）对象间的次序是重要的．为了　考虑无ＤＴＤ的ＸＭＬ文档的处理，并且忽略了元素　表示次序关系应定义指向相邻的兄弟对象的联系，　间的次序．Ｗ３Ｃ提出的文档对象模型ＤＯＭ　由于所有的ＸＭＩ　元素对象都具有这样的联系，因　（ｄｏｃｕｍｅｎｔ　ｏｂｊｅｃｔ　ｍｏｄｅ１）为处理ＸＭＩ　的应用定义　此可以在ＯＯＤＢ中定义一个类型Ｘｏｂｊｅｃｔ作为所有　了标准接口．ＤＯＭ是按ＸＭＬ文档的存储结构来描　ＸＭＩ　对象类型的基类．在Ｘｏｂｊｅｃｔ中定义如下联　述对象间的关系，不便于实现复杂的结构化查询．　系：①ｐｒｅｃｅｄｅ：指向前趋元素对象，②ｓｕｃｃｅｅｄ：指向　本文提出将ＸＭＩ　数据映射为对象数据库　后继元素对象．　（ＯＯＤＢ）的方法，主要基于以下考虑：　＜？ｘｍｌ　ｖｅｒｓｉｏｎ一“１．Ｏ”？＞　（１）面向对象的模型支持复杂数据类型，因此　＜！ＤＯＣＴＹＰＥ　ａｒｔｉｃｌｅｄｉｒ　ＳＹＳＴＥＭ“ａｒｔｉｃｌｅｓ．ｄｔｄ”Ｅ　可以方便、直观地建立ＸＭＩ　数据的对象模式，进而　（！ＥＮＴＩＴＹ　ａｒｔ—ｉｎｆｏ　ＳＹＳＴＥＭ“ｉｎｆｏ．ｘｍｌ”＞］＞　利用对象查询语言（（）ＱＩ　）实现对ＸＭＩ　数据的结构　（ａｒｔｉｃｌｅｄｉｒ＞　化查询．　（ａｒｔｉｃｌｅ　ｉｄ＝“ａｒｔＯ０１”ｒｅｆｅｒｅｎｃｅｓ一“ａｒｔ００４　ａｒｔ００５…”）　（２）面向对象的方法已普遍地应用于软件开发　（ｔｉｔｌｅ｝Ｉｎｃｌｕｄｉｎｇ　ｇｒｏｕｐ—ｂｙ　ｉｎ　ｑｕｅｒｙ　ｏｐｔｉｍｉｚａｔｉｏｎ＜／ｔｉｔｌｅ＞　（ａｕｔｈｏｒ　ｎａｍｅ＝“Ｓｕｒａｊｉｔ　Ｃｈａｕｄｈｕｒｉ”／＞　的各个阶段，ＯＯＤＢ能够与面向对象的程序设计方　（ａｕｔｈｏｒ＞＜ｎａｍｅ＞Ｋｙｕｓｅｏｋ　Ｓｈｉｍ＜ｎａｍｅ＞　法无缝结合，因此ＯＯＤＢ很有可能成为未来数据库　＜ｆｒｏｍ＞Ｍｉｃｒｏｓｏｆｔ（／ｆｒｏｍ＞（／ａｕｔｈｏｒ＞　的主流．以一致的方法访问ＸＭＩ　数据和ＯＯＤＢ中　＜ａｂｓｔｒａｃｔ＞…（／ａｂｓｔｒａｃｔ＞　的数据无疑将使应用系统的开发得到简化．　（／ａｒｔｉｃｌｅ＞　本文首先给出将ＸＭＩ　数据映射到ＯＤＭＧ的　８Ｌａｒｔ—ｉｎｆｏ；　对象模型＿１　ｏ］的规则，然后介绍利用ＤＴＤ（ｄｏｃｕｍｅｎｔ　＜／ａｒｔｉｃｌｅｄｉｒ＞　图１　文档１　ｔｙｐｅ　ｄｅｆｉｎｉｔｉｏｎ）或ＸＭＩ　Ｓｃｈｅｍａ建立ＸＭＬ数据的　ＯＯＤＢ模式的方法．由于规范的（ｗｅｌｌ—ｆｏｒｍｅｄ）ＸＭＩ　除了定义所有ＸＭＬ对象类型共有的特性（包　文档不一定有ＤＴＤ，因此，本文讨论了从无ＤＴＤ的　括属性与联系）和方法，Ｘｏｂｊｅｃｔ也表明了其子类的　ＸＭＩ　文档中抽取结构信息建立临时的ＤＴＤ的方　特殊性（即作为ＸＭＩ　数据），从而便于系统以不同　法．与已有的一些研究口　不同的是，我们主要考虑　于常规对象的方法存取ＸＭＬ数据．　了查询的需要，从而使问题得到一定的简化．为了实　ＸＭＬ在元素内容模型的定义方面具有正则表　现对ＸＭＩ　数据的结构化访问，需要建立有效的访　达式的描述能力，这也导致ＸＭＬ数据在结构上的不　问路径．为此，本文进一步提出一种ＸＭＩ　数据的索　规则性．图１是一个关于文献目录的ＸＭＩ　文档的例　引形式——结构索引，并介绍了利用结构索引实现　子（以下简称文档１）．其中，两个（ａｕｔｈｏｒ）元素的结　基本的数据操作的方法．实验结果表明，本文提出的　构显然是不一样的．另外，元素的属性也具有不同类　方法具有较高的效率．　型和缺省声明（如ＲＥＱＵＩＲＥＤ，ＩＭＰＩ　ＩＥＤ，ＦＩＸＥＤ　等），ＸＭＬ文档中还可以使用实体，实体又分为已析　２数据模型　的和未析的、内部的和外部的等等，这些特性在将　ＸＭＬ数据映射到对象模型时都需要予以考虑．　ＸＭＩ　数据由一组严格嵌套的元素构成，一个　针对ＸＭＬ数据的上述特点，我们提出以下规则：　元素可以有若干属性和子元素．显然，将ＸＭＩ　元素　（１）元素被映射为一个对象．同一类型元素的　映射为对象是非常自然的．我们采用ＯＤＭＧ的对　对象属于相同的对象类型；　象模型（ＯＭ）．按照ＯＤＭＧ的标准，对象类型问的　（２）元素与其子元素的嵌套关系被映射为相应　关系用联系（ｒｅｌａｔｉｏｎｓｈｉｐ）表示．元素与子元素的主　对象的从属联系．由父元素向子元素的遍历路径　维普资讯 http://www.cqvip.com ７期　施伟斌等：ＸＭＩ　数据的结构化处理方法　８２１　（ｔｒａｖｅｒｓａｌ　ｐａｔｈ）以子元素名称命名，反向遍历路径　以“ｐａｒｅｎｔ”命名，将基数大于１的目标映射为Ｉ　ｉｓｔ　（如果对象之间有次序）或Ｓｅｔ．兄弟元素之间的次　序关系映射为联系ｐｒｅｃｅｄｅ和ｓｕｃｃｅｅｄ；　（３）复杂的内容模型可以通过定义附加的类型　并结合复杂对象类型（如Ｓｔｒｕｃｔ，Ｌｉｓｔ和Ｓｅｔ）来描　述．例如，对于以“（口，（６，ｃ）＋）＊ｌ（口，６）＊”形式描　（ｃｏｍｍｅｎｔ）和ＣＤＡＴＡ段予以忽略．　例如，按照以上方法，文档１中的ａｒｔｉｃｌｅ元素可　以映射为以下（如图２所示）类型的对象，与采用关系　模型的方法相比（见文献［３，４］等），这样的映射显然　是较为直观的．　３　ＸＭＬ数据的对象模式的建立　在数据库系统中，模式定义了数据的类型和组　述的内容模型，除了将元素ａ，ｂ，ｃ映射为３个类型　外，再为（６，ｃ），（口，（６，ｃ）＋）以及（口，６）各定义一个　类型，这样处理可以为查询带来便利．例如假设这些　元素的父元素为ｅ，则通过附加类型可以方便地实　现以下的一般路径的查询：　ｓｅｌｅｃｔ　Ｐ．（口６）．　成关系等约束条件，是表达查询和查询优化的基础．　为了通过对象数据库系统查询ＸＭＩ　数据需要建立　ＸＭＩ　数据的０ＯＤＢ模式．ＸＭＬ数据是多样的，按　照约束条件的不同可以分为仅满足规范性约束的数　据、有效的数据和遵从ＸＭＬ　Ｓｃｈｅｍａ的数据．对于　不同类型的数据需采用不同的方法建立其ＯＯＤＢ　的模式．　３．１根据ＤＴＤ建立ＸＭＬ数据的ＯＯＤＢ模式　当然，系统开销会由此增加，这样的查询也并非　总是需要的，从灵活性角度考虑，可以由用户决定是　否为复杂的内容模型建立附加类型；　（４）元素的数据内容被映射为元素对象的　ｓｔｒｉｎｇ类型的属性；　描述文本结构是ＸＭＬ应用的一个重要方面，　例如Ｗ３Ｃ发布的ＸＭＬ１．０标准也有ＸＭＩ　格式的　（５）根据不同的类型，元素的属性可以被映射　为对象的属性或联系：　版本ｌ＿１引．对于文本密集的应用，对象的组成与引用　关系是模式中的核心内容，ＤＴＤ的语法较简洁，并　兼容ＳＧＭＩ　，可以预期在未来较长的一个时期内　①字符串类型、ＩＤ和枚举类型的属性被映射　为相应对象的属性；　②类型为ＩＤＲＥＦ或ＩＤＲＥＦＳ的属性被映射为　相应对象的引用联系．由于在这种类型的属性的声　明中并未定义所引用的元素类型，因此需要根据　ＸＭＩ　数据的内容进行推测；　③属性值类型为ＥＮＴＩＴＹ或ＥＮＴＩＴＹＳ的属　ＤＴＤ仍将是定义ＸＭＩ　数据模式的重要手段．对于　声明了ＤＴＤ的ＸＭＩ　文档可以根据ＤＴＤ中定义的　有关元素类型、元素的属性、组成与引用关系等方面　的结构信息建立ＸＭＬ数据在（）ＯＤＢ中的模式．　由于ＤＴＤ原本是用于定义ＳＧＭＩ　文档的类型，　而ＳＧＭＩ　主要用于描述文本数据的结构，因此ＤＴＤ　性被映射为指向相应实体对象的联系；　（６）对于ＲＥＱＵＩＲＥＤ和ＩＭＰＬＩＥＤ类型的缺　不具有完善的数据类型定义功能．对此可以借鉴　Ｉ　ＯＲＥ［２　中的方法，在查询处理过程中通过强制类型　转换实现不同类型的数据的操作．还可以按照类型转　省声明无需特别处理，但对于ＦＩＸＥＤ声明的信息应　予以保留，因为这样的属性总是以唯一的值出现．　ＯＤＭＧ的ＯＭ中无此概念，ＯＤＬ中也没有类似的　声明机制，因此需要作适当扩展，具体方法是：　在属性的定义中增加一项用于描述缺省类型　换规则对某种类型（如字符型）的数据按另一种类型　（如整型）建立部分值索引以提高数据访问效率．　根据ＤＴＤ建立ＸＭＬ数据的ＯＯＤＢ模式的方　法是直观的：为所有元素类型建立相应的对象类型，　根据元素的内容模型建立从属联系，根据引用属性　建立引用联系，根据属性列表建立对象类型的属性　等．图３为文档１的ＤＴＤ中元素ａｒｔｉｃｌｅ的定义，根　（增加的内容以加粗字体表示．其余部分略，详见文　献Ｌ１ｏ３）：　＜ａｔｔｒｉｂｕｔｅ—ｓｐｅｃ）：：一［ａｔｔｒｉｂｕｔｅ］＜ｄｏｍａｉｎ—　ｔｙｐｅ）［［ｓｉｚｅ］］＜ａｔｔｒｉｂｕｔｅ—ｎａｍｅ）＜ｄｅｆａｕｌｔ—ｔｙｐｅ）　（ｄｅｆａｕｌｔ—ｔｙｐｅ＞：：一［ｆｉｘｅｄ］　据文档１的ＤＴＤ建立的对象模式中对象类型　Ａｒｔｉｃｌｅ的定义（以０ＤＬ描述）如图２所示．　（７）将未析实体映射为一个对象，具有相同符　号（ＮＯＴＡＴＩＯＮ）声明的实体被映射为同一对象类　型。将已析实体作为替换文本复制到每一个引用它　的位置；　由于一种元素类型仅对应于模式中一个对象类　型，而元素实例的数量总是大于或等于元素类型的　数量，因此，模式中对象的数量不会大于库（ＸＭＬ　（８）处理指令（ｐｒｏｃｅｓｓｉｎｇ　ｉｎｓｔｒｕｃｔｉｏｎ），注释　文档）中对象（元素和实体）的数量．与采用标注的有　维普资讯 http://www.cqvip.com 计算机研究与发展　向图模式的方法相比　引，建立对象模式的代价是较　低的（见第５．１节）．　ｉｎｔｅｒｆａｃｅ　Ａｒｔｉｃｌｅ：Ｘｏｂｊｅｃｔ｛　ｅｘｔｅｎｔ　ａｒｔｉｃｌｅｓ；　如（ｎ，ｂ＋，ｃ）．其它类型的次序为非确定的次序，如　（ｎ，ｂ＊，ｃ）或ａ，（６【ｃ）．对于非确定的次序，对象的前　趋（或后继）类型只有在运行时才能确定，因此，在　ＴＤＴＤ中一律作为无序处理．　属性类型的判别是比较困难的，串类型（ｓｔｒｉｎｇ　ｔｙｐｅ）与记号化类型（ｔｏｋｅｎｉｚｅｄ　ｔｙｐｅ）及枚举类型　（ｅｎｕｍｅｒａｔｅｄ　ｔｙｐｅ）的属性在形式上并无差别，根据　其特征进行判别不仅开销较大，而且很难保证准确．　我们只对一些特殊的情况进行判断，即对于名字为　“ＩＤ”（忽略大小写，下同）或以“ＩＤ”结尾的属性通过　ａｔｔｒｉｂｕｔｒｅ　Ｓｔｒｉｎｇ　ｉｄ；　ｒｅｌａｔｉｏｎｓｈｉｐ　Ａｒｔｉｃｌｅｄｉｒ　ｐａｒｅｎｔ；　ｒｅｌａｔｉｏｎｓｈｉｐ　Ｓｕｂ　Ｔｉｔｌｅ　ｔｉｔｌｅ；　ｒｅｌａｔｉｏｎｓｈｉｐ　Ｓｕｂ　Ｌｉｓｔ（Ａｕｔｈｏｒ）ａｕｔｈｏｒ；　ｒｅｌａｔｉｏｎｓｈｉｐ　Ｓｕｂ　Ａｂｓｔｒａｃｔ　ａｂｓｔｒａｃｔ；　ｒｅｌａｔｉｏｎｓｈｉｐ　Ｒｅｆ　Ｌｉｓｔ（Ａｒｔｉｃｌｅ＞ｒｅｆｅｒｅｎｃｅｓ　｝　唯一性检查确定其类型，如果满足唯一条件则确定　图２对象类型Ａｒｔｉｃｌｅ的定义　＜！ＥＩ　ＥＭＥＮＴ　ａｒｔｉｃｌｅ（ｔｉｔｌｅ，ａｕｔｈｏｒ＋，ａｂｓｔｒａｃｔ）＞　为ＩＤ类型，否则为字符数据．名字为“ＩＤＲＥＦ”和　“ＩＤＲＥＦＳ”的属性通过分析属性值确定其类型，并　只确认唯一类型的引用．其它情况一律作为字符数　据处理．　＜！ＡＴＴＬＩＳＴ　ａｒｔｉｃｌｅ　ｉｄ　ＩＤ＃ＲＥＱＵＩＲＥＤ）　＜！ＡＴＴＬＩＳＴ　ａｒｔｉｃｌｅ　ｒｅｆｅｒｅｎｃｅｓ　ＩＤＲＥＦＳ＃ＩＭＰＬＩＥＤ＞　图３文档１的ＤＴＤ中元素ａｒｔｉｃｌｅ的定义　３．２无ＤＴＤ的ＸＭＬ文档的结构信息的提取　图４　ＴＤＴＤ中一个元素的结构　在实际中有很多数据是没有ＤＴＤ的，例如通　过自动工具从已有的数据库、ＨＴＭＬ页面等资源中　转换而来的数据＿ｌ　．对于无ＤＴＤ的ＸＭＬ文档首先　为了表示元素间的次序，在ＴＤＴＤ中每个元素　类型都包括指向前后元素类型的指针及表示前后次　序的标志Ｆ。，Ｆ　（如图４所示），当元素Ｅ的前趋元　素类型是确定的时候，Ｆ。一１，此时，Ｐ。指向的元素　即为Ｅ的前趋元素，否则Ｆ。一０，Ｐ。指向的元素并　不作为Ｅ的前趋，同理，Ｆ　，Ｐ　用于确定Ｅ的后继　要根据文档的内容推测出各元素类型的内容模型，　这一过程的结果是产生一个ＤＴＤ，为了与事先定义　的ＤＴＤ相区别以及叙述的方便，本文称这种ＤＴＤ　为临时的ＤＴＤ（以下简称ＴＤＴＤ）．　定义１．（临时的ＤＴＤ）：通过提取无ＤＴＤ的　元素类型．以下给出一个用于建立ＴＤＴＤ的算法．　ＸＭＬ文档的结构信息而建立的ＤＴＤ．　如前所述，在ＤＴＤ中是以正则表达式的形式　来描述元素的子元素的结构，因此，建立ｌｌ缶时的　算法１．建立ＸＭＬ文档的临时的ＤＴＤ．　输入：无ＤＴＤ的ＸＭＬ文档Ｄ；　输出：该ＸＭＬ文档的ＴＤＴＤ．　①ＣｒｅａｔｅＤＴＤ（Ｄ）｛　ＤＴＤ就是要根据元素的内容推测出描述其内容模　型（ｃｏｎｔｅｎｔ　ｍｏｄｅ１）的正则表达式．由于一组内容可　能存在很多候选的内容模型，因此需要确定一个最　佳表达式．　一②　③　ＣｒｅａｔｅＮｅｗＤＴＤＥｌｍｔ（Ｅ　）；／／在ＴＤＴＤ中建立　一个新的元素类型，　：Ｄ的根元素．　Ｑｕｅｕｅ１．Ａｄｄ（Ｅ　）；／／Ｑｕｅｕｅｌ：队列对象．用于实　现宽度优先的遍历．　般认为最佳表达式应是最简洁的表达式，求　④　Ｗｈｉｌｅ（Ｑｕｅｕｅｌ非空）｛／／遍历所有元素，在　ＴＤＴＤ中建立文档中包括的全部元素类型．　解这样的表达式是一个ＮＰ完全问题＿１¨．因为建立　ＴＤＴＤ的目的是为了建立ＸＭＬ数据的对象模式并　最终为查询服务，所以可以根据查询的需要来确定　⑤　取出Ｑｕｅｕｅｌ的队首元素Ｅ。；　⑥　⑦　对于　的每一个子元素Ｅ。｛　ｉｆ（ＴＤＴＤ中不存在Ｅ　的类型）　ＣｒｅａｔｅＮｅｗＤＴＤＥ１ｍｔ（Ｅ　）；　元素的内容模型，从而使求解ＴＤＴＤ的问题得到简　化．对于查询而言，所需要的主要信息是元素具有哪　些子元素、子元素的重复次数（以确定是１：１的联　⑧　ｅｌｓｅ｛在＆所属类型的实例集中添加Ｅ。作为　一个实例；｝　系还是１：Ｍ的联系），以及确定的次序．另外，效率　是需要考虑的一个重要因素．这里，将ＸＭＬ元素的　（　Ｑｕｅｕｅ１．Ａｄｄ（Ｅ　）；｝｝　⑩　⑩　对于ＴＤＴＤ中的每一个元素类型　｛　对于　。的每一个实例Ｅ｛　ＰａｒｓｅＣｏｎｔｅｎｔ（Ｅ．）；／／分析Ｅ的内容；　次序分为两种类型，确定的和非确定的次序．确定的　次序是以顺序表定义且表中没有“？”和“＊”操作符，　维普资讯 http://www.cqvip.com ７期　施伟斌等：ＸＭＬ数据的结构化处理方法　８２３　多　ＭｏｄｉｆｙＣｏｎｔｅｎｔＭｏｄｅｌ（丁　）；｝）／／修改７’　的　结构信息建立ＯＯＤＢ的模式，这里不再赘述．　内容模型．　｝　４　ＸＭＬ数据的结构索引　算法１分为两步，首先（第②～⑨）按宽度优先　的方式遍历所有元素，在ＴＤＴＤ中为每种元素建立　ＸＭＩ　数据的基本存储结构是按前序线性存储　一个元素类型并为每种类型建立一个实例集合．然　的树，一般情况下直接遍历源数据的访问方法是低　后（第⑩～⑥）对于每种元素类型依次分析实例集合　效的．为此我们设计了结构索引作为访问ＸＭＬ数　中的每一个实例的内容，根据分析的结果修改元素　据的一种有效手段．结构索引以ｏｉｄ为键，采用ｈａｓｈ　的内容模型．ＰａｒｓｅＣｏｎｔｅｎｔ的功能是按照子元素和　存储方式．在结构索引的索引项中保存了对象的属　属性在一个元素中出现的频率和次序确定该元素的　性、双亲、第１个从属对象、兄弟以及引用对象的指　结构．为了提高判断ＩＤＲＥＦ（ｓ）属性的效率，可在第　针（如图５所示）．对象名、属性名及联系的遍历路径　１步中按ＩＤ属性值建立一个索引表，索引项中包括　名均采用名称标识符，这有利于减小存储空间以及　指向属性所属的元素类型的指针．由于忽略了非确定　降低比较操作的开销．　的次序和组合结构，因此求解一个元素类型的内容模　型时对该类型中的每个实例只需分析一次，即运行时　间为Ｏ（ｎ），其中　为该类型元素实例的数量．　在数据密集的应用中ＸＭＬ元素的内容模型一　般较简单，采用算法１可以较准确地求出数据的结　构．虽然多数情况下属性值的类型按字符数据处理，　但是如第３．２节所述在查询处理过程中不同类型的　数据的操作可采用强制类型转换的方法实现．对于　文本密集的应用，ＸＭＬ数据中元素的内容模型可　能较为复杂，采用算法１建立的ＴＤＴＤ与数据实际　的结构可能存在一定的差别．不过利用对象的　ｐｒｅｃｅｄｅ和ｓｕｃｃｅｅｄ联系以及结构索引（见第４节）　同５　ＸＭＬ数据的结构索引中一个索引项的内容　能够按正确的次序访问数据，因此由算法１建立的　结构索引所占用的空间主要由对象的总数、各　ＴＤＴＤ能够满足建立模式的需要．　个对象的属性与引用联系的数量决定，而与对象的　３．３　根据ＸＭＬ　Ｓｃｈｅｍａ建立ＸＭＬ数据的ｏｏＤＢ　从属对象的数量无关．假设对象的数量为Ⅳ，第ｉ个　模式　对象的属性及引用联系的数量分别为ｎａ　和　则　ＸＭＬ　Ｓｃｈｅｍａ是较新推出的标准，具有强大的　结构索引的大小可以表示为　类型定义功能．可以在ＸＭＬ　Ｓｃｈｅｍａ中定义原型，　Ｎ　从而实现封装、继承等面向对象的方法．ＸＭＬ　ＣＳ一∑（（，＝１　　口　＋　＋１）×ｓｉｚｅ　＋　Ｓｃｈｅｍａ本身也采用ＸＭＬ格式编写，从而方便了数　２ｓｉｚｅ２＋（ｎｒ１＋３）×ｓｉｚｅ３＋ｎａ　×ｓｉｚｅ４），　据的建立和处理．ＸＭＬ　Ｓｃｈｅｍａ克服了ＤＴＤ的许　其中，ｓｉｚｅ　￣ｓｉｚｅ　分别为名字标识符、数字量、对象　多局限，有望在数据密集的应用中取代ＤＴＤ成为　标识符及偏移量与长度的大小．　定义ＸＭＩ　数据模式的主要手段．　利用结构索引可以快速地检索对象的属性、双　ＸＭＩ　Ｓｃｈｅｍａ与ＯＯＤＢ的模式较接近，因而根　亲、从属与引用对象等，从而有效地实现投影、连接　据ＸＭＬ　Ｓｃｈｅｍａ建立ＸＭＬ数据的ＯＯＤＢ模式更　等基本的数据操作．作为一个例子，下面介绍利用结　加方便．在ＸＭＬ　Ｓｃｈｅｍａ标准中提供的基本数据类　构索引实现路径连接操作的方法．　型（如ｉｎｔ，ｆｌｏａｔ，ｓｔｒｉｎｇ等）与对象数据库系统中的　在ＸＭＬ数据的查询语言中（参见文献［１３，１Ｃ　相似，因此可以直接地采用ＸＭＬ　Ｓｃｈｅｍａ中的定义　等），路径表达式用于表示对象间的从属与引用关　或转换为接近的类型．在定义元素的组成与引用关　系．在查询处理过程中，路径连接是代价较高的操　系方面，ＸＭＬ　Ｓｃｈｅｍａ与ＤＴＤ的功能相似，可以采　作．所谓路径连接指的是在给定路径上具有祖先　用与第３．１节类似的方法根据ＸＭＬ　Ｓｃｈｅｍａ中的　后代关系的对象间的连接．例如对于图１所示的　维普资讯 http://www.cqvip.com ８２４　计算机研究与发展　数据，Ｑ１查询标题为“Ｉｎｃｌｕｄｉｎｇ　ｇｒｏｕｐ　ｂｙ　ｉｎ　ｑｕｅｒｙ　其中，Ⅳ为输入集合中对象的数量，ｎ为输入路径的　长度．　为各数据路径上第　（　一１，…，ｎ）个结点的　平均出度，包括所有从属与引用联系，　。一１．ｋ　为　选择因子，即与输入路径的第　个标注匹配的联系　ｏｐｔｉｍｉｚａｔｉｏｎ”的文章所引用的文章的作者：　Ｑ１：ｓｅｌｅｃｔ　Ｙ　ｆｒｏｍ　ａｒｔｉｃｌｅｄｉｒ．ａｒｔｉｃｌｅｘ　ｚ．ｒｅｆｅｒｅｎｃｅ．ａｕｔｈｏｒ　Ｙ　ｗｈｅｒｅ，３２．ｔｉｔｌｅ　。　＝“Ｉｎｃｌｕｄｉｎｇ　ｇｒｏｕｐ—ｂｙ　ｉｎ　ｑｕｅｒｙ　ｏｐｔｉｍｉｚａｔｉｏｎ”．　的数量占联系总数的比例，ｋ。一１．ｎｓ　为各数据路径　上第　（　一１，…，ｎ）个结点的从属对象数量的平均　值．ｔ　，ｔ　分别为查找索引项和比较操作的时间．显　然，对于规则的数据（即各条与输入路径匹配的数据　路径中对应结点具有相同的出度与选择因子）算法　２的运行时间为ｏ（Ⅳ），即运行时间与输入集合中对　为了求解Ｑ１可以首先求出标题与查询条件匹　配的对象集合５　，然后执行路径连接操作，求出所　有５　中的对象所引用的文章的作者集合５　．由于　通用路径表达式（ｇｅｎｅｒａｌ　ｐａｔｈ　ｅｘｐｒｅｓｓｉｏｎ）可以改　写为简单路径表达式ｍ　，因此，本文主要讨论针对　简单路径表达式的路径连接．下面给出利用结构索　引实现的路径连接算法．　算法２．基于结构索引的路径连接ＴＤＴ—Ｐａｔｈ—　Ｊｏｉｎ（自顶向下方式）．　输入：Ｓ　为对象标识符集合；Ｐ为输入路径，Ｐ—ｚ　１　…　为标注名称的标识符；　象的数量成比例（显然也与结果中元组的数量成比　例）．很多实际的数据都是比较规则的，因此可以近　似地按ｏ（Ⅳ）估算路径连接的运行时间．　５　实验结果　我们设计了一个实验系统ＸＡＳ（ＸＭＬ—ｏｒｉｅｎｔｅｄ　Ａｃｃｅｓｓ　Ｓｙｓｔｅｍ），目前实现了ＸＭＬ数据的对象模　输出：Ｓ　一｛（ｏ　，０　）ｌ　ｏ　Ｐｏ　是源数据中的一条数据路　径，０１∈Ｓ１｝．　式的建立和基于结构索引、路径索引及数字模式的　多种数据访问操作．ＸＡＳ采用ＶＣ＋＋６．０开发，使　用微软的解析器ＭＳＸＭＬｏ解析ＸＭＬ文档．实验中　所采用的测试数据包括自编的文档和网上获得的实　①②　⑧　④　⑤⑥　对于Ｓ　中的每一个对象Ｏ　｛　Ｓ３一｛ｏ１｝；　ｆｏｒ（　一１；　≤　；ｉ＋＋）｛　对于Ｓ。中的每一个对象０｛　０　一ｏ．ｆｉｒｓｔｃｈｉｌｄ；　ｗｈｉｌｅ（ｏ。！一ＮＵＬＬ）｛　／／遍历各从属对象，查找与１　匹配的对象．　际的ＸＭＬ文档，部分实际数据的情况如表１所示．　其中ＤＢ１，ＤＢ２具有引用属性（注：ＤＢ２只取了　ＤＢＬＰ的一部分，包括４２７３个文档，约４．６ＭＢ．并　在ｉｎｐｒｏｃｅｅｄｉｎｇｓ元素加入了ＩＤ和ＩＤＲＥＦＳ属性），　因此是图结构的，ＤＢ３，ＤＢ５为树结构的数据．ＤＢ４　⑦　⑧⑨　ｉｆ（ｏ　．ｎａｍｅ一厶）Ｓ４．Ａｄｄ（ｏ　）；　０　一ｏ　．ｓｉｂｌｉｎｇ；｝　对于０的每一个引用联系ｒ｛　／／查找与１　匹配的引用对象．　中包括大量小的测试文档，我们主要用于分析　ＴＤＴＤ与数据原有ＤＴＤ及元素实例结构的吻合情　况．下面介绍与本文有关的部分实验结果．实验在微　机上进行，主要配置为Ｐｉｌｌ　７３３ＣＰＵ，３８４ＭＢ内存，　⑩　ｉｆ（ｒ．ＴｒｖｓＰａｔｈ—ｎａｍｅ　１）　Ｓ４．Ａｄｄ（ｒ．Ｔａｒｇｅｔ）；｝｝　⑩　⑥　（＠　Ｓ３一Ｓ４；５　４．Ｃｌｅａｒ；　ｉｆ（Ｓ３．Ｃｏｕｎｔ—Ｏ）ｂｒｅａｋ；｝　ｉｆ（Ｓ３．Ｃｏｕｎｔ＞Ｏ）｛５一｛（ｏ１，ｏ２）ｌ０２∈Ｓ　３｝；　Ｓ　２一Ｓ　２ＵＳ；｝｝　操作系统为Ｗｉｎｄｏｗｓ　ＮＴ．　表１实际的ＸＭＬ数据　编号　内容　ＸＭＩ　标准１．０　库ＤＢＬＰ　来源　ｈｔｔｐ：／／ｗｗｗ．ｗ３．ｏｒｇ／ＴＲ　ｔｔｐ：／／ｗｗｗ．ｉｎｆ０ｒｍａｔ。　ｉｋ．ｕｎｉ。　＿ｌｒｉｅｒ＿ｄｅ／～ｅｖ／ｄｂ／・　／～　／ｄｂ／　自底向上的路径连接的实现方法与算法２类　似，限于篇幅不再给出．当结构索引保存在内存中　时，算法２的运行时间与输入集合中对象的数量、路　径长度、路径上结点的出度以及选择因子等有关，可　以近似地表示为　Ｎ　机文献ｈ莎士比亚戏剧测试数据集　ｈｔｔｐ：／／ｗｗｗ．ｉｂｉｂｌｉｏ．ｏｒｇ／ｂｏｓａｋ／ｘｍｌ／ｅｇ／　ｈｔｔｐ：／／ｗｗｗ．ｏａｓｉｓ－ｏｐｅｎ．　ｏｒｇ／。　。。ｒｇ　０ｕｒｃｅｓ　　ＣＴ一∑∑（（　川ｋ川＋ｎＳ　）×　Ｉ＝１　Ｊ＝１　Ｒ　ｅｃｏｒｄ目录ｈｔｔｐ：／／ｗｗｗ．ａｃｍ．。　ｇ／ｓｉａｃｍ．ｏｒ／ｓ　ｇｍｏｄ／ｒｅｃｏｒｄ／ｘｍＪｇ　。ｄ／　。。ｒｄ／　ｌ　ｔ１＋（　，一１ｋ，一１　，）×ｔ２），　①ｈｔｔｐ：／／ｗｗｗ．ｍｉｃｒｏｓｏｆｔ．ｃｏｍ／ｘｍｌ　维普资讯 http://www.cqvip.com ７期　施伟斌等：ＸＭＬ数据的结构化处理方法　８２５　吣　叫　吣　叫　叫　吣　１　２　３　５　６　７　５．１　ＸＭＬ数据的ＯＯＤＢ模式的建立及与基于有　和两者的建立时间是比较接近的，而对于图结构的　数据（如ＤＢ１，ＤＢ２等）Ｄａｔａｇｕｉｄｅ中的对象数量较　多，甚至超过源数据中对象的数量（如ＤＢ１，ＤＢ７），　建立时间也显著大于ＯＯＤＢ模式的建立．对于不同　类型的ＸＭＩ　文档采用本文的方法所建立的对象模　向图的模式的比较　我们分别按照本文所介绍的方法和文献［７］的　方法实现了ＸＭＬ数据的ＯＯＤＢ模式和基于有向图　的模式Ｄａｔａｇｕｉｄｅ的建立，通过实验对两者做了比　较．部分实验结果如表２所示，其中ＤＢ６，ＤＢ７为自建　的文档．从表中可以看出，对于树结构的数据（如　ＤＢ３，ＤＢ５）ＯＯＤＢ模式与Ｄａｔａｇｕｉｄｅ中对象的数量　式总是远小于源数据的规模．由此可见，本文所提出　的建立ＸＭＬ数据的ＯＯＤＢ模式的方法是较为有　效的．　表２　ＸＭＬ数据的ＯＯＤＢ模式与Ｄａｔａｇｕｉｄｅ的比较　否　否　是　是　否　否　∞＼堕Ｈ　５．２基于结构索引的数据操作　我们采用具有不同的特点和规模的数据对基于　结构索引的数据操作的性能进行了初步的测试．下　面介绍部分实验结果，仍以路径连接为例．根据第４　节的分析，连接操作的时间与连接的对象的数量、路　ｓｐｅａｋｅｒ进行连接．由于数据为树结构的，结点的入　度为１，而出度较大，因此自底向上的方法效率较高．　第２种情况使用自建的数据，路径上包括引用联系，　结点的入度较大（平均为１０），自顶向下的方法明显　优于自底向上的方法．在两种情况下，随着数据规模　的增加，不同方法的运行时间均近似线性地增大．采　径的长度及结点的出度（或入度）等有关．为了测试　操作时间与数据规模的关系，我们分两种情况进行　用不同特点的数据所做的实验进一步显示了运行时　间与数据路径结构的关系，与第４节中分析的结果吻　合，限于篇幅，不再给出详细的实验结果．　—　—了实验：①路径长度固定，改变路径两端目标集中　对象的数量．②改变路径长度，但路径两端目标集　中对象的数量不变．实验结果如图６、图７所示．其中　ＴＤＴ表示自顶向下的连接方法，ＢＵＴ表示自底向　ＴＤＴ　ｘ　上的连接方法．第１种情况使用的数据为莎士比亚戏　剧，我们将ｈａｍｌｅｔ．ｘｍｌ复制为多个不同大小的文　档，分别对各文档中所有ｓｃｅｎｅ对象及其后代　６０　＋ＢｕＴ　／　／　／　／　／　卜ＴＤＴ　▲　５０　ｘ—ＢＵＴ　一　．　－．－＿　４０　∞　＼　堕３０　留　２０　１０　，∥／　／　　５　１０　１５　２０　２５　３０　３５　４０　４５　５０　路径长度　图７运行时间随路径长度变化的情况　０　２　５　７　９　１２　１４　１６　１８　２１　２３　２５　２８　３０　６　结束语　本文提出了一种ＸＭＩ　数据的结构化处理方　连接结果中元组的数量／１０。　图６　运行时间随连接的元组数量变化的情况　法，为实现对ＸＭＬ数据的结构化查询奠定了基础．　维普资讯 http://www.cqvip.com ８２６　计算机研究与发展　２００２正　实验结果表明本文所提出的方法是较为有效的．与　基于有向图的模式相比，ＸＭＬ数据的对象模式较　简洁；与采用关系数据库的方法相比，将ＸＭＬ数据　映射到对象模型更加直观和方便．有关ＸＭＬ数据　的对象模式的维护问题我们已在另外的文章中进行　了讨论ｌ１　，对此我们还将做进一步的实验研究．　参　考　文　献　１　ｌ０　Ｒ　Ｇ　Ｇ　Ｃａｔｔｅｌ１．Ｔｈｅ　Ｏｂｊｅｃｔ　Ｄａｔａｂａｓｅｓ　Ｓｔａｎｄａｒｄ：ＯＤＭＧ一９３．　Ｓａｎ　Ｍａｔｅｏ，ＣＡ：Ｍｏｒｇａｎ　Ｋａｕｆｍａｎｎ，ｉ９９４　１１　Ｍ　Ｇａｒｏｆａｌａｋｉｓ，Ａ　Ｇｉｏｎｉｓ，Ｒ　Ｒａｓｔｏｇｉ　ｅｔ　ａ１．ＸＴＲＡＣＴ：Ａ　ｓｙｓｔｅｍ　ｆｏｒ　ｅｘｔｒａｃｔｉｎｇ　ｄｏｃｕｍｅｎｔ　ｔｙｐｅ　ｄｅｓｃｒｉｐｔｏｒｓ．Ｉｎ：Ｐｒｏｃ　ｏｆ　２０００　ＡＣＭ　ＳＩＧＭＯＤ　Ｉｎｔ’ｌ　Ｃｏｎｆ　ｏｎ　Ｍａｎａｇｅｍｅｎｔ　ｏｆ　Ｄａｔａ．　Ｄａｌｌａｓ。Ｔｅｘａｓ，２０００．１６５～１７６　１２　Ｔ　Ｂａｒｙ，Ｊ　Ｐａｏｌｉ，Ｃ　Ｍ　Ｓｐｅｒｂｅｒｇ—ＭｃＱｕｅｅｎ．Ｅｘｔｅｎｓｉｂｌｅ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ（ＸＭＬ）．ｈｔｔｐ：／／ｗｗｗ．ｗ３．ｏｒｇ／ＴＲ／ＲＥＣ—ｘｍｌ　１　３　Ｓ　Ａｂｉｔｅｂｏｕｌ，Ｄ　Ｑｕａｓｓ，Ｊ　ＭｃＨｕｇｈ　ｅｔ　ａ１．Ｔｈｅ　ｌｏｒｅｌ　ｑｕｅｒｙ　ｌａｎｇｕａｇｅ　ｆｏｒ　ｓｅｍｉｓｔｒｕｃｔｕｒｅｄ　ｄａｔａ．Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｊｏｕｒｎａｌ　ｏｎ　Ｄｉｇｉｔａｌ　Ｌｉｂｒａｒｉｅｓ，１９９７，１（１）：６８～８８　Ｍ　Ｍａｒｅｈｉｏｒｉ．Ｐｒｏｅ　ｏｆ　ＱＬ’９８一Ｔｈｅ　Ｑｕｅｒｙ　Ｌａｎｇｕａｇｅ　１　４　Ｄ　Ｃｈａｍｂｅｒｌｉｎ，Ｄ　Ｆｌｏｒｅｓｃｕ，Ｊ　Ｒｏｂｉｅ　ｅｔ　ａ１．ＸＱｕｅｒｙ：Ａ　ｑｕｅｒｙ　ｌａｎｇｕａｇｅ　ｆｏｒ　ＸＭＩ　Ｗ３Ｃ　ｗｏｒｋｉｎｇ　ｄｒａｆｔ．Ｗｏｒｌｄ　Ｗｉｄｅ　Ｗｅｂ　Ｃｏｎｓｏｒｔｉｕｍ，Ｔｅｃｈ　Ｒｅｐ：ＷＤ—ｘｑｕｅｒｙ　２００１０２１５，２００１　Ｗｏｒｋｓｈｏｐ．Ｂｏｓｔｏｎ，Ｍａｓｓａｃｈｕｓｓｅｔｓ，１９９８．ｈｔｔｐ：／／ｗｗｗ．ｗ３．　ｏｒｇ／ＴａｎｄＳ／ＱＬ／ＱＬ９８／　２　Ｒ　Ｇｏｌｄｍａｎ，Ｊ　ＭｃＨｕｇｈ，Ｊ　Ｗｉｄｏｍ．Ｆｒｏｍ　ｓｅｍｉｓｔｒｕｃｔｕｒｅｄ　ｄａｔａ　ｔｏ　ＸＭＬ：Ｍｉｇｒａｔｉｎｇ　ｔｈｅ　ｌｏｒｅ　ｄａｔａ　ｍｏｄｅｌ　ａｎｄ　ｑｕｅｒｙ　ｌａｎｇｕａｇｅ．　Ｉｎ：Ｐｒｏｃ　ｏｆ　ｔｈｅ　２ｎｄ　Ｉｎｔ’ｌ　Ｗｏｒｋｓｈｏｐ　ｏｎ　ｔｈｅ　Ｗｅｂ　ａｎｄ　Ｄａｔａｂａｓｅｓ　１５　Ｊ　ＭｃＨｕｇｈ，Ｊ　Ｗｉｄｏｍ．Ｑｕｅｒｙ　ｏｐｔｉｍｉｚａｔｉｏｎ　ｆｏｒ　ＸＭＬ．Ｉｎ：Ｐｒｏｃ　ｏｆ　ｔｈｅ　２５ｔｈ　ＶＩ　ＤＢ　Ｃｏｎｆ．Ｓｃｏｔｌａｎｄ，１９９９．３１５～３２６　１６施伟斌，孙未未，施伯乐．ＸＭＬ数据的对象模式的动态更新．　软件学报，２００１，１２（增刊）：３２３￣３２８　（Ｓｈｉ　Ｗｅｉｂｉｎ，Ｓｕｎ　Ｗｅｉｗｅｉ，Ｓｈｉ　Ｂａｉｌｅ．Ｄｙｎａｍｉｃ　ｕｐｄａｔｅ　ｏｆ　（ＷｅｂＤＢ’９９）．Ｐｈｉｌａｄｅｌｐｈｉａ。１９９９．２５～３０　３　Ｄ　Ｆｌｏｒｅｓｃｕ，Ｄ　Ｋｏｓｓｍａｎｎ．Ｓｔｏｒｉｎｇ　ａｎｄ　ｑｕｅｒｙｉｎｇ　ＸＭＬ　ｄａｔａ　ｕｓｉｎｇ　ａｎ　ＲＤＢＭＳ．Ｂｕｌｌｅｔｉｎ　ｏｆ　ｔｈｅ　Ｔｅｃｈｎｉｃａｌ　Ｃｏｍｍｉｔｔｅｅ　ｏｎ　Ｄａｔａ　ｏｂｊｅｃｔ—ｏｒｉｅｎｔｅｄ　ｓｃｈｅｍａ　ｆｏｒ　ＸＭＬ　ｄａｔａ．Ｊｏｕｒｎａｌ　ｏｆ　Ｓｏｆｔｗａｒｅ（ｉｎ　Ｃｈｉｎｅｓｅ），２００１，１２（Ｓｕｐｐ１）：３２３～３２８）　Ｅｎｇｉｎｅｅｒｉｎｇ，１９９９，２２（３）：２７～３４　４　Ｓｈａｎｍｕｇａｓｕｎｄａｒａｍ，Ｇ　Ｈｅ，Ｋ　Ｔｕｆｔｅ　ｅｔ　ａ１．Ｒｅｌａｔｉｏｎａｌ　ｄａｔａｂａｓｅｓ　ｆｏｒ　ｑｕｅｒｉｎｇ　ＸＭＩ　ｄｏｃｕｍｅｎｔｓ：Ｌｉｍｉｔａｔｉｏｎ　ａｎｄ　ｏｐｐｏｒｔｕｎｉｔｉｅｓ．Ｉｎ：　Ｐｒｏｃ　ｏｆ　ｔｈｅ　Ｉｎｔ’ｌ　Ｃｏｎｆ　ｏｎ　Ｖｅｒｙ　Ｌａｒｇｅ　Ｄａｔａ　Ｂａｓｅｓ（ＶＬＤＢ）．Ｓａｎ　Ｆｒａｎｃｉｓｃｏ，ＣＡ：Ｍｏｒｇａｎ　Ｋａｕｆｍａｎｎ，１９９９．３０２～３１４　５　施伟斌男，１９６７年生，博士研究生，　主要研究方向为面向对象的数据库、万维　网与数据库．　Ｍ　Ｋｌｅｔｔｋｅ，Ｈ　Ｍｅｙｅｒ．ＸＭＬ　ａｎｄ　ｏｂｉｅｃｔ—ｒｅｌａｔｉｏｎａｌ　ｄａｔａｂａｓｅ　ｓｙｓｔｅｍｓ　Ｅｎｈａｎｃｉｎｇ　ｓｔｒｕｃｔｕｒａｌ　ｍａｐｐｉｎｇｓ　ｂａｓｅｄ　ｏｎ　ｓｔａｔｉｓｔｉｃｓ．　Ｉｎ：Ｐｒｏｃ　ｏｆ　ｔｈｅ　３ｒｄ　ｌｎｔ’１　Ｗｏｒｋｓｈｏｐ　ｏｎ　ｔｈｅ　Ｗｅｂ　ａｎｄ　Ｄａｔａｂａｓｅｓ　（ＷｅｂＤＢ　２０００）．Ｄａｌｌａｓ，Ｔｅｘａｓ，２０００．６３～６８　６　Ｒ　Ｇｏｌｄｍａｎ，Ｊ　Ｗｉｄｏｍ．Ｄａｔａｇｕｉｄｅｓ：Ｅｎａｂｌｉｎｇ　ｑｕｅｒｙ　ｆｏｒｍｕｌａｔｉｏｎ　ａｎｄ　ｏｐｔｉｍｉｚａｔｉｏｎ　ｉｎ　ｓｅｍｉｓｔｒｕｃｔｕｒｅｄ　ｄａｔａｂａｓｅｓ．Ｉｎ：Ｐｒｏｃ　ｏｆ　ｔｈｅ　２３ｒｄ　Ｉｎｔ’ｌ　Ｃｏｎｆ　ｏｎ　Ｖｅｒｙ　Ｌａｒｇｅ　Ｄａｔａ　Ｂａｓｅｓ．Ｓａｎ　Ｆｒａｎｃｉｓｃｏ，ＣＡ：　Ｍｏｒｇａｎ　Ｋａｕｆｍａｎｎ，１９９７．４３６～４４５　孙未未男，１９７３年生，博士，主要研　究方向为面向对象的数据库、移动数据库．　７　Ｒ　Ｇｏｌｄｍａｎ，Ｊ　Ｗｉｄｏｍ．Ａｐｐｒｏｘｉｍａｔｅ　ｄａｔａｇｕｉｄｅｓ．Ｉｎ：Ｐｒｏｃ　ｏｆ　ｔｈｅ　Ｗｏｒｋｓｈｏｐ　ｏｎ　Ｑｕｅｒｙ　Ｐｒｏｃｅｓｓｉｎｇ　ｆｏｒ　Ｓｅｍｉｓｔｒｕｃｔｕｒｅｄ　Ｄａｔａ　ａｎｄ　Ｎｏｎｓｔａｎｄａｒｄ　Ｄａｔａ　Ｆｏｒｍａｔｓ．Ｊｅｒｕｓａｌｅｍ，ｌｓｒｅａ１．１９９９　施伯乐　男，１９３６年生，教授，博士生　导师，主要研究方向为数据库理论及应用．　８　Ｔ　Ｌａｈｉｒｉ，Ｓ　Ａｂｉｔｅｂｏｕｌ，Ｊ　Ｗｉｄｏｍ．　Ｏｚｏｎｅ：Ｉｎｔｅｇｒａｔｉｎｇ　ｓｔｒｕｃｔｕｒｅｄ　ａｎｄ　ｓｅｍｉｓｔｒｕｃｔｕｒｅｄ　ｄａｔａ．１　９９８．ｈｔｔｐ：／／ｗｗｗ—ｄｂ．　ｓｔａｎｆｏｒｄ．ｅｄｕ／ｌ０ｒｅ／ｐｕｂｓ／ｄａｔａ．ｈｔｍｌ　９　郑仕辉，周傲英，季文云等．基于ＳＱＬ的ＸＭＬ查询的有效实　现．计算机研究与发展，２００１，３８（４）：４２２　４２９　（Ｚｈｅｎｇ　Ｓｈｉｈｕｉ，Ｚｈｏｕ　Ａｏｙｉｎｇ，Ｊｉ　Ｗｅｎｙｕｎ　ｅｔ　ａ１．Ｅｆｆｅｃｔｉｖｅ　ｅｖａｌｕａｔｉｏｎ　ｏｆ　ＸＭＬ　ｑｕｅｒｉｅｓ　ｗｉｔｈ　ＳＱＬ　ｓｔａｔｅｍｅｎｔｓ．Ｊｏｕｒｎａｌ　ｏｆ　Ｃｏｍｐｕｔｅｒ　Ｒｅｓｅａｒｃｈ　ａｎｄ　Ｄｅｖｅｌｏｐｍｅｎｔ（ｉｎ　Ｃｈｉｎｅｓｅ），２００１，３８　（４）：４２２～４２９）　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文