OA期刊论文的文献检索
面对互联网上大量OA期刊论文资源,传统的搜索引擎不能对其有效建立索引。解决该问题的一条有效途径就是实现互联网上OA期刊论文资源的整合。而OA期刊论文资源的发现是其中的一个关键环节。
近年来,国内外学者对资源的发现展开了大量的研究,并提出了一些较好的方法。例如,文献检索提出了一种基于启发式规则的接口发现方法,利用领域知识确定查询提交词和启发式规则,以发现领域内接口。文献检索提出了一种基于C4.5决策树的Web查询接口自动发现方法,但它不能把Web数据库的查询接口与搜索引擎的查询接口区分开。文献检索提出了原型系统,以发现入口表单,但是该方法不适合快速搜索和加密的表单。文献检索介绍了一种半自动化的方法,网络爬虫利用领域知识生成查询条件,通过查询接口向后台提交。但是搜索引擎经常改变结果的显示格式,这种变化将需要人工维护。
而目前解决的办法通常为以下三点:
1、提出了一种基于决策树C4.5的0A期刊站点分类算法,通过提取0A期刊站点首页的特征构建决策树,将0A期刊站点分为卷期目录型和检索接口型。
2、针对不同类型的0A期刊站点,分别提出了基于锚文本链接分析和基于检索接口的论文资源发现算法,实现站点内的论文资源发现。
3、通过在真实数据集上的实验表明,提出的方法能较好地发现0A期刊站点内的论文资源。