专利内容由知识产权出版社提供
专利名称:训练网页分布式表示模型的方法和装置专利类型:发明专利发明人:张波,孟遥,孙俊申请号:CN201710239759.9申请日:20170413公开号:CN108733405A公开日:20181102
摘要:公开了一种训练网页分布式表示模型的方法和装置,其中该方法包括:生成多个网页中的每个网页的文档对象模型(DOM)树结构;针对每个网页的DOM树结构,提取预定数目的预定长度的节点序列,其中每个节点序列的提取包括:随机选择广度优先遍历方式和深度优先遍历方式之一;以及从DOM树结构中随机选取一个节点,并且以所述一个节点作为起始节点,以所选择的遍历方式从DOM树结构中提取节点序列;以及基于所提取的节点序列训练所述网页分布式表示模型,网页分布式表示模型用于生成输入网页的表示向量。根据本公开的实施例,能够融合网页的文本信息和结构信息。
申请人:富士通株式会社
地址:日本神奈川县
国籍:JP
代理机构:北京集佳知识产权代理有限公司
更多信息请下载全文后查看