您好,欢迎来到刀刀网。
搜索
您的当前位置:首页基于Spark的分布式科技专家推荐模型

基于Spark的分布式科技专家推荐模型

来源:刀刀网
 第39卷第5期 2019年9月

杭州电子科技大学学报(自然科学版)

()JournalofHanzhouDianziUniversitNaturalSciencesgy

Vol.39No.5 Se2019 p.

:/DOI10.13954.cnki.hdu.2019.05.006j

基于Sark的分布式科技专家推荐模型p

穆诗棋1,徐小良1,何 宏2,王宇翔1,夏一行1

)杭州电子科技大学科学技术研究院,浙江杭州32.10018

摘要:为了快速精准地将企业技术需求与科技专家进行匹配,提出一种基于Sark的分布式科技p专家推荐模型,解决海量科技资源分类效果不佳和推荐速度慢的问题.首先,采用改进的基于萤,火虫的近邻传播聚类算法(对参考度进FirefllorithmAffinitroaationclusterinFAAP)yAgyPpgg行自适应优化,以提高数据集的分类效果;其次,在S研究一种基于近邻传播聚类算ark环境下,p法的科技专家推荐模型,采用F设计打分机制对推荐专家进AAP算法优化科技资源的分类效果,行排序,并根据企业需求进行高级筛选,快速匹配科技专家和企业技术需求,加快科技专家推荐的速度.

关键词:专家推荐;近邻传播聚类算法;萤火虫算法;Sarkp中图分类号:TP391    文献标志码:A   

()文章编号:1001G9146201905G0030G05

(杭州电子科技大学计算机学院,浙江杭州31.10018;

0 引 言

随着国家创新驱动发展战略的不断深化以及信息化、智能化技术的不断发展,传统企业面临迫切的

转型升级需求,新兴科技型企业也亟需先进技术的有效输入;另一方面,高校、科研院掌握的科研成果和前沿先进技术需要转化为企业生产力,科技专家推荐系统将采集的企业技术需求与科研团队技术成果进行对接,不仅解决了企业实际技术难题,同时也进一步完善了科技成果对接转化服务.

[]1]2]3

.刘一星等[家[通过匹配投稿论文的学科领域和评审专家的研究领域完成推荐.B.J.Frey等提

专家推荐是指基于专家的专业知识向某个领域的实际技术需求方推荐能够解决特定问题的专

,,出近邻传播聚类算法(算法的迭代收敛速度快,聚类结果准确度高.AAffinitroaationAP)P算yPpg)法的一个重要参数参考度(影响聚类类数和迭代次数,在处理海量文本数据时,设置最佳的Preferences

5]

,,通过自适应调整类数和阻尼因子来寻找最优聚类解;等[提出一种基ProaationAAP)WanpggX.H.

,,于粒子群算法的近邻传播聚类算法(用粒ParticleSwarmOtimizationAffinitroaationPSOGAP)pyppg4]

参考度能提升A等[提出了自适应近邻传播聚类(P算法的聚类效果.WanJ.AdativeAffinitgK.py

]7

,,布谷鸟优化算法优化参考度,利用四元数来表示要优化的个体;等[提ProaationCAAP)JiaoL.B.pg

出基于遗传算法和黄金分割的近邻传播聚类算法(GoldenSectionandGeneticAlorithmAffinitgy

6]子群算法搜索最佳参考度;等[提出布谷鸟近邻传播聚类算法(JiaB.CuckooAdativeAffinitpy

,/,先采用基于黄金分割的A再使用遗传算法检测ProaationGSGAGAP)P聚类算法选择最佳参考度,pg

采用一种改进的AP聚类算法的最佳参考度.本文提出一种改进的基于Sark的科技专家推荐模型,p,基于萤火虫的近邻传播聚类算法(对专家发FirefllorithmAffinitroaationClusterinFAAP)yAgyPpgg

收稿日期:2019G04G22

;基金项目:浙江省基础公益研究计划资助项目(浙江省自然科学基金资助项目LGG18F020014,LGG19F020017),:作者简介:穆诗棋(男,研究方向:语义搜索.E何宏,副研究员,研究1992-)Gmailmu.shii@foxmail.com.通信作者:q

:.方向:科技成果管理.EGmailhehon@hdu.edu.cng()LY17F020028

第5期穆诗棋,等:基于Sark的分布式科技专家推荐模型p31

表的科技成果对应的语义向量进行分类,在Sark平台上最近邻搜索分类结果中与企业技术需求语义p相关的科技成果,向企业推荐合适的科技专家.

1 基于萤火虫的近邻传播聚类算法

1.1 AP算法

初始状态时,将全部数据点作为潜在的聚类中心,无需AP算法将数据点看作网络中的一个节点,

指定聚类中心的个数,沿网络的边递归传输数据信息直到取得一个最优的聚类中心点集和相应的聚类,边.A相似度矩阵、归属度矩阵和吸引度矩阵.相似度矩阵s(表示所有P算法主要维护3个矩阵:ij)数据点之间的余弦相似度;吸引度矩阵表示类候选代表点j作为点i的聚类中心的可能性,定义为

,,,,r(is(iax{a(i′)+s(i′)}j)=j)-mjj′s.t.′≠jjj式中,归属度矩阵表示点i选择类候选代表点j替代其聚类中心的合适性,′是j的竞争类候选代表点;j定义为

,a(iin0,r(j,j)=mj)+

()1

{

式中,i′是点i除去自身和j以外的点.

,ii′s.t.i′∉{j}

max{0,r(i′,i≠jj)},

}

()2

在算法迭代执行过程中,归属度和吸引度的迭代更新如下:

,,aiin0,r(im(j)=(1-λ)mj)+

{

,ii′∉{j}

,,,,,riiax{a(i′)+s(i′)}+λrm-1(im(j)=(1-λ)s(j)-mjjj)

式中,在归属度和吸引度迭代更新过程中,需满足m为迭代次数,λ为阻尼因子.

{

,max{0,r(i′,am-1(ij)}+λj)

}

()3()4()5

}

,,式中,近邻传播聚类算法迭代结束时,一般把a(k为第k个数据点,ir(ij)和j)之和大于0的点默认为好的聚类中心点.对于数据点i所在的类以数据点j为聚类中心,需满足

,,araxa(iigmj)+r(j)

ja(j,j)=

ax{0,r(k,j)}∑m

k≠j()

的元素设定过大导致类簇数偏多,设定过小导致类簇数偏少.1.2 萤火虫算法

,在近邻传播算法中有一个重要的参考度p,ii)上元素的均值,p等于相似度矩阵的对角矩阵s(p()6

出的光相互吸引,亮度低的萤火虫被亮度较高的萤火虫吸引,萤火虫种群位置不停迭代并发生变化,最终保留集中在亮度最高的区域,达到寻优的目的.萤火虫相互吸引力与它们之间的距离r有关,随着距离的增加,吸引力相应减弱,当萤火虫j的亮度小于萤火虫萤火虫j向萤火虫萤火虫i的亮度时,i移动,

γr-ij()e70β=β式中,即r=0时的吸引度,通常取1,γ为光的吸收系数,ri到j的笛卡尔距0为最大吸引度,ij为萤火虫β离,计算公式为:

ij2

萤火虫算法(萤火虫通过自身发Firefllorithm,FA)是一种基于群体智能的启发式优化算法,yAg

i对萤火虫j的吸引力为:

rii-xj=xj=

萤火虫j在萤火虫i的吸引下,萤火虫j的位置更新为:j向i移动,

k=1

∑(xDik2

-xk)j()8()9

式中,高斯分布或其他t为迭代次数,α为经验值,i对萤火虫j的吸引力,εij为萤火虫j为由均匀分布、β分布得到的随机数.

xt+1)=xt)+t)-xt)+αεii(j(j(jxj(jβ(

)

32

1.3 FAAP算法

杭州电子科技大学学报(自然科学版)

2019年

将AFAAP算法利用AP算法自适应调整参考度,P算法的参考度作为FA算法种群的位置.首先,初始化种群中萤火虫的位置,然后,在A将更新后萤火虫的P算法迭代过程中不断更新萤火虫位置,位置作为A并根据适应度函数计算适应度,用适应度去比较最优个体的值,更新种群P算法的参考度,中最优个体的位置,即A当达到最大迭代次数或者连续若干次聚类中心不改变时停P算法中的参考度,止迭代.算法的基本流程如下:

();初始化萤火虫种群,设置各萤火虫的初始位置(即参数参考度的值)1

()))建立相似度矩阵S,根据式(和式(计算吸引度矩阵和归属度矩阵;212())根据式(更新A38P算法的参数;()))根据式(和式(更新信息矩阵;434

()如果达到最大迭代次数,则结束,否则转到步骤4;5();计算每个萤火虫的适应度(即每组参数参考度的聚类效果)6

()如果达到最大迭代次数,则结束,否则转到步骤3.9

()对比每个萤火虫,比较它的适应度和它经历过的最好位置的适应度,如果更好,则更新适应度;7())根据式(得到萤火虫移动的下一位置;891.4 实验分析

,,,准确率、运行时间和聚类类数.选取5个聚类常用的U分别为WCI数据集,ineIonoshereSeedsp

.为了消除算法的随机性对实验的影响,每个算法运行1实验结果如表1Sobean和Iris0次取平均值,y所示.

表1 各种算法聚类效果指标对比

0.670.480.580.830.8592.4315.440.961.536986589.25AAP

PSOGAP0.750.670.820.82168.51 486.26234.38178.47

6646350.470.94

/行对比实验,改进的AP算法分别为AAP,CAAP,PSOGAP和GSGAGAP算法.聚类效果评价指标为

通过实验来验证FAAP算法的分类效果.将FAAP算法、AP算法和其他4个改进的AP算法进

性能指标数据集IonosherepSobeanyWineIrisSeedsWine

0.590.460.510.760.891.862.461.861.621.871032974

APCAAP0.780.700.770.8399.63 0.93

/GSGAGAP0.770.680.850.83207.48 562.17243.71174.33

6646391.120.95

FAAP0.850.770.890.9235.23 42.1823.48343435.380.96

准确率

运行时间/s

IonosherepSobeany(Wine3类)

(Ionoshere2类)p(Seeds3类)(Sobean4类)y(Iris3类)

IrisSeeds

253.82136.3128.5498.6147463

114.25

聚类类数

化参考度时,能动态感知邻近数据点并将其作为聚类中心,更符合AP聚类算法寻找聚类中心的运行机制;从运行时间来看,由于改进的A所以传统的AP聚类算法都要动态调整参考度,P聚类算法运行时/间最少,但F从聚类类数来看,AAP相比于PSOGAP,GSGAGAP,CAAP缩短了运行时间;FAAP算法聚类结果更接近于数据集真实类数.

从准确率来看,因为FFAAP算法比AP算法和其他4种改进的AP算法有明显的提升,A算法优

第5期穆诗棋,等:基于Sark的分布式科技专家推荐模型p33

2 基于Sark的分布式专家推荐模型p

论文、专利和项目)组合,通过FAAP算法的科技专家推荐模型.科技专家的特征由专家的科技成果(

将多个科技成果的文档向量加权计算得到专家的特征.将描述企业技术需求的文本和描述专家特征的科技成果文档嵌入到同一个语义向量空间中,通过F分AAP算法对科技资源语义向量进行高效分类,类数目接近科技资源学科领域数据,相同学科领域的科技资源聚集在同一个类中,根据分类结果构建分

[](,ResilientDistributedDatasetRDD)中8,利用Sark的结构化查询语言(StructuredQuerpy

]9

,,和语义向量索引查询用户感兴趣的科技文档向量[将查找结果加入到推荐列表中,LanuaeSQL)gg

将F对科技资源进行高效分类,在S设计基于AAP算法应用于科技资源实际数据,ark环境下,p

类索引,推荐的科技资源结果更准确,速度更快.语义向量分布式存储在Sark中的弹性分布式数据集p

使用余弦公式计算需求与文档的相似度.挑选相似度最高的前N个科技成果匹配成果作者,每个科技成果的权重即为与技术需求的相似度值,为了消除弱相关科技成果对推荐的影响,采用衰减函数来控制权重的打分公式.将专家所属的各个科技成果衰减后的权重进行相加,作为该专家的推荐值.0       S<aìï

ï1(a≤S≤b            simoidS)=íg-μS  

ï1+eïî1       S>b第一作者1     ìïï

(orderS)=í1-c   第二作者

ï

)î1-d   其他(1≥d≥c≥0

()10

()11

((((((()R=orderS×simoidS+orderS×simoidS+􀆺+orderS×simoidS12ggg1)1)2)2)n)n)

)式(中,10S为科技成果与用户需求的相似度值,a和b为相关性阈值,S>b表示具有强关联性的科技成果,采用sS<a表示不相关的科技成果.a≤S≤b时,imoid函数作为衰减函数,gμ为衰减函数的衰)减程度.式(表示科技成果的作者排名顺序对权重的影响,11c与d为作者排序的影响程度.式(12)为推荐的计算方法,专家的每个科技成果文档与用户需求的相似度进行衰减,累加衰减结果作为专家的推荐系数.

3 专家推荐系统实例

资源语料由标题、关键词和摘要等主要内容组成,将标题、关键词和摘要拼接成短文本来表示一篇科技文档的主题.提取优秀期刊论文中的关键词作为自定义科技词袋,运用分词工具将拼接的科技资源文档准确划分成若干个词单元,利用无监督神经网络将科技资源的分Word2vec词向量模型学习词向量,词结果作为输入,通过神经网络训练将词表示为低维、稠密的实数值向量,使得语义相近的关键词在向量空间中距离特别接近.科技资源的文档向量一般建立在词向量的基础上,在Sark上组合科技文档p中的词向量计算科技资源的语义向量.将语义向量缓存到R在SDD,ark平台上分析分布式计算技术p

图1 基于Sark的分布式专家推荐模型框架p

科技专家推荐系统模型框架如图1所示,科技

需求与科技资源的相似度,然后通过专家推荐模型推荐与需求最相关的专家.

术需求来推荐专家,推荐结果如图2所示.查询推荐结果中第一位专家“徐莹”的科技成果,找到与需求

科技资源库包括30针对实际的企业技00万篇期刊论文、4000万发明专利和500万个科研项目,

34

杭州电子科技大学学报(自然科学版)

2019年

,相关的科技文献为«基于细胞三维受控组装技术的细胞芯片构建»然后在聚类结果中查找包含该文献的簇文件,簇文件内容如图3所示,由图3可看出该簇文件中文献都与需求语义相关,聚类效果好.

图2 推荐结果

   

图3 聚类效果

4 结束语

的F进一步提高了分类效果.将FAAP算法,AAP算法应用于一种基于Sark的分布式专家推荐模p型,提高了科技成果的分类准度并加快了科技专家的推荐速度.但是,本文算法没有考虑AP算法的另一个参数—阻尼因子对聚类结果的影响,下一步将研究如何自适应调整阻尼因子,使科技资源分类更加精确.

本文结合A聚类结果准确度高和F提出改进P算法迭代收敛速度快、A算法智能优化参数的特点,

参考文献

[]MC//1DONALDDW.Evaluatinxertiserecommendations[C]Proceedinsofthe2001InternationalACMgepg[]刘一星,],:梁山.基于改进A重庆科技学院学报(自然科学版)2TSVM算法的评审专家自动推荐模型[J.2010,12(1)[]F,D],:3REYBJELBERTD.Clusterinassinessaesbetweendatapoints[J.Science2007,315(5814)gbypgmg[]WAN,,[],4GKJZHANGJLID,etal.AdativeaffinitroaationclusterinJ.ActaAutomaticaSinica2008,33pyppgg[]WAN5GXH,ZHANGXP,ZHUANGCX,etal.Automaticalletermininhenumberofaffinitroaationydgtyppg

1526G1530.():121242G1246.972G976.134G136.

SIGGROUPConferenceonSuortinrouork.ACM,2001:214G223.ppgGpW

//2,clusterinsinarticleswarm[C]0105thIEEEConferenceonIndustrialElectronicsandAlications2010:gugppp

[]J[]6IAB,YUB,WUQ,etal.AdativeaffinitroaationmethodbasedonimrovedcuckoosearchJ.KnowledeGpyppgpg[]J7IAOLB,ZHANGG,WANGS,etal.Otimalreferencedetectionbasedongoldensectionandgeneticalorithmppg

,BasedSstems2016,111:27G35.y

[]孟红涛,]():余松平,刘芳,等.计算机科学,8Sark内存管理及缓存策略研究[J.2017637G41.p

//I,S,aforaffinitroaationclusterinC]nternationalConferenceonWirelessAlorithmsstemsndyppgg[gy

,Alications2015:253G262.pp

[]YU//29JUNC,LOUY,YEF.ResearchondataquertimizationbasedonsarkSQLandmonoDB[C]01817thyoppg

InternationalSmosiumonDistributedComutinndAlicationsforBusinessEnineerinndScienceyppgappgga

(),DCABES.IEEEComuterSociet2018:144G147.py

(下转第55页)

第5期

王宏,等:噪声相关带偏差线性系统的滤波融合算法

55

[]孙晓莉.]():多传感器信息融合在机器人技术中的应用[无线互联科技,19J.2018,152130G131.

[]张圣祥,]():庄礼鸿.多传感器信息融合的服务机器人导航方法[单片机与嵌入式系统应用,20J.201835G9.

[//DsstemswithdirectfeedthrouhC]ecision&Control.2013:7034G7039.yg

[]Y21ONGSZ,ZHUM,FRAZZOLIE.SimultaneousinutandstateestimationforlineardiscreteGtimestochasticp

,WANGHonGEQuanbog

(Schooloutomation,HanzhouDianziUniversitnzhouZheian10018,China)fAgy,Hagjg3:AbstractThetraditionallineartwoGstaeKalmanfilterinlorithmcannotcoewiththesituationggagp

FilterinusionAlorithmforLinearSstemswithCorrelatedNoisesandBiasgFgy

sensorbiasestimationssteminwhichstatenoiseiscorrelatedtomeasurementnoiseistakenasthey,obectatwoGstaeKalmanfilterwithcorrelatednoisesbasedoneuivalenttransformationtechniuejgqq,tofmodelisusedasbasicfilterwokindsoftwoGstaeKalmanfilterinusionalorithmsareggfg

establishedinseuentialdistributedandparallelframework,resectivel.Theseuentialdistributedqpyq

,withcorrelatednoisesanditspracticalalicationperformanceislow.Forthisproblem,themultiGpp

fusionalorithmfusestheestimatesofmultilelocaltwoGstaeKalmanfilterinaseuentialweihtedgpgqgform,whiletheparallelfusionalorithmfusestheestimatesofthebiasfilterandthebiasGfreefilterg;searatelandthenthelineareuationisusedtocombinethefusedresultstoobtainthestatepyqestimation.ThesimulationresultsshowthattheparalleltwoGstaeKalmanfilterfusionestimatorhasghiherperformanceinfilterinstimationaccuracthanthetwoGstaeKalmanfilterandtheseuentialggeygq

distributedtwoGstaeKalmanfilterfusionestimator.g

:;c;sKeordstwoGstaeKalmanfilterinlorithm;biasestimationorrelatednoiseseuentialggagqywdistributedfusionalorithm;arallelfusionalorithmgpg

(上接第34页)

DistributedTechnoloxertRecommendationModelBasedonSarkgyEpp

2.InstituteocienceandTechnolonzhouDianziUniversitnzhouZheianChina)fSgy,Hagy,Hagjg,:AbstractInordertoquicklndaccuratelatchthetechnicalneedsofenterriseswiththerecomGyaymp

Sarkisproosed.OursolutioncanimrovetheeffectivenessoflareGscalescientificdataclassificaGpppg

,tionandefficiencfrecommendation.FirstltheimrovedFirefllorithmAffinitroaationyoypyAgyPpg,mendationoftechnicalexertsarecommendationmodelofdistributedtechnoloxertsbasedonpgyep

11211

,MUShiiXUXiaolianonuxianXIAYixinqg,HEHg,WANGYg,g(1.Schooloomputer,HanzhouDianziUniversitnzhouZheianChina;fCgy,Hagjg,

neihborproaationclusterinlorithmintheSarkenvironment.Themodelusestheabovegpggagp

,imrovedFAAPalorithmtoclassifcientificdatathenascorinormulaisdeloedtosortthepgysgfpy,wrecommendedexerts.Finalleimlementtheadvancedscreeninunctionaccordinothepypgfgtreuirementsoftheenterrisetoseeduherecommendation.qpppt

:;Keordsexertrecommendationaffinitroaationclusterinlorithm;firefllorithm;Sarkpyppggagyagpyw

,ClusterinFAAP)alorithmisusedtoadativeltimizethereferencewhichimrovestheclassiGg(gpyopp

,,wficationeffectiveness.Secondlanexertrecommendationmodelisproosedhichisbasedonaypp

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- gamedaodao.com 版权所有 湘ICP备2022005869号-6

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务