计算机时代2017年第4期 ・41 ・ DOI:10.16644 ̄.cnki.cn33-1094/tp.2017.04.011 基于Web医疗数据的互联网医疗用户研究 冯洪海 。孙远灿 。李利敏’,宋舒晗 ,黄俊辉。 (1.河南大学计算机与信息工程学院,河南开封475000;2.群硕软件) 摘要:互联网医疗的蓬勃发展带来了大量的数据积累,如何有效的利用这些数据是当前面临的问题。通过开发爬虫 软件,获取了截至2017年2月寻医问药网中内科和外科的131894条咨询数据。针对这些数据,用统计学方法调查用户的 性别和年龄分布,通过程序识别咨询数据中的症状和疾病,统计了现阶段互联网医疗用户症状和疾病的分布。 关键词:互联网医疗;网页爬虫;症状分布;疾病分布 中图分类号:TP391 文献标志码:A 文章编号:1 006~8228(201 7)04-41-03 Research on Internet medical users based on Web medical data Feng Honghai ,Sun Yuancan ,Li Limin ,Song Shuhan ,Huang Junhui。 ( .College of Computer and Information Engineering,ttenan University,Kaifeng,Henan 475000,China;2.Augmentum) Abstract:The rapid development of the Internet medical has brought a lot of data,and how to make effective use of these data is the problem currently faced.In this paper,a crawler is developed to have acquired 131,894 internal and surgical medicine enquiry data by February 2017,from medicine websites.According to these data,the distribution of users’gender and age are investigated by the statistical methods,and the distribution of the symptoms and diseases of the Intemet medical users at this stage are counted by the identiifcation. Key WOrds:Intemet medical;Web crawler;symptom distribution;disease distribution 0引言 分类的质量,研究了数据挖掘技术的成本、性能、速度 医疗一直是人们关注的热点话题,与人们的生活 和准确性。魏强 通过研究医疗数据存储与分析系 紧密相关,随着互联网的发展,越来越多的人选择在 统,对疾病间关联关系进行分析。Walczak等人[61研究 网上咨询医生关于健康的问题。中国互联网络信息 了病人的医疗检查信息在提高计算机诊断准确性方 中 t ̄,(CNNIC)发布的《第37次中国互联网络发展状况 面的应用。陈迁用研究了医疗数据在分析糖尿病住院 统计报告》显示,2015年,中国互联网医疗用户数量为 患者基本信息、治疗医嘱、生化指标、费用明细等方面 152亿。网络医疗咨询提供了一个新的方式,让用户 的应用。闫茜[81提出了一种用于数据处理的基于统计 可以不用实地见到医生,就可以咨询病情 ,能够帮助 树和增量计算的海量医疗数据快速统计查询方法。 用户方便快捷的了解自身的健康信息。互联网医疗 许杰[91提出了一种基于数据不一致率的新型数据分类 行业积累了大量的用户疾病数据,如何有效的利用这 方法。李萍 研究了医疗数据质量的特点,如统一性、 些数据是现阶段面临的主要问题。目前已有一些学 可靠性、“多粒度”级别、高可用性、高适用性。蒋良孝 者从不同角度对在线医疗咨询数据的信息挖掘进行 对医疗数据挖掘的主要特点、基本过程、关键技术、计 了研究。Silver MP 研究了患者在线健康信息搜索的 算智能方法以及发展方向进行了探讨。 相关问题。石思优[31应用Med—LDA模型研究医疗数 本文通过开发爬虫软件获取截至201 7年2月寻医 据中病症和用药的关系和相互联系。Ullah Zt4J等 问药网中内科和外科的131894条医疗咨询数据。针对 人认为使用数据挖掘算法可以提高预测、诊断和疾病 这些数据,用统计学的方法调查用户的年龄分布、性别 收稿日期:2017—03—06 作者简介:冯洪海(1965~),河北沧州人,男,博士,副教授,主要研究方向:数据挖掘,机器学习。 通讯作者:孙远灿(1991~),河南濮阳人,男,在读硕士,主要研究方向:数据挖掘。 ・42 ・ Computer Era No.4 2017 分布。通过识别医疗数据中的症状和疾病,对不同年 采用SQLite数据库存储数据,其中用户咨询的内 龄段、不同性别的用户的症状和患病情况进行调查,得 容可以表示为:用户的提问即提问标题和咨询内容的 出了现阶段我国互联网医疗用户的特征和分布。 描述。数据的类型如表1所示。 1获取数据 表1数据的类型 通过分析网站的结构,本文采用多级网页爬虫的 方式获取数据,首先获得一级科室的链接,然后获取 每个一级科室下属的二级科室链接。每个一级和二 级科室的页面中都有用户的问题咨询列表,本文获取 2症状和疾病识别 了内科和外科中的所有问题集合,并对集合进行去重 操作,最后共得到网页链接131894个。针对每一个网 2.1症状识别 页,我们获取的用户信息包括性别、年龄、咨询的内容 通过网页爬虫,从39健康网和寻医问药网收集症 和医生的回复内容。 状总数7632种,为了准确匹配用户的口语化表达词 在具体的爬虫代码中,为了防止频繁访问网站导 语,比如用户使用“肚子痛”、“肚子疼”等词来描述症 致的爬虫被网站,本文采用用户代理(User 状,本文构建了用户的口语表达词语与规范词汇对应 Agent)和程序随机休眠相结合的方法。User Agent是 列表,如“肚子痛”和“肚子疼”对应为“腹痛”。通过这样 一个特殊字符串头,使得服务器能够识别客户使用的 的方式统一用户的口语化表达。通过人工浏览咨询 操作系统及版本、浏览器及版本、浏览器渲染引擎、浏 数据,本文共获得606种症状中的用户口语表达词语 览器语言、浏览器插件等,如(”User-Agent","Mozilla/4.0 716种。识别用户症状以后的数据类型如表2所示。 (compatible;MSIE 5.0:Windows NT;DigExt)”。 表2症状识别后的数据类型 程序的最大获取连接时间。为了保证程序不在 某一个页面花费过多的时间甚至导致程序长期处于 连接获取的等待阶段,本文对程序的最大连接获取时 间进行,如果程序在m毫秒内不能获取到网页的 2.2疾病识别 连接,程序将跳过此网页,经过反复实验,我们设置m 本文通过网页爬虫从互联网收集疾病21464种; 为6000,即允许每个网页的等待时问为6秒,以此来应 从39健康网和寻医问药网收集疾病9095种;两个疾 对网页不可获取和网络不稳定带来的问题。 病集合去除重复的疾病,本文构建的疾病词典Ddict中 程序随机休眠。如果获取的网页内容为空,那么 共包含疾病28143种。医疗咨询分为用户的提问与医 程序将休眠,,休眠时间在O.n毫秒之间随机生成。如 生的回复,考虑到用户缺乏相应的医学专业知识,在 果休眠后仍然不能获取到数据,那么将跳过此页面, 对疾病进行识别的过程中,如果不能识别出用户提问 以此来保证爬虫的效率,在经过多次实验后,本文设 中涉及的疾病,程序将在医生的回复中继续进行疾病 置n为200。 匹配,程序对症状和疾病的识别流程为图1所示。 图l症状和疾病的识别流程 计算机时代2017年第4期 ・43・ 在疾病匹配时,把疾病词典按照疾病的字符长度 从大到小进行排序,按照最大匹配原则对数据中的疾 病进行识别,如,先匹配“丙型肝炎”如果没有匹配到, 攀 继续匹配“肝炎”等,精确用户的咨询内容和医生的回 复内容,得到用户的疾病数据。识别疾病以后的数据 类型如表3所示。 表3疾病识别后的数据类型 静静 ・黔 r’ 图3症状分布 3实验结果 3.1性别和年龄分布 在131894条咨询数据中,男性用户数量为61338, 占所有用户数量的46.51%;女性用户数量为70556,占 所有用户数量的53.49%。 图4疾病分布 通过划分年龄阶段对每个年龄段的用户数量进 4结束语 行统计,结果显示年龄在21—30之间的用户最多,数量 为35412,占所有用户数量的26.84%;年龄在31—40之 本文通过开发爬虫软件获取了寻医问药网中的 间的用户数量为16917,占所有用户数量的12.82%。 131894条医疗咨询数据,在程序中采用用户代理和程 各年龄阶段的用户数量分布如图2所示。 序随机休眠的方法提高爬虫的效率。针对这些医疗 数据,通过统计学方法调查用户的性别和年龄分布; 通过获取症状词典和疾病词典对医疗咨询中的症状 蠹 和疾病进行识别,加入了对用户口语表达词汇的提 爨 取,统计了现阶段互联网医疗用户的症状和疾病分 羹 布。未来的研究可以从以下几方面着手:①对更多的 l I I l I . 咨询数据进行调查;②对医生的回复特征进行研究; ③移动医疗APP。 图2各年龄阶段用户数量分布 参考文献(References): [11 Umefjord G,Petersson G,Hamberg K.Reasons for 3.2症状和疾病分布 Consulting a Doctor on the Internet:Web Survey of 通过对用户提问数据的症状识别,对识别结果进 Users of an Ask the bo ̄or Service.Journal of 行统计,结果显示用户的咨询数据中“头痛”出现的 Medical Internet Research,2003.5(4):e26 次数最多,为4585,占所有咨询数量的3.47%;“胃气上 【2】Silver MP.Patient perspectives on online health 逆”出现的次数为4554,占所有咨询数量的3.45%。出 information and communication with doctors: a 现次数最多的前十种症状如图3所示。 qualitative study of patients 50 years old and over. Journal of Medical Internet Research,2015.17(1):e19 通过对医疗咨询数据的疾病识别,对识别结果进 f3】石思优.基于i题模型的医疗数据挖掘研究fD】.广东技术师 行统计,结果显示医疗咨询中出现“肢端肥大症”的次 范学院硕士学位论文,2015. 数最多,为11171,占所有咨询数量的8.47%;“感染”出 【4】UUah Z,Fayaz M,Iqbal A.Critical Analysis of Data Mining 现的次数为5377,占所有咨询数量的4.07%。出现次 Techniques on Medical Data[J].International Journal 数最多的前十种疾病如图4所示。 (下转第46页) ・46・ Computer Era No.4 201 7 负载均衡组的均衡门限或其最大带机量。由于在报 于开发测试)、交换机,以及连接AP的以太网络线、电 告厅各片区均有信道为l、6、11的AP信号,而片区间 源等,共花费约4000元。 形成适当的相邻重叠,所以,可按片区或同信道确定 (3)兼容性和高性能:所用的兼容性设备,除了当 均衡组策略。设置后重启(在测试时,可先设置小的 前可通过软件定制化提高性能外,未来可继续在开源 数值),即可检查负载均衡的启用状态(由于通过AC 系统的基础上再迭代开发、扩展部署,这样不但可以 统一了WLAN的SSID发布,所以有关的状态检查需 扩展WLAN部署至整个校园,而且可结合实际情况作 在AC管理后台进行)。 性能管理上的调整,或进一步优化更新功能。这对于 2应用情况 智能信息社的实践活动也是大有好处的。 学校报告厅是众多活动的常用场所,其覆盖全面 在完成AC与各AP的组网、设置及多次优化调试 且具备负载均衡管理的WLAN为举办各种活动奠定 后,也经过了一百多手机客户端同时连接的实际活动 了有效的应用访问及信息交换基础。未来,可进一步 应用,表明所建设的WLAN覆盖、性能及稳定可用性 把一中智能信息社开发的“电子检票系统”与无线局 达到要求。同时,通过登录AC的后台管理Web,在 域网访问作更深入融合 。 AP列表查询及“在线用户”查询下看到AP的负载均衡 参考文献(References): 功能已经起作用。目前,学校报告厅的无线网络已在 【1】开源中国.开源路由器第三方固件[EB/OL].hRp://www. 正常使用中。 oschina.net/p/openw ̄. 3结束语 【2】iKuai爱快论坛.无线工程技术交流区[EB/OLI.http://bbs. ikuai8.com/thread一27415—1—1.htm1. 31李剑锋.无线号不好都是细节在作怪iN].电脑报, 本文以惠州一中报告厅实现的带负载均衡功能 [2015.14. WLAN建设项目为实例,探讨智能信息社相关科技创 4】刘文静.WLAN中AP密集部署干扰协调机制【D】.电子科技 新实践活动。项目过程涉及的方法、技术方案对构建 【大学硕士学位论文,2015. 类似WLAN有启示作用。所建造的WLAN主要有以 下创新点。 【5】知乎分享.WiFi信道设置一点疑惑[EB/OL].https://www. zhihu.com/question/35339958. (1)具备统一管理的负载均衡功能:密集部署的 【6】太平洋电脑网/无线论垤.什么是WLAN无线网络AP的负 AP与结合实际的调整,通过AC统一管理(也统一了 载均衡[EB/OL].http://itbbs.pconline.com.cn/network/ SSID)且实现热点间的负载均衡,提升了网络安全性 16014668.htm1. 【7】田丽,张巍,刘春瑞.校园一卡通会议签到系统的应用[J1.计算 和应用效率。 (2)经济性:建网所用AC、15个AP(含另外3个用 机时代,2016-1:22—24圆 (上接第43页) of Modern Education&Computer Science.2016. f8】闰茜.海量医疗数据挖掘平台的研究与设计[DI.武江理工大 学硕士学位论文,2014. 【9】许杰.基于医疗数据挖掘的在线病情分析系统研究与开发【D】. 浙江工业大学硕士学位论文,2013. 【51魏强.基寺云计算的医疗数据处理技术研究[DI.贵州大学硕 士学位论文,2015. 【6 Wal6】czak,Paczkowskj A/,Michai.Medical data prepro— cessing for increased selectivity Of diagnosis[J].Bio—A1一 gorithms and Med—Systems,2016.12(I):39-43 {10】李萍.医疗数据质量的问题探索和解决模式【J】.计算机应用 与敬件.2013.8:217—219 【7】陈迁.糖尿病医疗数据处理及药物利用研究【D】.第二军医大 学硕士学位论文.2014. 【11】蒋良孝.基于神经网络的医疗数据挖掘研究fD】.中国地质大 学硕士学位论文,2004. 翻