您选择的条件: 邓思艺
  • 基于Word2Vec及大众健康信息源的疾病关联探测

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】利用Word2Vec 深度学习技术从面向大众的健康信息中寻找疾病关联, 解决非医学人士通常不了 解多种疾病之间存在的关联, 从而影响到健康信息搜寻中的全面性和有效性的问题。【方法】由专家选取30个常见疾病主题,从高质量医学新闻网站上采集对应疾病的文档, 运用Word2Vec技术对各疾病的相关文档构造词 向量,计算向量距离判断疾病关联。通过与专家评分的相关分析衡量判断结果的准确性。【结果】优情况下,Word2Vec 得到的结果与专家评分相关系数达到0.635。通过对比不同的算法模型、优化方法、数据规模及重要 参数对结果的影响,发现Skip-Gram模型结合负样本数为20的Negative Sampling优化方法在大规模数据集上的 实验结果优。【局限】疾病主题选取宽泛时, 影响Word2Vec 判断准确性, 本文的疾病主题选取粒度有待改善。【结论】利用 Word2Vec 技术在面向大众的健康信息源中也可以探测疾病关联, 其有效性表明该技术可用于改善 大众的健康信息搜寻的个性化服务。