ChinaXiv.org 中国科学院科技论文预发布平台

按提交时间

2017
3

按主题分类

情报学
3

按作者

祁瑞华
3
郭旭
1

按机构

大连外国语大学软件学院大连 116044
3

当前资源共 3条

隐藏摘要

点击量

时间

下载量

您选择的条件: 大连外国语大学软件学院大连 116044

1. ChinaXiv:201711.01962
下载全文

基于依存关系的中文微博作者性别识别

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

祁瑞华

摘要：【目的】针对网络文本篇幅短小、传统文体特征集稀疏等特点, 探讨依存关系在中文微博作者性别识别中的应用。【方法】选取腾讯公开微博作为实验语料, 抽取依存关系特征与现有文献中的词汇特征、结构特征、功能词特征、词性标注特征和微博特征进行对照实验。【结果】采用支持向量机、朴素贝叶斯、最近邻和决策树算法的对照实验验证了本文方法在中文微博作者性别识别任务中的准确率、召回率和F-Measure 最高。【局限】依存关系在微博作者性别识别中的有效性还需在大规模语料上进一步验证。【结论】本文模型能够避免短文本特征集的稀疏性, 与其他对照特征集相比, 能更有效地识别作者性别。

点击量 1610 下载量 900 评论 0
2. ChinaXiv:201711.01990
下载全文

基于依存关系的中文微博作者性别识别

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

祁瑞华

摘要：【目的】针对网络文本篇幅短小、传统文体特征集稀疏等特点, 探讨依存关系在中文微博作者性别识别中的应用。【方法】选取腾讯公开微博作为实验语料, 抽取依存关系特征与现有文献中的词汇特征、结构特征、功能词特征、词性标注特征和微博特征进行对照实验。【结果】采用支持向量机、朴素贝叶斯、最近邻和决策树算法的对照实验验证了本文方法在中文微博作者性别识别任务中的准确率、召回率和F-Measure 最高。【局限】依存关系在微博作者性别识别中的有效性还需在大规模语料上进一步验证。【结论】本文模型能够避免短文本特征集的稀疏性, 与其他对照特征集相比, 能更有效地识别作者性别。

点击量 1526 下载量 899 评论 0
3. ChinaXiv:201711.02019
下载全文

作者身份识别中不规范文本特征选择方法的研究

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

郭旭祁瑞华

摘要：【目的】从不规范文本中提取特征, 识别网络文本作者身份。【方法】提出两种在不规范文本中提取特征的方法: 利用在Jaccard 系数的基础上定义的不规范文本相似度M; 利用不规范文本在文本中出现的次数。【结果】两种特征的识别正确率分别达到85.1%和80.2%, 加入这两种特征后, 传统的基于统计值特征的分类器识别正确率分别提高5.8%和4%。【局限】只考虑到网络文本在词汇层面的不规范性, 并没有针对更高层面的特性进行研究, 如句法层面、结构层面。【结论】本文提出的特征提取方法, 可以有效地提取不规范文本特征, 有助于作者身份识别系统识别正确率的提升。

点击量 1987 下载量 1096 评论 0

基于依存关系的中文微博作者性别识别

基于依存关系的中文微博作者性别识别

作者身份识别中不规范文本特征选择方法的研究