自然科学版 英文版
自然科学版 英文版
自然科学版 英文版
自然科学版 英文版
英文版编委
自然科学版 英文版
英文版首届青年编委

您目前所在的位置:首页 - 期刊简介 - 详细页面

中南大学学报(自然科学版)

Journal of Central South University

第49卷    第12期    总第292期    2018年12月

[PDF全文下载]    [Flash在线阅读]

    

文章编号:1672-7207(2018)12-2979-07
基于Word2Vec和LDA主题模型的Web服务聚类方法
肖巧翔1,曹步清1, 2,张祥平1,刘建勋1,李晏新闻3

(1. 湖南科技大学 计算机科学与工程学院,湖南 湘潭,411201;
2. 北京邮电大学 网络与交换技术国家重点实验室,北京,100876;
3. 泉州师范学院 航海学院,福建 泉州,362699
)

摘 要: 为高效地发现满足用户需求的Web服务,针对Web服务的描述文本较短、缺乏足够有效信息的问题,提出一种基于Word2Vec和LDA主题模型的Web服务聚类方法。该方法首先将Wikipedia语料库作为扩充源,使用word2vec对Web服务描述文档内容进行扩充,再将扩充后的描述文档利用主题模型进行特征建模,将短文本主题建模转化为长文本主题建模,更准确地实现服务内容主题表达,最后根据文档的主题分布矩阵寻找相似的服务并完成聚类,使用从ProgrammableWeb收集的真实数据进行实验。研究结果表明:本文方法与TFIDF-K,LDA,WT-LDA和LDA-K方法相比,F分别提高419.74%,20.11%,15.60%和27.80%,利用扩充后的Web服务的描述文档进行聚类的方法能够有效提高Web服务聚类的效果。

 

关键词: Web服务;Word2Vec;LDA主题模型;K-means算法;Web服务聚类

Web services clustering based on Word2Vec and LDA topic model
XIAO Qiaoxiang1, CAO Buqing1, 2, ZHANG Xiangping1, LIU Jianxun1, LI Yanxinwen3

1. Hunan University of Science & Technology, Xiangtan 411201, China;
2. State Key Laboratory of Networking and Switching Technology,
Beijing University of Posts and Telecommunications, Beijing 100876, China;
3. College of Navigation, Quanzhou Normal University, Quanzhou 362699, China

Abstract:Considering that the description text of Web service is short and lack of enough effective information, a Web service clustering method was proposed based on Word2Vec and LDA topic model in order to find the Web service that meets user’s needs efficiently. Firstly, Wikipedia corpus was used as an extension source, and Word2Vec was used to extend the content of Web service description document, and then the expanded description document was modeled using the topic model. The short text topic modeling was transformed into a long text topic modeling, which achieved the topic of service content expression more accurately. Finally the similar service was found based on the topic distribution matrix of the document and the clustering was completed. Real data from ProgrammableWeb was used to carry out experiments. The results show that F obtained by the method increases by 419.74%, 20.11%, 15.60%, 27.80%, respectively, compared with those using TFIDF-K, LDA, WT-LDA and LDA-K. The use of extended Web service description documents clustering method can effectively improve the effectiveness of Web service clustering.

 

Key words: Web services; Word2Vec; LDA topic model; K-means algorithm; Web service clustering

中南大学学报(自然科学版)
  ISSN 1672-7207
CN 43-1426/N
ZDXZAC
中南大学学报(英文版)
  ISSN 2095-2899
CN 43-1516/TB
JCSTFT
版权所有:《中南大学学报(自然科学版、英文版)》编辑部
地 址:湖南省长沙市中南大学 邮编: 410083
电 话: 0731-88879765(中) 88836963(英) 传真: 0731-88877727
电子邮箱:zngdxb@csu.edu.cn 湘ICP备09001153号