2018年春季学期视觉计算实验室第6周论文研读预告

论文题目:

社会网络计算的回顾与展望[1]

社交网络中的用户影响力研究[2]

浅析推荐系统中的用户画像构建与应用[3]

学术影响力评价方法:回顾与展望[4]

分享者: 何奕诗

时 间: 2018年4月12日 上午9:00 基础教学楼B座视觉计算实验室

论文简介

社会网络科学正处在一个蓬勃发展的时期,大社交数据的到来必然带来相关学科的深入交叉融合。本次论文分享的四篇文章以社会网络计算为主题,重点探讨社会网络科学中的计算问题。

  1. 论文一:社会网络计算的回顾与展望

在线社交网络已经成为连接网络信息空间和人类物理世界不可或缺的桥梁 (Online to Offline, O2O)。这种连接不仅带来了大(社交)数据,还给传统社会网络分析和数据挖掘带来了全新的挑战。相关研究可以追溯到早期物理学、社会学、图论以及数学。下图列出了以近 30~60 年为主的相关研究。
-----2018-04-09-19.52.50-1
社会网络计算早期主要源自社会学和数学,例如 20 世纪 40~50 年代提出的同质性(homophily) 和两阶段信息传播理论 (two-step flow),基本上奠定了当前社会学中的社会关系形成和信息传播模型基础 ;而数学方面提出的随机图 (random graph),为后来网络形成模型的研究奠定了数学基础。70 年代提出的弱连接 (weak ties) 理论成为后期研究社会关系形成的基础,也促成了后来结构洞理论(structural hole) 的诞生,同时该理论也引入到了经济学。90 年代社会网络研究百花齐放。社会学方面,结构洞理论将社会网络和社会资本有机结合起来,从此社会学和管理科学有了一个高效的结合点;物理学方面提出了小世界模型 (small world) 和无尺度网络 (scale-free),这两个模型可以看做是对随机图的扩展,但更重要的是奠定了近代网络生成模型的基石。同期还有两个重要的计算机学科成果,一个是网络分析算法 HITS,另一个是PageRank 算法,两个算法均成为后来网络分析的重要工具。进入 21 世纪,尤其是随着大社交数据的到来,计算机学科的重要性日益凸显,但更重要的是各个学科的加速交叉融合,如社区发现 (community de-tection) 很快吸引了大批计算机学家和物理学家的关注 ;影响力最大化(influence maximization) 和链路预测 (link prediction)分别成为近代网络传播研究和网络关系研究的理论基础。近 5 年,随着深度学习的兴起,网络科学与深度学习的融合成为一个热点。

  1. 论文二:社交网络中的用户影响力研究

本篇文章对社会影响力研究的理论模型进行了全面细致的分析,介绍了影响力的存在性证明和传播模型,并指出了社会影响力在实际应用系统中的作用。

在影响力存在验证中,本文分别从从众影响力与社会影响力方面例证,如1951年开展的Asch 实验、2012 年美国大选期间,在脸书 (Facebook) 上进行的一组用于验证好友之间影响力的实验、2013 年《科学》杂志上进行的新闻“点赞”实验。
-----2018-04-09-19.52.18

接着作者介绍了影响力传播模型,以确定性模型与概率模型为基础,阐述了SIR传染病模型、独立级联 (Independent Cascade, IC) 模型和线性阈值 (Linear Threshold, LT) 模型的原理,并介绍了衍生影响力模型与相关应用。
-----2018-04-09-19.52.28

最后作者介绍了几种生成模型的基本思想,并比较了其中的优劣。

  1. 论文三:浅析推荐系统中的用户画像构建与应用

用户画像的定义往往依赖于具体的数据源以及任务目标,因此很难有统一的呈现方式。围绕着这些不同的定义以及具体的任务,学术界和工业界提出了很多技术手段来构建用户画像。

本文将这些方法主要分为两大类 :第一类为显式的用户特征抽取或者简单加工,易于理解;第二类为用户特征的隐含表示以及学习,易于后续的量化计算。同时,在推荐系统中,与用户画像相对应,进一步介绍受众画像的构建方法。

显式用户画像的构建方法分为:用户属性特征的直接抽取与加工、用户属性特征的补全与判断。前者利用用户发表的文本信息为用户打标签。其中,TextRank是一种面向文本的传统标签抽取技术。它利用标签词汇的共现信息构建语义图,然后使用 PageRank 算法进行排序,选择具有代表性的标签。在信息抽取过程中,还可以融入任务信息,加强用户画像的可用性,例如 PageRank 值以及文本相关度等。后者涉及到图正则化技术或者标签传播算法对属性信息进行关联建模。

隐含用户画像的构建方法分为:基于主题模型的用户画像构建、基于深度学习的用户画像。前者通过从用户所发表的文本数据中抽取隐含的主题信息,进而将用户兴趣刻画为主题集合上的概率分布,作为用户画像的量化表示。可以使用多种主题模型用于用户画像构建,这些方法主要是在 LDA(Latent Dirichlet Allocation) 模型上进行改进与扩展。此方法能够有效描述用户兴趣的多样性,而且主题数量远远小于标签(如关键字)的数量,形成了一个用户信息的隐含低维表示,减少了所需要的存储空间和应用复杂度。此外,基于主题的用户模型可以将用户和各种资源(如文本)通过主题进行关联,充分利用挖掘数据信息中的用户特征。而基于深度学习的用户画像是利用分布式表示学习方法刻画用户社交关系网络,如DeepWalk的方法,通过在网络中随机游走的方式产生若干随机序列化路径,然后通过 Skip-gram 模型对节点的隐含向量进行更新,从而学习到节点的低维表示。给定一个用户的社交关系网络,可以使用 DeepWalk算法得到用户的分布式表示。这种低维的隐含向量可以作为用户画像的量化表示。

最后,作者介绍了用户画像的应用:作为量化特征直接用于推荐模型 ;通过刻画用户和物品之间的异质关联关系来完成推荐任务 ;通过映射变换转化为合适的数据形式,使之能够完成跨网站的推荐任务。

  1. 论文四:学术影响力评价方法:回顾与展望

学术影响力评价一直是一个备受关注的话题,从论文的价值衡量到期刊的影响力刻画,从科研人员的业绩考核与晋升到诺贝尔奖的评选,从双一流高校的排名到国家创新能力的评估等,都涉及对研究成果的学术影响力如何进行科学的评价。

传统的学术影响力评估方法主要是同行评审,而目前被广泛应用的是引证分析法。引证分析法并不度量专著或论文本身的质量,而是在能够测度的科学领域内,度量专著或论文等学术载体所包含的知识在不同学术主体(学科或学者)之间的转移量,学术成果只有在交流中才能体现出价值和影响力。

赫希 (Hirsch) 提出了一种评价学者学术影响力的指标——H- 指数。该指标同时考虑了学者发表的论文数量和论文引用次数。由于其简单易算且含义明确,在科学计量领域引发了巨大的关注和讨论。但它也存在一些缺点 :一是忽略了高被引论文的作用 ;二是不考察第 h 篇以后的所有论文的影响力,即图中 Sl 区,即使它们的引用数都非常接近 h ;三是受到发表论文总数的限制——H - 指数永远小于等于发表论文数。
-----2018-04-09-19.51.48

将学术主体之间的论文引用次数看成引用网络中的连边权重来迭代计算论文影响力,这是PageRank算法的主要思想,它不仅考虑了引用的数量,还考虑了引用的质量。韦斯特 (West) 和伯格斯特龙 (Bergstrom) 等人基于相似的思想提出了特征因子指标。与影响因子、H - 指数等指标不同,特征因子除了考察引用数量外,还考察了施引者的影响力。一个期刊被高影响力学者引用越多,其影响力越大。特征因子的计算过程根据引用者的不同对每条引用赋予不同的价值,且排除了期刊自引 ;论文影响分值作为特征因子分值的补充,使得载文量不同的期刊之间也能公平地比较。但特征因子也美中不足,比如它对于低影响力的期刊群的区分能力较弱,而且计算过程中的数据封闭性较强,计算结果的准确性难以检验。

虽然已有大量论文发表关于学术影响力的评价问题,但每一种方法都是从有限的角度进行评价,因此到目前为止还没有一个所谓的完美指标。最后作者从先发优势、跨学科领域的比较、指标缺乏预测能力、合作论文学术贡献的分配和学者在社交媒体的学术影响力评估等方面提出了问题,希望在今后研究中可以得到完美解决。


参考文献

[1] 唐杰,沈伟华.社会网络计算的回顾与展望[J].中国计算机学会通讯,2017,13(11):20-22.

[2] 唐杰,杨洋,宫继兵.社交网络中的用户影响力研究[J].中国计算机学会通讯,2017,13(11):23-28.

[3] 赵鑫,丁效.浅析推荐系统中的用户画像构建与应用[J].中国计算机学会通讯,2017,13(11):45-51.

[4] 范天龙, 吕琳媛.学术影响力评价方法:回顾与展望[J].中国计算机学会通讯,2017,13(11):52-56.

123