作者;张毅
1 引言
随着在线社会网络的普及,微博、微信等平台逐渐渗透进人们的生活,其影响力已经从虚拟网络拓展到实际生活中。因此,在线社会网络越来越集中到人们日常行为模式等领域。微博短文本形式使得信息传播更加快速,作为一种全新的在线社交应用,近年来得到了快速发展。由于微博这些前所未有的新特征以及其中信息传播产生的巨大社会效应,它已经成为了一把“双刃剑”。一方面微博为广大网民提供了一个更加自由便捷的信息获取和发布平台,推动了我国信息化社会的发展;另一方面,微博中也包含了谣言、诽谤、偏激观点、扭曲价值观等一系列负面问题,并在一些别有用心的个人和组织的推动下,产生了极坏的影响。因此,提取、分析微博中的信息传播特征,构建相应的传播模型有着十分重要的理论和现实价值。对于已知的网络,如何评价网络的动力学性能一直是研究者关注的重点内容,当前主要利用网络疾病传播模型对信息传播进行研究,但疾病传播模型往往假设传播时间是无限长的。在很多现实情况中,关注的往往是一个时间段内信息的传播情况。SIR (susceptible infective removal)模型及其变型是研究信息传播最为常用的模型,在该模型中,个体仅在有限时间内保持感染态,随后便能恢复,甚至如果这些邻居个体足够幸运,就有可能永远不会得这种疾病。根据传染病模型中的SIR模型定义,利用积分可以求得传播概率,在一个固定时间段T内,这种概率为:
其中,β表示传播速度。假设这些事件是独立的,即疾病在网络中沿任意一条边的传播是相互独立的,将‘D作为一个常数,那么整个疾病传播过程可以认为是以概率占据每条边或者以概率1-p移除每条边,整个过程就可以看作一个“键渗流”过程。
利用渗流理论对微博的信息传播过程进行研究,通过构建动力学过程分析传播的影响因素,已经取得一定的成果:主要分析度值对传播范围的映射关系,基于微博数据构建信息传播的动力学过程,利用复杂网络理论研究其机理;主要针对在线社会网络中的观点形成过程进行研究,将其抽象为扩散过程,提出了舆论传播模型;借鉴传染病模型,主要分析了不同
的传播主体对传播结果的影响,对应3个不同状态将用户类型进行抽象,结合信息传播方向的影响,分析度值分布的幂律特性对传播行为的影响;在真实的微博数据中进行了渗流过程的仿真;在服从幂律分布的随机网络中,通过随机删除和目标删除网络节点或边,计算不同占有概率下巨分支的大小来分析网络性能。
无向网络对于渗流阈值的求导依赖于邻接矩阵的对称性,因此原有的分析方法不能直接应用于有向网络,这是因为有向网络中的邻接矩阵通常是非对称的,无法得到正交特征向量。因此本文借鉴已有研究成果,利用数值方法分析有/无关联特征情况下的渗流过程,通过对比,得到有向网络下的传播能力分析。
2基于微博信息的有向转发网络度值特征
2.1 基于微博信息的有向转发网络
在微博的信息传播过程中,用户i发布一条信息,其所有粉丝用户都会接到该信息,若其中一个用户i转发这条信息,则用户i的所有粉丝用户(如用户k)都会继续接到信息,以此类推,该信息沿着多条i→i→k→…的路径在用户之间呈网状蔓延。实际中,微博用户数量庞大,信息传播过程复杂,如何衡量网络的传播能力是一个重要课题。本节通过采集微博用户转发行为的数据,抽象得到有向转发网络模型,分析信息传播和渗流过程的映射关系,设计传播能力的评估指标,为后续研究提供模型基础。
首先对微博用户及其行为进行抽象建模。微博转发网络抽象为G=(V,E),其中,G是全部节点vi的集合,对应微博的用户;E是边eij的集合,对应用卢之间的关系,这里的关系是“转发行为”,转发行为是信息传递的基础,如果节点Vi转发了邻接节点Vi的信息,则在传播过程中,Vi→Vj将在下一次以更大的概率成为信息传递的路径,记为eij否则eij=O;指向Vi的节点数为节点vi的入度,记为kin;vi指向节点数为节点vt的出度,记为kiout。
在信息传播过程中,只会有部分个体以及个体间部分关系会参与到传播过程中来,所有的用户关系中只有部分关系会发挥作用,而这个过程同样能够用渗流过程表示。
在微博转发网络中,有一些随机均匀选择的节点被删除。微博转发过程是删除过程的“逆向”,一条边被保留意味着一条消息被转发,衡量的是保留概率,可以用概率参数p表示,表示节点存在于网络中。因此,p=l就表示网络中的所有节点都被保留(即没有节点被删除),p=0表示没有节点被保留(即所有的节点都被删除)。在实际情况中,网络中不可能只存在一个分支,初始时,所有节点被保留,但是随着节点被删除以后网络逐渐分割,如分裂为两个分支或者更多,将其中最大的一个分支称为巨分支。本文只考虑一个分支的情况,也就是分析巨分支的消亡过程,即从p=l到p=0的过渡。巨分支的形成和解体叫做渗流过渡。当网络中包含一个巨分支时,称这个网络是可渗流的,而出现渗流过渡的临界值就叫做渗流阈值。在很多方面,渗流过渡与泊松随机图中巨分支形成的相变很相似。在随机图中变化的不是被保留的节点,而是节点间连接的概率。然而,在这两种情况下,当网络中有足够多的点被删除时,巨分支就会分裂成一些小分支。
2.2出度一入度分布
度( degree)是针对网络中的节点来说的,节点i的度k(/)定义为与节点i相连的所有边的数目。度描述了个体的特性,而度分布描述了网络的整体特性。现实中的很多网络,如科学家合作网、捕食网络、国际互联网,都服从幂率分布,幂指数在-3.4和-2.0之间,而不是之前人们所认为的泊松分布。研究了含权科学家合作网的幂律分布等统计特性;将现实社交关系推广到合作网络中来衡量其特性;中,系统地研究了大量在线社会网络的幂律分布特性。一般地,根据幂律分布可绘出一条向右偏斜得很厉害,拖着长长“尾巴”的累积分布曲线,它与钟形的泊松分布曲线有显著的不同。这种“长尾”分布表明,绝大多数个体的尺度很小,而只有少数个体的尺度相当大。
以往通常利用最小二乘法来拟合数据,但得出的结果经常会出现很大的误差,这主要是由以下两个原因引起的:
·在“长尾”中出现的大的波动:
·很难确定幂律分布成立的范围。
在分析度分布特性时可以从两方面着手,一是设定幂律分布成立的范围,二是和其他分布结合。这里假设度分布服从幂律分布和指数分布的双分布:
综上所述,需要在度分布特性分析中辨识两个参数,分别是a和Xmin。
度分布参数辨识的流程如下。
(1)利用极大似然估计的方法,在给定Xnin情况下,可求出:
(2)首先利用幂律分布的密度函数的lg-lg图像或者利用Xmin图像判定Xmin的范围,然后从这个范围里选取对于实际数据最合适的Xmin选择Xmin令:
取得最小值,其中S(x)、Pr(x)分别为拟合数据和原始数据的分布函数。
(3)对于拟合数据和原始数据,利用K-S统计量求出p-value,p的值越接近1,则拟合数据与原始数据越吻合,通常当p≤0.1时,认为利用幂律函数对原始数据进行的拟合失败。在求p -value的过程中,由于认为当x≤Xmin时,分布并不符合幂律分布,所以,利用幂律分布拟合出来的数据与原始数据相比是不完全的,忽略了x≤Xmin的数据,那么利用K-S统计量计算p-value比较拟合情况的结果也不精确。笔者希望可以使拟合数据在x≤Xnin时非常接近原始数据,而在X>Xmm时,符合幂律分布。
(4)根据实际数据,再找出其他可能符合的分布,并得出拟合数据。利用似然比检验比较不同分布的拟合情况,从而确定符合原始数据的最佳分布。其中似然比检验用来评估两个模型中哪个模型更适合当前的数据分析。具体来说,一个相对复杂的模型与一个相对简单的模型比较,检验哪个模型能够显著地适合一个特定的数据集。引入统计量LR表示两种模型似然值的差异。
在这里,统计量LR近似服从卡方分布,自由度是两个模型的参数个数之差。其中,L1和L2分别是两个分布的似然函数。对于微博转发网络,节点口vi的kin和kiout是分析网络的基本属性,本节主要分析同一节点的kin、kiout的统计特征和不同节点kin、kiout之间的关系。拟合参数分别为出度为xmin=5,a=-2.060 0,人度为xmin=4.7,a=-2.920 0。研究同一
节点出度一入度值特征,可以看出:在双对数坐标中,kin、kiout与F(k)不存在明显的线性关系(如图l(a)所示),即不服从严格的幂律分布;节点的kin、kiout的分布不同(如图l(a)所示),kin下降速度快于kiout,即kin具有更显著的长尾效应。图l(b)横轴为kin和kiout的度值,纵轴为对应的方差。可以看出,当kin固定时,kiout的方差明显大于kin固定时kin的方差。这是因为,出度表征了节点的客观影响力,更能体现节点间的差异。因此,在分析传播能力时,应考虑网络的出度一入度序列,保留出度一人度值特征,而不是简单地用幂律分布表示。
3考虑度分布特性的微博信息传播
Newman给出了无向网络渗流后巨分支规模的解,并得到渗流阈值,本文考虑有向网络情况。与无向的情况不同,有向渗流考虑的是巨出向分支而不是巨分支。假如信息是从某一个节点开始向外传播,那么最终所有获得信息的节点的集合实际上就是渗流之后的网络中初始节点的出向分支,认为最终网络中最大的出向分支规模就代表了最终接受信息的人数,但实际上只有当信息是从最大出向分支的初始节点开始传播的时候,接收信息的人数才等于最大出向分支的节点数。研究的转发网络与现实当中的转发关系相对应,如果一个用户发出的信息具有影响力,那么他在网络中出现分支的规模一定很大,那么相对应地,渗流后对应的节点在最终的网络中依然会有一个很大的出向分支,所以渗流之后的最大出向分支规模就表示了信息传播的最大可能影响范围,具有一定的代表性。
节点是否属于某个出向分支是由其入边决定的,如果
一仑节点有一个人边来自于巨出向分支,那么它肯定属于
巨出向分支,反之,则它所有入边的另一端点都不属于巨
出向分支。假定uout是节点不经过特定一条与其相连的入
边与巨出分支相连接的平均概率,那么可以得到:
对于任意一个节点,一个邻接节点通过出边指向它,qin(k)表示邻接节点入度为k的概率。利用联合分布p(a,b)表示一个节点人度为a且出度为6的概率,那么通过出边连接的节点的邻接节点入度为k,出度为i的概率为:
那么,无论邻接节点出度取何值,其入度为k的概率为:
可以利用图解法,将式(6)左右两边分别构造方程,分别为方程y=uout与方程:
由于qin(k)为条件概率,其和为1,所以uout=1时为恒等式。在uout=l处相切得到渗流阈值:
利用不同的方法,对有向网络中巨强连通分支求得了同样的渗流阈值,实际上巨出向分支、巨人向分支与巨强连通分支出现的条件是相同的。此时,出分支的规模为:
通过上面的推导,得到了考虑节点关联性的有向渗流模型解法。接下来,将分别验证有向性和关联性对网络信息传播性能的影响以及所提出方法的正确性。
4仿真验证
本文将研究对象限定为新浪“名人堂”用户。“名人堂”用户是新浪根据名人堂的相关规定筛选出的认证用户,是在信息传播过程中有着重要价值的真实用户。通过接口“statuses/user_timeline”爬取微博信息,若M_O为原创初始微博信息,信息M_l转发自M_O,则接口所返回的M_l数据中包含了“retweeted~status”字段,其中记录了包含初始
发布用户在内的M_O的全部内容,但若此时另一条消息M_2转发自M_l,M_2所返回的数据“retweeted_status”字段中包含的依然是M_O而非M_l的内容。因此针对转发长度大于1的转发消息,需要通过分析信息中的转发标志获知其直接转发信息来源。新浪微博中以前缀//@user_name(其中user_name表示用户名)来标识直接转发信息来源。分析2012年9月23日至10月23日这一个月内的名人堂用户转发信息,利用转发关系来定义边,利用账号来定义节点。其中出度是转发的数目,入度是被转发的数目。最终得到了一个由92 933个节点、1 083 584条边构成的转发网络。
首先,分别利用无向转发和有向转发网络进行仿真,找出不同传播概率下子网络的最大出向分支,而这个最大出向分支的规模也就代表了最终的传播范围,通过这种方式可以粗略地模拟真实的传播情况,对比两种仿真结果,观察有向性对于信息传播的影响。同时利用Newman提出的无向渗流解法和本文提出的有向渗流解法预测出不同传播概率下的巨出向分支规模以及渗流阈值,与真实有向转发网络仿真进行对比,验证提出的有向渗流解法的正确性。图2中4条曲线分别表示以下内容。
·有向仿真:在有向微博转发网络利用渗流模型进行仿真得到的结果。
。有向渗流解法:利用前面提到的有向渗流模型解法求解得到的结果。
·无向仿真:在无向微博转发网络利用渗流模型进行仿真得到的结果。
·无向渗流解法:利用前面提到的无向渗流模型解法求解得到的结果。
观察图2可以发现,有向性对信息传播性能有着极大的影响,使得相同传播概率下信息传播范围明显变小,同时也可以发现,相比于无向渗流解法,提出的有向渗流解法与无向仿真结果较为吻合,但仍有明显差异。接下来观察渗流阈值,如图3所示。
图3中4条曲线与图2相同,观察图3可以发现仿真结果并没有一个十分明显的阈值,这是由于有限规模效应(finite size effect)造成的,但通过观察曲线的变化趋势,还是可以得到一个大致的临界区域,大致对应阈值,边的有向性使得渗流阈值明显变大,即使得信息爆发变得更加困难,同时还可以发现,相比于无向渗流解法,提出的有向渗流解法给出的渗流阈值接近实际仿真阈值,但依然有偏差。
通过上面可以看出:
·边的有向性对信息传播有着显著的影响,在有向条件下,渗流阈值增加,同样概率下传播范围变小,信息传播更为困难;
·提出的有向渗流解法较好地贴合了有向性特征,但与有向转发网络信息传播仿真结果相比,依然存在一定差距。
5结束语
本文通过区分信息传播的方向性,利用渗流理论研究微博转发网络中节点度值特征。区分信息传播的方向有助于更加细致地分析转发概率对传播性能的影响,有向渗流的关联更能够准确反映微博中的转发场景,为进一步分析影响渗流阈值、传播范围的因素提供了理论支撑。
6摘要:微博作为重要的社交网络平台,具有传播快速、平台影响大的特点。微博用户的节点特征决定了其网络影响力。研究了微博转发网络中节点的度值特征和传播模型。首先通过区分信息流动方向构建了微博转发网络:其次分别讨论了出度一入度的均值和方差,明确二者的差异,并分析了考虑节点度值特征的信息传播过程:最后通过仿真验证可以看出:边的有向性对信息传播有着显著的影响,在有向条件下,渗流阈值增加,同样概率下传播范围变小,信息传播更为困难。
上一篇:一种新型复合保温隔声管道包扎结构
下一篇:返回列表