DiVoMiner® 使用手册

  1. 主页
  2. 文档
  3. DiVoMiner® 使用手册
  4. 算法挖掘
  5. 社交网络分析

社交网络分析

(一)模型介绍

1. 关联规则最初提出的动机是针对购物篮分析(Market Basket Analysis),该过程通过发现顾客放入“购物篮”中的不同商品之间的关联,分析不同商品频繁的被顾客同时购买的购物习惯。同理,我们通过关联规则,依据人物与人物发帖、回帖的互动关系,发现人物与人物之间紧密关系的组合。支持依据关联规则中支持度、置信度、提升度三种任一规则来计算关系系数,从而依据系数筛选出重要的关系组合。系数值越大,互动越频繁、关系越紧密,系数值越小,互动越少、关系越疏远。

2. 统计指标

(1)节点度(Node Degree):节点度是指和该节点相关联的边的条数,又称关联度。

(2)度数中心性(Degree Centrality):节点与其他节点直接连接的总量,由最大可能度归一化而来,由于存在循环,该值可能大于1。在有向图中依据连接的方向,分点入中心度(或入度,in-degree)和点出中心度(或出度,out-degree)。比如:粉丝关注关系中,出度表示关注他人的数量,入度表示粉丝数量。衡量了节点单独的价值。

(3)接近中心性(Closeness Centrality),即节点到其他所有节点距离的总和的倒数,由最小距离归一化而来,体现节点与其他节点的近邻程度,接近中心性值越大,表示节点能够更快到达其他节点,衡量了节点的网络价值。

(4)中间中心性(Betweenness Centrality),即经过节点的最短路径的数量,由最大可能值归一化而来,衡量了节点在其他节点之间的调节能力。

(5)共现关系(Co-occurrence),两个节点共同出现的次数。

(6)网络密度(Network Density),用于刻画网络中节点间相互连边的密集程度,在社交网络中常用来测量社交关系的密集程度以及演化趋势。

3. 社区划分

对网络关系图进行社区划分, 同一类(社区)的节点连接密集,不同类(社区)间的节点连接稀疏。依据Vincent D.Blondel 等人于2008提出,基于modularity optimization的heuristic方法而來。详见:https://en.wikipedia.org/wiki/Modularity_(networks)
https://perso.crans.org/aynaud/communities/api.html#module-community

(二)研发依据

[1] 王功辉,浏卫江.基于关键词共现的文本信息分析方法及应用研究–以信用评价为例[EB/OL].中国科技论文在线.2010.
[2]Aric Hagberg,Dan Schult, Pieter Swart.NetworkX Reference.2018,1,22:171-174.

(三)算法说明

关联规则:

(1) 支持度(Support): 即集合中同时包含人物A和人物B的关系数与所有关系数之比。

(2) 置信度(Confidence): 即集合中同时包含人物A和人物B的关系数与包含人物A关系数之比(条件概率)。

(3)提升度(Lift):即使用规则后关系集合中出现的次数是否高于单独出现在关系集合中的概率。

(四)约束与限制

当人物节点出现的越多,那么人物与人物之间任意组合的方式也会越多,计算耗时也会越久,对于计算资源的要求也相应提高。计算过程是需要计算出任意两两组合的关系系数,再依据关联规则筛选重要的关系组合,目前上限是支持1000组人物关系组合的输出展示。

这篇文章对您有用吗? 1

我们要如何帮助您?