基于预测度量值的IPTV用户行为规则预测算法(通讯)
汪敏娟1,2,嵇正鹏3,吕超1,2
(1.江苏省公用信息有限公司,江苏南京210006;2.中国电信股份有限公司智慧家庭运营中心,江苏南京210006;3.中国电信股份有限公司江苏分公司,江苏南京210003)
摘 要:提出了一种符合用户行为的,基于海量IPTV用户特征数据,对IPTV用户进行分群和规则提取的算法模型。首先提出了符合用户点播使用行为的IPTV用户分群的描述维度,即通过基础属性描述用户分群、通过点播行为描述用户分群变化趋势。然后提出了预测度量值的概念,对用户分群的稳定性进行描述,并提出了对稳定的用户分群提取点播行为概率的算法。最后通过大量的IPTV运营数据对算法模型进行了验证分析。
关键词:IPTV;点播行为;等价类划分;信息熵;预测度最值;规则提取
中图分类号:TP181 doi: 10.11959/j.issn.1000-0801.2016153
1 引言
IPTV(intemet protocol television,网络协议电视)是以网络协议为基础,面向电视终端,通过宽带网向用户提供交互式电视及增值服务的业务旧。在业务的发展和运营过程中.IPTV平台已积累了海量用户特征属性数据。这些数据是在用户办理业务和使用业务过程中积累的、对用户基本信息和使用信息的描述。用户特征属性数据蕴含了丰富的用户行为信息。如何在这些海量的信息中提取出有意义的用户行为特征,用于有效地指导IPTV业务运营与服务,已成为当前研究的热点问题。用户行为特征的预测算法研究,无论对于运营商,还是对于用户,都具有很高的经济价值和实际意义。
国内外很多学者、运营机构对于IPTV用户行为特征预测进行了研究。目前的研究工作主要通过计算用户与内容的关联关系、学习用户兴趣标签、用户聚类等角度展开。基于用户聚类的关联推荐算法,利用皮尔曼相关系数和斯皮尔曼相关系数来确定IPTV用户群与内容之间的偏好关系;提出从业务的用户使用场景出发,结合用户标签加强推荐的针对性;将一种单蚁群聚类应用于IPTV用户群偏好分析中,解决了用户偏好发现问题;提出了在没有先验知识的情况下,利用生态位理论计算IPTV服务之间的“竞争系数”,从而选取更为符合期望的服务的方法。上述工作都对利用IPTV用户特征属性信息进行用户分类、通过用户分类进行行为预测提供了有效解决方式。
在IPTV的实际运营过程中发现,用户的特征属性数据可分为基础属性和点播行为两类。基础属性是描述用户基本特征的数据(如所在地区、职业、产品套餐类型等);点播行为是在运营过程中产生的,随着用户使用业务而动态变化的数据(如平均消费值、最常收看的频道类型等)。
用户的点播行为是从无到有、不断变化的,而往往具有相同基础属性的用户在点播行为上表现出了一定的共性。另外,由于用户使用IPTV业务均经历了从陌生到熟悉的使用习惯培养过程,故处于不同状态阶段的用户特征属性数据对行为特征预测的贡献是不同的。可见应该从已趋于稳定状态的用户群体中获取行为特征,这样得到的规则较为贴近实际运营情况。而目前从上述角度进行研究的工作较少。
为此,从研究某些IPTV用户群是否适宜于进行用户行为预测人手,建立了一种全新的IPTV用户行为特征预测算法模型。首先利用IPTV用户的基础属性对用户进行基本分类,而后对每个基本分类中用户的点播行为是否已经趋于稳定进行观测。对于用户点播行为已趋于稳定的用户进行基本分类,计算出分类中点播行为出现的概率数据,利用此概率数据对IPTV用户的行为进行预测。通过对实际运营应用数据的分析与比较,提出的算法模型有效地提升了IPTV用户行为预测的准确性和用户行为预测的计算效率。
2 IPTV用户基本分类与预测度量值
2.1 IPTV用户基本分类模型
研究的IPTV用户行为特征预测算法模型,是以用户特征属性信息为基础进行知识学习的计算模型。首先基于对用户在各基础属性上的取值,通过等价关系运算来对IPTV用户进行等价划分,每个等价划分对应一个用户基本分类。
基于上述定义对IPTV用户进行基础分类划分的算法模型如图1所示。通过对IPTV用户核心基础属性值与已知各IPTV用户基本分类在核心基础属性上的取值相比较,在取值函数上取值相同的,即可将用户划分到该基本分类中。不断地重复上述过程,即可不断地根据用户基础属性的取值来建立用户基本分类。
2.2基本分类的预测度量值
通过把IPTV用户划分为若干个基本分类后,即可开始对各分类在运营过程中的变化情况进行观测。中提出,在IPTV运营过程中,绝大多数的用户会经历从对业务不熟悉到逐渐形成自己使用习惯的过程。即大多数用户使用了一定时期IPTV业务后,其对业务的使用习惯一般会停留在一个稳定的、有规律的状态附近。但如何来确定某一个用户基本分类已经趋于稳定,我们借鉴Shannon等人提出的经典信息熵概念:任何信息都存在冗余,冗余的大小与信息微观的不确定性有关。而信息熵就是用来描述信息源不确定程度的概念,即熵值越大,其不确定性越大;熵值越小,其确定性越大。
在对IPTV用户的预测过程中,对于已经趋于稳定的用户基本分类,其用户体现同类型点播行为的可能性越大。本文提出的预测度量值,就是利用信息熵的概念,对每个基本分类中海量的用户点播行为进行概率计算,用于判定当前的用户基本分类是否已经趋于确定。
设通过第2.1节的理论对IPTV用户集U划分得到的
依据信息熵的计算法则,定义IPTV用户基本分类点播行为的信息熵如下。
定义2 某IPTV用户基本中分类点播行为d的信息熵为:
H(d j)描述了某一个点播行为的不确定性。它通过其所有可能取值的变化情况来描述该属性当前的状态。对于一个IPTV用户基本分类来说,其预测度量值为其包含的所有点播行为信息熵之和。
IPTV用户基本分类的预测度量值为:
H(X i)在传统的对信息变化描述的基础上,通过对IPTV用户基本分类中点播行为变化情况的汇总,来表示当前分类整体点播行为的不确定性。
使用预测度量值表示在一个IPTV用户的基本分类中,其所有用户的点播行为是否已趋于稳定状态。预测度量值越大,表示该分类中的用户行为仍处于较为混乱的状态,意味着该分类暂时无法用于用户预测;预测度量值越小,表示该分类中的用户行为已趋于稳定,意味着该分类已形成了一类用户行为的描述。即随着用户逐步形成自己的使用习惯后,其点播行为虽仍在不断变化,但已趋于某一种规律。
IPTV用户基本分类预测度量值算法具体如下。
3 lPTV用户行为规则分析
得到每个IPTV基本分类对应的预测度量值后,对低于预设阈值的基本分类,认为其已基本趋于稳定。在IPTV业务运营过程中,可根据当前各基本分类预测度量值实际取值和运营经验来预设阈值。一般来说,在一定时间周期内,某个用户基本分类的预测度量值停留在一个较低的取值区间且没有发生较大范围的波动时,可认为其已趋于稳定。
在趋于稳定的用户基本分类X中,用户在基础属性上等价,在点播行为上取值不同,但保持了一定的变化规律。因此可通过对基本分类X中IPTV用户基础属性取值与点播行为取值的统计关系来得到某一类IPTV用户的行为特征。
4实验分析
对Ⅳ市12个月内IPTV用户的行为进行了预测实验。数据包括了Ⅳ市IPTV用户的基础属性和第1-12个月的点播行为数据。具体数据见表1。
首先根据用户的基础属性对用户进行分类,计算其预测度量值,并通过对已趋于稳定的用户基本分类进行用户行为特征预测,并将预测结果与12月的实际点播行为情况进行比对,以验证预测规则的准确性。
按照提出的用户基本分类算法,将Ⅳ市分成了30余个用户基本分类,针对各分类计算其1-11月的预测度量值。表2是Ⅳ市用户基本分类取值范围的情况。从表2中可以看到,用户基本分类的预测度量值处于一个“两头小、中间大”的状态,即部分基本分类已趋于稳定、少量分类处于大量变化阶段、多数用户分类处于由不稳定到稳定的变化过程中。
选取了预测度量值最小的3个基本分类、预测度量值最大的1个基本分类。其预测度量值1-11月份的变化情况如图2所示。从图2中可以看到,通过11个月的运营,用户基本分类A、B、C的预测度量值已逐步由较高的取值降低到一个平缓的取值范围,但也存在用户基本分类D,其预测度量值始终处于不断变化的状态。
通过对上述用户基本分类的走访,发现用户基本分类D中的绝大多数用户属于集体宿舍、宾馆等形态的用户。用户流动性大、使用人群不固定,故其预测度量值始终处于一个变化的范围。而对于基本分类A、B、C来说,其绝大多数IPTV业务用户为普通家庭用户,通过一段时间的业务使用,其使用习惯已逐渐趋于稳定,月均消费额、最常观看的直播频道、点播标签等运营特征数据均已处于一个稳定的范围内。
对于已趋于稳定的用户基本分类A、B、C,可通过其特征属性进行用户行为特征的预测。通过IPTV用户的预测算法,提取用户基本分类A、B、C中的行为规则,并将预测的规则与这3个基本分类在12个月的实际点播行为进行对比,用于验证预测规则的准确性。对比情况见表3。
从表3可以看到.3个用户基本分类点播行为的预测值和实际值的误差率都在8%以内,能够有效地为运营人员针对不同的用户基本分类进行有针对性的运营提供数据基础。
5结束语
提出了一种符合IPTV业务特征的分类及行为分析算法,结合实际运营经验将IPTV用户特征属性划分为基础属性和点播行为,利用基础属性对用户进行分类,利用点播行为描述各用户分类的变化情况,当用户分类变化趋于稳定时,计算该基本分类中用户的基础属性与点播行为之间的概率关系,并将该概率关系输出为行为规则,用于指导IPTV业务运营。通过对实际运营数据的分析,本文提出的预测算法明显地提升了IPTV用户预测的准确性,也降低了IPTV用户分类、行为规则提取的计算开销。
在后续的工作中,需对IPTV用户的特征属性分类提出更为精确的划分标准,并优化对IPTV用户基础属性分类算法和计算规则的约定,进而通过大规模数据统计规律来优化对用户点播行为信息熵、预测度量值的阈值估算方法。