西瓜指数算法说明
西瓜指数算法说明
一、什么是西瓜指数
西瓜指数是由西瓜数据对所收录的公众号进行智能评分,基于海量的公众号数据算法进行生成,主要用于评估及对比公众号之间的影响力,此指数也反映该公众号的受欢迎程度。(本算法主要针对微信进行评估)
算法简述
西瓜指数是通过收集指定字段的数据值,基于一定的计算公式推导出来的评分值,用以衡量公众号各维度的相对表现。例如某公众号指标评测周期的平均阅读数为1000,我们会将这一数据与相同分类下全网的公众号数据进行比对运算,以求得该指标的竞争力,其余指标以此类推。
该算法相有三大特色
1、各维度可生成相应的指标,最后指标基于一定公式的加权才产生最后的西瓜指数。
2、各维度的指标会剔除最高及最低值,最后的数据更符合真实性。
3、各维度的指标不仅是与海量公众号数据对比,也与公众号自身历史数据进行对比。
二、算法详情
1、选定指标
为了让公众号评估的算法更加客观,我们采取多个维度进行打分,以文章平均阅读数、文章平均点赞数、文章平均评论数、公众号发文数量、公众号主动删除文章数量等维度数据进行评估,具体生成以下六个维度的指标。
粉丝粘性指标 (平均阅读,R):指统计周期内去掉最高及最低阅读数,所取的公众号文章平均阅读值。
内容质量指标 (平均点赞,L):指统计周期内去掉最高及最低点赞数,所取的公众号文章平均点赞值。
粉丝质量(总评论数,F) :指统计周期内所取的公众号文章平均评论值。
影响力属性(头条总阅读,E) :指统计周期内所取的公众号文章头条总阅读量。
风险指标(删文数量,D):指统计周期内所取的公众号主动及被微信删除文章的总数量,以及历史疑似阅读刷量文章篇数。
公众号活跃指标(发文数量,C):指统计周期内所取的公众号累计发文数量。
2、指标标准化
基于不同维度指标的差异性,我们需要给不同维度的指标设定相应的权重,最后通过六个指标的累计值计算出最终的西瓜指数。
在西瓜指数中会降低公众号活跃指标所占的权重,并且去提升粉丝粘性指标、内容质量指标的权重。结合西瓜历史数据样本监测的结果,1个公众号每天可以发布8篇图文,一个月假设30天则可以发满240篇图文,个别公众号因为早期注册缘故可以发布两次以上图文,则一个月可以发满480篇图文。
这些公众号图文推送数量多,但次条平均的阅读量并不高,甚至有些号长期没有用户留言,并且这些公众号所拥有的活跃度并不高。
3、指标加权
这六项不同维度的指标我们赋予不同的权重,得到最后西瓜指数(XGZS)的具体公式如下
XGZS=(R'*W1+L'*W2+F'*W3+E'*W3+C'*W4)*D'
关于W1-W5分别赋予的权重值如下
W1=30%
W2=25%
W3=20%
W4=5%
西瓜指数D为0-1之间的系数,因此D的值在很大情况下影响西瓜指数评估出来的高低,西瓜数据认为公众号的活跃真实粉丝数量的价值最大,因此在设立西瓜指数中对于关于评估活跃度的指标增加更多权重。
三、算法所使用数据的统计口径
日榜的统计周期是所示日期0至24时间内,统计截止时间是次日中午12时,以确保子夜发布者至少得到12小时的传播。周榜的统计周期是所示日期范围(周一0时至周日24时),统计截止时间是下一个周以的中午12时。周榜并非日榜数据的简单加总,而是重新更新并统计。月榜、年榜统计逻辑以此类推。
四、西瓜指数的算法会经常调整吗?
西瓜指数是设定相对标准让大家更大概率找到优质公众号,这也需要对所收录的公众号数据进行长期跟进,如果通过优化算法确实可以提高更大的概率找到优质公众号,那么西瓜数据会及时调整优化算法版本,并通过公开渠道统一说明。