缠社——缠中说禅论坛、新股民最好的学习论坛

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 2332|回复: 3

闲谈注意力指数之二——指数就是感受到的重要性

[复制链接]

79

主题

93

帖子

388

积分

版主

Rank: 7Rank: 7Rank: 7

积分
388
发表于 2015-6-23 22:43:22 | 显示全部楼层 |阅读模式

二十多岁的时候,我常会说这样的一句话:与人活得一样等于没活。到了三十多岁,忽然有一天明白了一个道理:做普通人其实挺好的。

对于古典概型,一个事件发生的概率等于该事件包含的基本事件数k除以总的基本事件数n,即k/n。一般来说,普通人都是淹没在分母里的n中了,而在分子里的往往不是普通人。例如,普通人买彩票是不会中一等奖的,因为中奖的概率据说相当于一年之内被雷打死两次,但问题是每年总有一些人中奖的,这些中奖的人就是分子中的人。不过别羡慕那些在分子里的人,因为在分母里的人虽然中不了大奖但也不会被雷劈死。

每天都会发生无数的事件,有些事件被人关注而有些事件则没人关注,被很多人关注的事件就是新闻。

然而,注意力是稀缺的资源,你不会同时关注所有的新闻,在你的心目中必定会很自然地给新闻的重要性排序,最重要的新闻就是你心目中的头条。

心目中的头条不一定就是新闻媒体中的头条。媒体中的头条实际上是“小编”认为的大多数读者心目中的头条。

现在假设,你的排序与小编的排序一致,并且阅读一条新闻的时间恰好是一个单位,那么很自然地就会产生这样的一个问题:在n条新闻中任选一条新闻,你平均会在多长的时间以后阅读?

这个问题并不难回答,因为如果该新闻的重要性排序是k,那么你就会在k-1个单位时间后开始阅读。假设任给的一条新闻其序位在1到n中是等可能的,那么该新闻被阅读的平均等待时间是(n-1)/2。

然而,实际上的问题并没有这么简单,这是因为在你阅读的过程中会进一步发生很多的新闻事件,它随时会在媒体中更新,新事件的重要性既有可能排在所给事件的前面也有可能排在所给事件的后面。问题的复杂性就此产生。

对于任何一个随机变量,人们最关心同时也是感受到最重要的指标无疑是均值。

比如,Gutenberg 和Richter在研究一次地震的普查资料时,首先提出的问题就是:

地震的平均规模是多少?

再比如,你想要应聘某单位的工作,一个非常的关心的问题就是工资。一般人常常会问这样的问题:贵单位的平均工资有多高?

之所以会关注平均值,并将其排在很多指标的重要性的首位,是因为背后意识或没有意识到的潜台词:假如对随机变量进行观测,那么绝大多数的观测值都在均值附近,远离均值的极端值是极其罕见的。

这就意味着,用统计的术语来说,绝大多数人在刻画一个随机的变量时事实上是运用正态分布的范式在思考。

当Gutenberg 和Richter问“地震的平均震级是多少”这个问题时表明他们俩是正态分布的“粉丝”,即他们事先肯定是企图用正态曲线来拟合所得到的数据的。然而,对地震数据的研究发现,并不存在一个类似于正态分布中均值那样的典型数值,也就是说,不存在这么一个平均的震级,使得远离该震级的地震(很轻微或很剧烈的地震)基本上不会出现。通过对加利福尼亚南部的一项地震研究得出了地震的震级与相应的频数之间服从幂律分布的结论。

幂律说起来比较复杂,并且有很多种表现方式。我们就从与其等价的相对直观的Zipf律说起。

1932年,哈佛大学的语言学专家Zipf在研究英文单词出现的频率时,发现如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的名次的常数次幂存在简单的反比关系,这种分布就称为Zipf定律,它表明在英语单词中,只有极少数的词被经常使用,而绝大多数词很少被使用。

我曾经要我的学生做了计算模拟,证实了幂律与Zipf律的等价,即如果一个随机变量取k的概率是k的某一幂函数,即具有幂律的形式,那么将该随机变量的观察值从大到小排列后排在第n位的数值与n满足Zipf律。

已有的研究表明(括号后面是幂律分布的指数),单词使用的频数(2.20)、科研论文被引用的次数(3.04)、万维网的点击数(2.40)、畅销书的销售量(3.51)、电话的呼叫次数(2.22)、地震的震级(3.04)、月球陨石坑的直径(3.14)、太阳伽玛射线的强度(1.83)、战争的强度(1.80)、富有人群的财富(2.09)、姓氏的频率(1.94)、城市的人口(2.30),等等,均服从幂律分布。

上面这些规律我们可以这么来解读:只有极少数论文被大量引用,而绝大多数的科研论文没什么人引用;只有极少数网页有大量的点击,而绝大多数网页很少有人问津;绝大多数的地震的震级都很小,只有少数的地震具有很大的震级;等等。或者用更直白的话即所谓二八原则来描述:80%的财富集中在20%的人手中,80%的用户只使用20%的功能,20%的用户贡献了80%的访问量,20%的微博集中了80%的粉丝;等等

幂律分布中的指数是有其统计学的含义的。如果指数介于1和2之间,那么就不存在平均值;如果指数介于2和3之间,那么均值存在但不存在方差。不存在方差意味着,均值不具有代表性,也就是说知道了均值对于了解随机变量的取值范围毫无意义。

说到这里,我要给出一个一般性的结论:如果你有一系列的任务,并按照重要性给予排序,最重要的先完成,在这个过程中每个时刻会有新任务进入,那么任选一个任务,它被执行前需要等待的时间服从幂律。

这就意味着,在长时间的静默等待后往往会有密集的爆发。

或许你很久没有发微博了,但突然间人们发现你一下子发了很多条微博。或许你很长时间没有浏览新闻,但突然间你一下子阅读了很多新闻。

任选一条新闻,在它被你阅读前的等待时间是服从幂律的,并且幂指数介于1和2之间,因此平均等待时间居然是无穷长。这是一个匪夷所思的结果。

人们的行为看上去很复杂不好理解,但实际上不过背后的幂律在起作用,其根源在于我们每个人都会对感受到不同的重要性给予相应的不同程度关注。

在复杂性的世界里,人们不再对平均值感兴趣,而是将兴趣转移到了幂律分布中的那个幂指数。

在某种程度上我们可以说,指数反映了被感受到的重要性。


回复

使用道具 举报

2

主题

1667

帖子

5906

积分

论坛元老

Rank: 8Rank: 8

积分
5906
发表于 2015-6-24 08:30:59 | 显示全部楼层
感谢分享!
回复

使用道具 举报

0

主题

77

帖子

282

积分

中级会员

Rank: 3Rank: 3

积分
282
发表于 2015-6-24 22:26:42 | 显示全部楼层
多谢分享!
回复

使用道具 举报

0

主题

119

帖子

808

积分

高级会员

Rank: 4

积分
808
发表于 2015-6-25 11:18:52 | 显示全部楼层
指数反映了被感受到的重要性
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|中国最好的缠中说禅教学与交流论坛

GMT+8, 2019-7-22 14:37 , Processed in 1.415298 second(s), 31 queries .

Powered by Discuz! X3.3

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表