“大家喜欢看那些博人眼球的东西,所以写这些东西的自媒体就更容易存活下来。
而那些秉持着职业操守的自媒体,专注报道那些无聊的真相的自媒体,能够存活的万中无一,因为大家不爱看这些东西。
而我们这次要找的就是这种没有发财相的自媒体。”
陈丹青稍微停顿了一下然后继续说道:
“你建立一个大数据模型,从这些新闻中提取关键字。
需要控制的变量除了这些对自媒体的要求以外,再加入雪茄这家店涉及的势力以及它所服务过的各类客户涉及的势力。
最后筛选出重叠度最高的那个,它大概率就是我们要找的目标了!”
其实陈丹青使用的方法就是大数据搜索,只不过这次的猎人与猎物的身份互调。
普通人成为了搜索方,而公司成为了被“杀熟”的对象。
这世上的繁华太多,总是干扰人们的视线。
并不是因为真相它害羞,想要隐藏自己。
只不过是每一种表象都有多种的理解。
同一件事物虽然表象相同,在不同的条件下意义便不同。
即便是同一件事物,同一个条件,不同的人去看,感觉到意义也并不相同,甚至是大相径庭。
信息传递上的差异导致人对于世界的理解出现偏差。
而复杂且多样的表象又将这种偏差放大。
更有甚者为了某些目的而故意引导这种偏差。
经过多次偏差叠加,最终获得感觉便与真相相差甚远。
这也就是为什么人们总是感觉难以看见真相的原因。
但是,真相并没有改变也没有消失,无论人们看的见,看不见,它都在那里,遵循着某种规律在那里心无旁骛的运转。
而它留下的痕迹就是人们追寻它的方法。
人会说谎,但是数据不会。
数据就是将真相留下的痕迹归纳收集所获得的产物。
而这些数据中隐藏着表象之下的真相。
人们开始用数据寻找真相,这是一个巨大的进步。
因为这种方法将许多虚无缥缈的感觉可视化,依靠数据与提前制定好的标准比对。
这样就能排除主观的影响,能够客观的做出判断。
但是这种方法也并非尽善尽美。
因为提前制定的标准是否准确,这是不一定的。
虽然可以通过大数据进行不断的修正,但是标准很难保证万无一失。
而且这个方法还有一个底层的问题。
那就是如何保证数据的准确性。
整个世界无时无刻不在发生着变化,它所产生的数据量是一个天文数字,以现在的科学手段根本无法完全处理。
为了解决这个问题,现在的数据都是经过一定步骤的筛选获得的“有效数据”。
但是无论任何数据,只要经过筛选,一定会丢失一部分信息。
有的时候,这些丢失的信息反而是那些最关键的信息。
那么经过筛选之后的“有效信息”就会变成错误信息。
最后由这些信息得出的结论有极大的概率也是错误的,甚至有可能与真相完全相反。
所以使用大数据的手段来探求真相,最关键的有两个方面。
第一个就是尽可能多的使用原始数据。
舍弃的数据越少,丢失的信息也就越少,能够得到的结论也就越接近真相。