大数据

在网络高速发展的今天,数据源源不断的从各个媒介传入脑中,不知不觉我们走入一个数据爆炸时代,大数据已经成为每个人耳熟能详的科学词语。数据的价值无需论述,用途遍布了环境,医疗,教育,吃穿住行,有数据就可以分析,进行人工智能的学习,从而总结出结论,帮助我们下另一个结论。但大数据真的万能吗?

城市街景

我常常有这样的思考,在我有限的自由时间内,我希望获得一些精良的信息,比如读好的文章,听好的歌曲,看好的画作。那么怎么来选取到好的作品呢?什么是好的作品呢?对于这些强主观性问题的分析,大数据往往会有所偏颇,并非因为画,文章,歌不可拆分,事实上,他们都可以转化为信息字符,这是他们可传播的必要条件。但拆分成像素,文字,音符的内容已经不构成原本的内容,作品的精良就体现在他们的组合形式,而非单独的成分。

近几年,由人工智能推荐新闻的算法,如今日头条,facebook等,饱受争议。因为无法找到准确的数学特征来进行优劣的分析。现在使用的方法中,针对于主观优质的判断方式有两种:一是基于投票形式,也就是越多人说好,就越好,二是专家说好,就好。针对于有用的分析论断则是基于一定程度的个性化学习,也就是你曾经说类似的好,就越好。这些针对于主观判断的自动算法都有其合理性,也有明显的缺点。优质判断中“多人论”容易陷入人云亦云,三人成虎的境况。现如今网络上舆情治国就彰显的很明显,经常性的反转,大部分自媒体怎么说,我们就怎么相信,不只是好坏,很多时候是关于真假的辩驳,更容易导致大量低俗,色情内容泛滥;”专家论“会陷入威权主义的可能。”有用判断”容易陷入局部最优解。共同缺点都是对于新鲜优质数据的不友好性。

发愁

怎样在汪洋的大海数据集里选择出好信息是大数据时代的一个大挑战。大数据,人工智能在现在的阶段可能无法完成所有的筛选工作,但思考如何有效利用他们来减少人工的任务可能是更加切实可行的目标。过滤分多层,有明确定义,可找到数字化特征的任务可以交由计算机处理,比如恶俗词语、低俗图片、重复性垃圾信息、抄袭等内容可以首先进行过滤,这是普遍意义上的一些对于优劣的评断。第二层就值得思考了,因为参杂了很多“个性化”的内容,毕竟小众的作品也是有“众”在支持,彼之蜜糖,吾之砒霜,我们不能过滤掉“我们以为不重要“的信息,但可以对“我们觉得比较重要”的内容进行推荐,被时间检验过,为世人喜爱的作品,自然值得信赖,自己小众的特别爱好也要保持,那么难点就是如何发现新鲜优质的作品,学术界针对于此也引入了专门的概念来加以研究:强化学习中的exploration VS exploitation策略概念—既一味最求我已知最好的选择还是尝试未知但可好可坏的选择。算法不断被提出,被优化,但并无定论。那么如果我们换另外一个思路,如果现下无法进一步自动化分割好坏,那么是否有别的途径可以促使数据本身趋向于高质量,也就是如何促进更多更好的原创性数据的产生?

Instagram

针对于这几点,要划重点,Instagram就做的非常好。比起小红书、微博等社交媒体,新用户更有好感度,说直白一点就是涨粉容易,给了新用户高的曝光度。像微博的形式:大家关注热点,越是高人气的人就越容易产生热点,就会越会获得高的关注度。普通用户为了提高曝光度,就要拼命产生靠近热点的内容,所以很多的人云亦云,发表与自己生活毫不相关的感慨,或者挂羊头卖狗肉,甚至出口伤人。而对于Instagram,大V的关注度很高自然无用质疑,这是涨粉的原动力。但他们没有占据所有的流量,新用户的新的作品会被极大程度的曝光,从而引来流量。那么关注容易,取关也非常容易,粉丝来的快,去的也快,造成的结果是每一个用户为了保持高的关注度就会想要创作更多好的高质量的原创作品。其次,Ins对于相关内容的推荐也是做的非常用心,学习了用户关注者的共同性用以保证“对个人有用”这一点的信息过滤。

总结一下,一个好的机制可以从源头上促进优质信息的产生,但筛选优质信息这条路还非常任重道远,至少今天在选择好的公众号的时候还是比较烧脑。不过挑战就意味着更多的机遇,期待大数据,人工智能,更多的未知技术来解决这些不可能。

——————————————————————

了解更多活动互动信息,来看看picpiclive.com吧

更多好玩的文章请关注公众号:Picpic老友记