大数据应用未达预期效果,5重大山成阻碍
都知道大数据能够挖掘出更多价值,但是就目前大数据技术整体发展来看,大数据应用远没有达到预期的效果,大数据带成为一座开采难度巨大的矿山,其原因有几个:
数据的获取难度增加
从早期PC端各种类型的cookie数据及用户网站浏览、点击、停留等数据,到用户移动端设备相关的型号、位置及应用使用时长、次数、类型等数据,再到应用内的点击、停留、浏览、搜索等数据,数据量虽然越来越大,可获取变得越来越难。早期用户对这些所谓的“不敏感数据”并不了解,或着不太在意。但随着各种类型的数据商业模式兴起,一些数据收集方过度、越线收集用户数据,又有人利用这些数据进行过度营销,严重损害了用户体验和信任度。用户的数据保护意识快速提升,而数据收集方也有保护自身数据资产的需求,这就产生了多方面的矛盾,使得大规模的数据收集和应用变得更加困难。为解决这些问题,应该建立全面的机制和标准,使得数据的获取、加工、存储、应用、共享更加规范和有序,打破数据孤岛困境,共同构建生态健康、持续成长的市场。
大数据应用与个人隐私的问题没有很好的解决
大数据时代每个人通过互联网留下了大量的各种类型的数据,综合这些数据信息能够反映出人的行为模式:包括应用兴趣偏好、常去地点、工作及居住地、社交关系、收入水平、消费偏好、品牌偏好等。善用这些数据原本能够更好的为用户服务,比如提供更符合用户偏好的产品及服务,能够有效降低用户的选择时间,甚至规划建设更高效的城市、让生活更便捷。但一方面频繁的操作系统升级和设备更替让用户更加注重数据的安全问题;同时,某些数据收集行为越过了对个人互联网特征数据的红线,数据是否会造成个人隐私的泄露、是否会带来过度的营销、是否有可能被精准的侵入,给用户造成大量的困扰,甚至是经济损失。为解决数据隐私问题,在对已有法律法规继续进行完善的基础上,也应该有行业规范和行业自律要求,双管齐下,促使数据产业链各方参与者共同打造良好的网络数据空间,增加对用户隐私和数据安全的保护,也通过更加人性化的服务产生数据应用的价值。
大数据加工处理的速度与数据产生的速度不同步
大数据时代每人每天产生的数据高达数GB,围绕社交、金融交易、网络购物、生活记录等各种应用,全世界每天能够产生数ZB的数据,这庞大的数据量需要更加庞大的处理能力才能实现有效利用。但是以目前的计算方法和计算能力,每秒处理的速度远小于数据产生的速度,只能选择小范围的尝试,像Spark/Hadoop/Flink/Kafka等广泛应用的计算方法均有待提升。同样的,对于所需的硬件基础设施,目前最快的CPU/GPU/NPU其每秒所能提供的计算速度仅达数百MB/s,也无法更快的提升计算能力。这些都限制了数据处理的快速发展。鉴于此,应该针对不同类型的数据提供不同的处理算法,比如专门针对常规结构化数据或文本数据、音视频等非结构化数据等的专用计算方法。通过基于各类数据的特点进行并行计算,如结构化数据的小数据、文本数据的数据块数据、音视频的采样压缩数据等,针对每一种数据进行专门的效率提升。同时,在现有计算芯片的基础上增加各种类型的协处理器,有效提升数据计算任务的并行处理能力,提升芯片的利用率。
大数据应用落地难度增加
虽然我们处在大数据时代,但能够得到有效应用的数据还不足1/10,而其应用方向大部分仅仅是围绕营销、风控等方面。这些主要面向市场的应用虽然帮助企业提升了收入,但是越来越多人对这种缺少选择空间的应用充满怀疑,也导致应用水平的下降。而且,这些只看一时、不看长远的应用方式也有可能导致效果适得其反,用户被教育之后就会明显的进行反抗,将会影响到数据的未来应用。数据应用落地目前显然受到了环境发展及数据孤岛等方面的影响,很多好的想法无法付诸实践。但是可以考虑通过新兴的区块链技术实现行业合作、资源互换、消费者互利等,促进各方的信任,以开放心态,在保护数据安全的前提下更多的释放数据价值,打造智慧空间的各种应用。
大数据价值发掘方向不明确
大数据的发展离不开各方参与者,其价值的实现也需要各方通力合作。但是目前大量掌握数据的企业圈地自封,而生产数据的用户却成为了被收割的对象。这也引发了围绕数据价值的喋喋不休的争论——到底是为了提升用户体验,还是收割所剩无几的互联网流量红利?但是这些都无法阻挡历史前进的车轮。在数