................................................................... 原因在于,计算机性价比的提高,磁盘价格的下降,利用通用服务器对大量数据进行高速处理的软件技术Hadoop的诞生,以及随着云计算的兴起,甚至已经无需自行搭建这样的大规模环境。上述这些因素,大幅降低了大数据存储和处理的门槛。因此,过去只有像NASA这样的研究机构以及屈指可数的几家特大企业才能做到的对大量数据的深入分析,现在只要极小的成本和时间就可以完成,无论是刚刚创业的公司还是存活多年的公司,也无论是中小企业还是大企业,都可以对大数据进行充分的利用。
(1) 计算机性价比的提高
承担数据处理任务的计算机,其处理能力遵循摩尔定律一直在不断进化。所谓摩尔定律,是美国英特尔公司共同创始人之一的高登·摩尔(Gordon Moore,1929- )于1965年提出的一个观点,即"半导体芯片的集成度,大约每18个月会翻一番"。从家电卖场中所陈列的电脑规格指标就可以一目了然地看出,现在以同样的价格能够买到的计算机,其处理能力已经和过去不可同日而语了。
(2) 磁盘价格的下降
除了CPU性能的提高,硬盘等存储器(数据的存储装置)的价格也明显下降。2000年的硬盘驱动器平均每GB容量的单价约为16美元到19美元,而现在却只有7美分,相当于下降到了10年前的230~270分之一(图表1-4)。换算成人民币的话,就相当于4~5毛钱的样子。
变化的不仅仅是价格,存储器在重量方面也产生了巨大的进步。1982年日立最早开发的超1GB级硬盘驱动器(容量为1.2GB),重量约为250磅(约合113千克)。而现在,32GB的微型SD卡重量却只有0.5克左右,技术进步的速度真是相当惊人。
(3) 大规模数据分布式处理技术
Hadoop的诞生Hadoop是一种可以在通用服务器上运行的开源分布式处理技术,它的诞生成为了目前大数据浪潮的第一推动力。如果只是结构化数据不断增长,用传统的关系型数据库和数据仓库,或者是其衍生技术,就可以进行存储和处理了,但这样的技术无法对非结构化数据进行处理。Hadoop的最大特征,就是能够对大量非结构化数据进行高速的处理。 |