大数据的形成是因为源源不断产生的数据。在高容量环境中,数据输入的速度非常快,但仍然需要进行分析和存储。 VoltDB公司软件架构师
大数据的形成是因为源源不断产生的数据。在高容量环境中,数据输入的速度非常快,但仍然需要进行分析和存储。
VoltDB公司软件架构师John Hugg建议,我们不应该简单地存储数据以便以后进行分析,我们应该实现这样的情况,当数据被输入时就可以被分析,同时通过Apache Kafka等工具来保持很高的输入率。
十几年前,我们几乎不可能使用商品硬件来分析PB级历史数据。现在,通过数千个节点构建的Hadoop集群非常常见。Hadoop等开源技术让我们看到了如何使用商品和虚拟化硬件来有效处理PB级数据,并且这种技术可以很容易地实现。因此,大数据开始出现。
现在我们正看到一个类似的数据革命的发生,即所谓的快数据(Fast Data)。首先,让我们看看快数据的定义。大数据是指以惊人速度产生的大量数据,例如点击数据、金融股票数据、日志聚集或者
传感器数据。通常情况下,这些事件每秒发生数千或数万次。无怪乎这种类型的数据通常被称为“水龙管”。
对于大数据,我们并不是以数据仓库熟悉的千兆字节、TB和PB级来测量数据,我们是从时间的角度来计算:每秒多少MB、每小时多少GB或者每天多少TB。我们谈论的是速度以及容量,这是大数据和数据仓库之间的核心差异。大数据不仅大,而且很快。
快速移动的数据被转储到HDFS(分析型RDBMS),大数据的好处就失去了,因为当事情发生时,我们将无法发出警报。大数据代表着活跃数据、即时状态。而数据仓库则是通过分析历史数据来了解过去和预测未来。
对数据进行即时分析被认为是昂贵且不切实际的,特别是在商用硬件上。而快数据的价值在于,重新规划消息队列和流媒体系统(例如开源Kafka和Storm),并通过引入开源NoSQL和NewSQL产品,重新构建数据库的部署。
从快数据获取价值
从输入数据获得价值的最好方法是在它达到的瞬间做出反应。如果你在批量处理输入数据,你已经失去了最佳时机和数据中的价值。
为了处理以每秒数千到数百万事件的数据,你将需要两种技术:首先,你需要能够快速提供事件的流系统;其次,能够快速处理每个数据的数据仓库。
快递快数据
在过去几年出现了两个流行的流媒体:Apache Storm和Apache Kafka。Storm最初是由Twitter的工程团队开发,它可以稳定地处理每秒数百万的数据流。Kafka则是由LinkedIn的工程团队开发,这是一个高度分布式消息队列系统。这两个流系统都解决了处理快数据的需求。不过,Kafka有些不同。
Kafka被设计为一个消息队列,并能够解决现有技术的已知问题。这是具有无限可扩展性、分布式部署、多租户和强大持久性的双重队列。企业可以部署一个Kafka集群来满足其所有消息队列需求。在其核心,Kafka可以传递消息。它并不支持任何形式的处理或查询。
处理快数据
消息传递只是解决方案的一部分。传统关系型数据往往在性能方面受到限制,有些可能能够以高速率存储数据,但它们无法实时验证或操作数据。NoSQL系统可以提供集群和高性能,但牺牲了传统SQL系统提供的动力和安全性。对于基本的大数据处理,NoSQL解决方案可能会满足你的业务需求。然而,如果你试图执行复杂的查询和业务逻辑操作,内存NewSQL解决方案可以满足你的需求,无论是在性能还是事务的复杂性方面。
与Kafka一样,一些NewSQL系统建立在无共享集群的基础上。负载分布在集群节点之间,以确保性能。数据复制在集群节点之间复制,以确保安全性和可用性。为了处理增加的负载,节点可以透明地添加到集群。节点可能被删除,或者出现故障,而其他集群可以继续运作。该数据库和消息队列并没有单点故障。这些功能是可扩展系统的特点。
此外,Kafka和一些NewSQL系统能够利用集群和动态拓扑来扩展。Kafka提供消息排序保证,而一些内存处理引擎则提供序列化一致性和ACID语义。这些系统都是用集群感知客户端来提供更多功能或者简化配置。最后,它们都通过不同机器的磁盘来实现冗余耐用性,而不是RAID或其他本地存储方案。
大数据工具包
对于处理大数据,你需要怎样的系统?
具有本地无共享集群的冗余性和可扩展含蓄优势的系统
依靠内存存储和处理来实现每节点高吞吐量的系统
在数据输入时处理数据的系统。系统是否能执行条件逻辑?是否能够查询千兆字节或更多现有状态来通知决策?
隔离操作以及对其操作作出有力保障的系统。这允许用户编写更简单的代码,专注于业务问题,而不是处理并发问题或数据分歧。有些系统提供一致性,但是极大地降低了系统性能。
具有这些特定的系统源自于NewSQL、NoSQL和Hadoop社区,但不同的系统会有自己的优点和缺点。对于想要实时对数据采取行动的企业,这些工具可以减少理解大量数据的复杂性。
Kafka提供了安全的高可用的方法来在不同生产者和消费者之间移动数据,同时提供了性能来让管理员放心。内存数据库可以提供完整的关系型引擎,具有强大的事务逻辑、计数和聚合,都具有足够的可扩展性来满足任何负载。这种系统不仅是作为一种关系型数据库,这种系统还可以作为补充Kafka的消息基础设施的处理引擎。 无论你的企业需求如何,这些工具可以帮助你更快地了解数据。
免责声明:本站所使用的字体和图片文字等素材部分来源于互联网共享平台。如使用任何字体和图片文字有冒犯其版权所有方的,皆为无意。如您是字体厂商、图片文字厂商等版权方,且不允许本站使用您的字体和图片文字等素材,请联系我们,本站核实后将立即删除!任何版权方从未通知联系本站管理者停止使用,并索要赔偿或上诉法院的,均视为新型网络碰瓷及敲诈勒索,将不予任何的法律和经济赔偿!敬请谅解!