Spark是否需要超能力团队?

Gian Merlino

英文演讲 0001-01-01 00:00 GMT+8  #streaming-bk

在短短十多年的时间里,Spark已经从一个大学实验室项目成长为Apache软件基金会最活跃的项目之一,其提交者和用户遍布全球。作为在单节点机器或集群上执行数据工程、数据科学和机器学习的多语言引擎,Apache Spark™已经证明了它的价值。

但Spark做不好的事情怎么办?Spark非常适合流处理,但如果需要将流与历史批处理数据组合在一起呢?Spark对于顺序读取速度很快,但是如果只是想从数据集中检索一条记录(或一组记录)呢?大型、重量级查询是Spark的核心用途,但如果需要大量并发查询呢?为了补充Spark,我们需要一个作为分析盟友的Anti-Spark。

Gian Merlino, Apache Druid®的提交者和Imply的联合创始人将展示实时分析数据库是如何补充Spark的能力的,展示两种技术是如何合作来增强高性能系统的。形式可靠的机器学习数据工作流!具有高并发性和低延迟并结合流和批处理数据的交互式数据对话的数据库形状!

Speakers:


Gian Merlino: Imply, 联合创始人兼首席技术官, 吉安是Imply的联合创始人兼首席技术官。Gian也是Apache Druid的主要提交者之一。此前,Gian曾在Metamarkets领导数据摄入团队,并在雅虎担任高级工程职位。他拥有加州理工学院计算机科学学士学位。