『 Spark 』13. Spark 2.0 Release Notes 中文版

写在前面

本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的笔记记录,所以一切以能够理解为主,没有必要的细节就不会记录了,而且文中有时候会出现英文原版文档,只要不影响理解,都不翻译了。若想深入了解,最好阅读参考文章和官方文档。

其次,本系列是基于目前最新的 spark 1.6.0 系列开始的,spark 目前的更新速度很快,记录一下版本号还是必要的。
最后,如果各位觉得内容有误,欢迎留言备注,所有留言 24 小时内必定回复,非常感谢。

Tips: 如果插图看起来不明显,可以:1. 放大网页;2. 新标签中打开图片,查看原图哦;3. 点击右边目录上方的 present mode 哦。

Notes:

上一篇文章: 『 Spark 』12. Spark 2.0 | 10 个特性介绍

1. API Stability

spark 保证 2.x 中非实验性的 api 的稳定性,2.x 中大部分 api 都与 1.x 中保持一致,但是删除了一些 api,更新了一些 api,并且有部分 api 打算在后续升级中移除,具体见下面,完整的列表参考:Spark 2.0 deprecations and removals

1.1 Removals API

1.2 Behavior Changes API

1.3 Deprecations

2. Core and Spark SQL

2.1 Programming APIs

2.2 SQL

Spark 2.0 完全支持 SQL2003 标准.

2.3 New Features

2.4 Performance and Runtime

3. MLlib

在 2.x 中,DataFrame-based API 会是主要开发,维护的新的 mllib api。

4. SparkR

最大的改善是 2.x 中,sparkr 支持3个 udf: dapply, gapply, and lapply.

5. Streaming

新的 streaming 框架 Structured Streaming, 其中 DStream API 大多数都是处于试验阶段,并且只支持 Kafka 0.10 的connector.

6. Dependency, Packaging, and Operations

7. Spark 2.0, 必须知道的几个点

14. 打开微信,扫一扫,点一点,棒棒的,^_^

wechat_pay_6-6.png

参考文章

本系列文章链接