NetEase Spark Courses 本项目旨在指导相关的用户在使用网易猛犸大数据平台的过程中能够更加方便使用Apache Spark进行日常的数据开发工作。 一、基础知识 1. Spark概述及快速入门指南 2. 基于Maven在IDE中开发Spark应用 二、 Spark Core 1. Spark RDD概述 2. Spark垃圾回收机制 -- ContextCleaner Spark On YARN 三、 Spark SQL DataFrame/Dataset Spark SQL与Hive集成 Spark SQL UDF 如何优化Spark SQL执行过程 Spark SQL Catalyst工作原理详解 Spark SQL Cost Based Optimization详解 Spark SQL Thrift Server详解 Spark SQL 操作各种数据源 Spark SQL 参数详解及调优 四、 Spark Streaming 大数据处理的类型、流计算的框架及内容概要 SparkStreaming是什么及数据处理流程 Spark Streaming集成Kafka Spark Streaming集成Flume 五、 Spark Structured Streaming Spark Structured Streaming Basics 六、 Spark Machine Learning 七、 Spark GraphX 八、 R on Spark 九、 Mammut Spark 数据开发 如何使用猛犸Spark进行数据开发 如何使用猛犸进行ETL开发 如何使用猛犸Spark Streaming任务开发及调优 十、 Mammut Spark 自助分析 十一、 Spark 参数详解 十二、 其他 DataSourceV2 DataSourceV2 Overview - 范文臣大神SPIP: DataSource API V2读后感 推广链接 Kyuubi 基于Spark实现的多租户SQL Thrift/JDBC/ODBC服务 spark-authorizer 提供Spark SQL权限控制能力的插件