NetEase Spark Courses

本项目旨在指导相关的用户在使用网易猛犸大数据平台的过程中能够更加方便使用Apache Spark进行日常的数据开发工作。

一、基础知识

1. Spark概述及快速入门指南

2. 基于Maven在IDE中开发Spark应用

二、 Spark Core

1. Spark RDD概述

2. Spark垃圾回收机制 -- ContextCleaner

Spark On YARN

三、 Spark SQL

DataFrame/Dataset

Spark SQL与Hive集成

Spark SQL UDF

如何优化Spark SQL执行过程

Spark SQL Catalyst工作原理详解

Spark SQL Cost Based Optimization详解

Spark SQL Thrift Server详解

Spark SQL 操作各种数据源

Spark SQL 参数详解及调优

四、 Spark Streaming

大数据处理的类型、流计算的框架及内容概要

SparkStreaming是什么及数据处理流程

Spark Streaming集成Kafka

Spark Streaming集成Flume

五、 Spark Structured Streaming

Spark Structured Streaming Basics

六、 Spark Machine Learning

七、 Spark GraphX

八、 R on Spark

九、 Mammut Spark 数据开发

如何使用猛犸Spark进行数据开发

如何使用猛犸进行ETL开发

如何使用猛犸Spark Streaming任务开发及调优

十、 Mammut Spark 自助分析

十一、 Spark 参数详解

十二、其他

DataSourceV2
- DataSourceV2 Overview - 范文臣大神SPIP: DataSource API V2读后感

推广链接

Kyuubi 基于Spark实现的多租户SQL Thrift/JDBC/ODBC服务

spark-authorizer 提供Spark SQL权限控制能力的插件

Name		Name	Last commit message	Last commit date
Latest commit History 43 Commits
.github/ISSUE_TEMPLATE		.github/ISSUE_TEMPLATE
example		example
imgs		imgs
slides		slides
.gitignore		.gitignore
.travis.yml		.travis.yml
README.md		README.md
_config.yml		_config.yml
pom.xml		pom.xml
scalastyle-config.xml		scalastyle-config.xml

netease-bigdata/ne-spark-courseware

Folders and files

Latest commit

History

Repository files navigation

NetEase Spark Courses

一、基础知识

1. Spark概述及快速入门指南

2. 基于Maven在IDE中开发Spark应用

二、 Spark Core

1. Spark RDD概述

2. Spark垃圾回收机制 -- ContextCleaner

三、 Spark SQL

四、 Spark Streaming

五、 Spark Structured Streaming

六、 Spark Machine Learning

七、 Spark GraphX

八、 R on Spark

九、 Mammut Spark 数据开发

十、 Mammut Spark 自助分析

十一、 Spark 参数详解

十二、 其他

推广链接

About

Topics

Resources

Stars

Watchers

Forks

Languages

十二、其他