Spark 并行集合_菜鸟教程

HTML/CSS

HTML 教程

HTML5 教程

CSS 教程

CSS3 教程

Bootstrap 教程

Foundation5 教程

HTML 参考手册

CSS 参考手册
JavaScript

JavaScript 教程

JavaScript 和 HTML DOM 参考手册

Vue.js 3.0 教程基础

Vue.js 2.0 教程

Vue CLI 基础

开发指南

React 教程

jQuery

Node.js 教程

TypeScript 教程

AngularJS 教程

JSON 教程

AJAX 教程

ES6教程

Angular 2 教程

jQuery UI 教程

jQuery EasyUI 教程

Ext.js 教程

Ember 对象模型

HTML DOM 教程

CoffeeScript 教程

Highcharts 教程

Meteor 教程
后端语言

Python3 教程

Python2 教程

Java 教程

Node.js 教程

PHP 教程

Go 教程

C 语言教程

C++ 教程

C# 教程

R 教程

Ruby 教程

JSP 教程

Lua 教程

ASP.NET 教程

VB 教程

VB.Net基本教程

Perl 教程

顺序编程

Scala 教程

Julia 教程
开发框架

Spring IoC 容器

Django 教程导读

JFinal教程手册

Swoole 教程

Groovy 教程

Servlet 教程

Struts2 教程

jUnit 教程

概要

SWING 教程

WordPress基础

Arduino教程

WPF 入门
数据库

MySQL 教程

Redis 教程

SQL 教程

MariaDB 教程

MyBatis 教程

SQLite 教程

MS Access教程

MongoDB 教程

Memcached 教程

Hibernate 教程

Storm 入门教程

Cassandra 教程

Slick 教程

Spark 编程指南
移动开发

鸿蒙OS 入门

微信小程序开发文档

Android 教程

Android SDK 上手指南

iOS 开发手册

jQuery Mobile 教程

Swift 教程

Cordova 教程

一、简介与环境搭建

React 教程

ionic 教程

HomeKit App 的开发指南

小程序云开发学习指南

云开发云函数实现后端能力
服务器相关

Linux 教程

Docker 教程

Docker 从入门到实践

DOS 命令学习手册

Nginx 入门指南

Shell 编程范例

UNIX 入门指南

OAuth 2.0 系列教程

Web Services 教程

Dart 编码风格指南

RDF 教程

第0章咱们先来谈谈学习方法和红帽系统。

-

Spark 并行集合

并行集合 (Parallelized collections) 的创建是通过在一个已有的集合(Scala Seq)上调用 SparkContext 的 parallelize 方法实现的。集合中的元素被复制到一个可并行操作的分布式数据集中。例如，这里演示了如何在一个包含 1 到 5 的数组中创建并行集合：

val data = Array(1, 2, 3, 4, 5)
val distData = sc.parallelize(data)

一旦创建完成，这个分布式数据集(distData)就可以被并行操作。例如，我们可以调用 distData.reduce((a, b) => a + b) 将这个数组中的元素相加。我们以后再描述在分布式上的一些操作。

并行集合一个很重要的参数是切片数(slices)，表示一个数据集切分的份数。Spark 会在集群上为每一个切片运行一个任务。你可以在集群上为每个 CPU 设置 2-4 个切片(slices)。正常情况下，Spark 会试着基于你的集群状况自动地设置切片的数目。然而，你也可以通过 parallelize 的第二个参数手动地设置(例如：sc.parallelize(data, 10))。