Hadoop Failover_菜鸟教程

HTML/CSS

HTML 教程

HTML5 教程

CSS 教程

CSS3 教程

Bootstrap 教程

Foundation5 教程

HTML 参考手册

CSS 参考手册
JavaScript

JavaScript 教程

JavaScript 和 HTML DOM 参考手册

Vue.js 3.0 教程基础

Vue.js 2.0 教程

Vue CLI 基础

开发指南

React 教程

jQuery

Node.js 教程

TypeScript 教程

AngularJS 教程

JSON 教程

AJAX 教程

ES6教程

Angular 2 教程

jQuery UI 教程

jQuery EasyUI 教程

Ext.js 教程

Ember 对象模型

HTML DOM 教程

CoffeeScript 教程

Highcharts 教程

Meteor 教程
后端语言

Python3 教程

Python2 教程

Java 教程

Node.js 教程

PHP 教程

Go 教程

C 语言教程

C++ 教程

C# 教程

R 教程

Ruby 教程

JSP 教程

Lua 教程

ASP.NET 教程

VB 教程

VB.Net基本教程

Perl 教程

顺序编程

Scala 教程

Julia 教程
开发框架

Spring IoC 容器

Django 教程导读

JFinal教程手册

Swoole 教程

Groovy 教程

Servlet 教程

Struts2 教程

jUnit 教程

概要

SWING 教程

WordPress基础

Arduino教程

WPF 入门
数据库

MySQL 教程

Redis 教程

SQL 教程

MariaDB 教程

MyBatis 教程

SQLite 教程

MS Access教程

MongoDB 教程

Memcached 教程

Hibernate 教程

Storm 入门教程

Cassandra 教程

Slick 教程

Spark 编程指南
移动开发

鸿蒙OS 入门

微信小程序开发文档

Android 教程

Android SDK 上手指南

iOS 开发手册

jQuery Mobile 教程

Swift 教程

Cordova 教程

一、简介与环境搭建

React 教程

ionic 教程

HomeKit App 的开发指南

小程序云开发学习指南

云开发云函数实现后端能力
服务器相关

Linux 教程

Docker 教程

Docker 从入门到实践

DOS 命令学习手册

Nginx 入门指南

Shell 编程范例

UNIX 入门指南

OAuth 2.0 系列教程

Web Services 教程

Dart 编码风格指南

RDF 教程

第0章咱们先来谈谈学习方法和红帽系统。

-

YARN - Failover

失败类型

程序问题
进程崩溃
硬件问题

失败处理

任务失败

运行时异常或者JVM退出都会报告给ApplicationMaster
通过心跳来检查挂住的任务(timeout)，会检查多次（可配置）才判断该任务是否失效
一个作业的任务失败率超过配置，则认为该作业失败
失败的任务或作业都会有ApplicationMaster重新运行

ApplicationMaster失败

ApplicationMaster定时发送心跳信号到ResourceManager，通常一旦ApplicationMaster失败，则认为失败，但也可以通过配置多次后才失败
一旦ApplicationMaster失败，ResourceManager会启动一个新的ApplicationMaster
新的ApplicationMaster负责恢复之前错误的ApplicationMaster的状态(yarn.app.mapreduce.am.job.recovery.enable=true)，这一步是通过将应用运行状态保存到共享的存储上来实现的，ResourceManager不会负责任务状态的保存和恢复
Client也会定时向ApplicationMaster查询进度和状态，一旦发现其失败，则向ResouceManager询问新的ApplicationMaster

NodeManager失败

NodeManager定时发送心跳到ResourceManager，如果超过一段时间没有收到心跳消息，ResourceManager就会将其移除
任何运行在该NodeManager上的任务和ApplicationMaster都会在其他NodeManager上进行恢复
如果某个NodeManager失败的次数太多，ApplicationMaster会将其加入黑名单（ResourceManager没有），任务调度时不在其上运行任务

ResourceManager失败

通过checkpoint机制，定时将其状态保存到磁盘，然后失败的时候，重新运行
通过zookeeper同步状态和实现透明的HA

可以看出，一般的错误处理都是由当前模块的父模块进行监控（心跳）和恢复。而最顶端的模块则通过定时保存、同步状态和zookeeper来ֹ实现HA