Flink简介(一)

一、简介

　　Apache Flink是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。Flink被设计在所有常见的集群环境中运行，以内存执行速度和任意规模来执行计算。

1，事件驱动型(Event-driven)

　　事件驱动型应用是一类具有状态的应用，它从一个或多个事件流提取数据，并根据到来的事件触发计算、状态更新或其他外部动作。

2，分层api

3，有状态计算

　　Flink在1.4版本中实现了状态管理，所谓状态管理就是在流失计算过程中将算子的中间结果保存在内存或者文件系统中，等下一个事件进入算子后可以让当前事件的值与历史值进行汇总累计。

4，exactly-once语义:

　　https://mp.weixin.qq.com/s/SteNgNSe_0-ex49vBpAGNw

5，支持事件时间:

二、Flink部署

1，standalone模式

　　a)安装

　　解压缩 flink-1.7.0-bin-hadoop27-scala_2.11.tgz

　　修改 flink/conf/flink-conf.yaml 文件

# jobManager 的IP地址
jobmanager.rpc.address: localhost
# jobManager 的端口号
jobmanager.rpc.port: 6123
# jobManager JVM heap 内存大小
jobmanager.heap.size: 1024m
# taskManager JVM heap 内存大小
taskmanager.heap.size: 1024m
# 每个taskManager提供任务的slots数量大小
taskmanager.numberOfTaskSlots: 1
#程序默认的并行计算的个数
parallelism.default: 1

　　修改 conf/slave文件

linux02
linux03

　　分发给linux02和linux03

xrsync flink-1.7.0

　　启动

./bin/start-clusster.sh

　　b)提交任务

//-c class的全路径 jar包路径  class类中输入的参数  --input 输入文本路径  --output 输出文本路径
./bin/flink run -c com.xcc.FlinkDataStreamWCDemo /flink-demo-1.0-SNAPSHOT-jar-with-dependencies.jar linux02 8888

2，yarn模式

　　a)启动hadoop集群

　　b)启动yarn-session

./yarn-session.sh -n 2 -s 2 -jm 1024 -tm 1024 -nm test -d
-n(--container)：TaskManager的数量。
-s(--slots)：    每个TaskManager的slot数量，默认一个slot一个core，默认每个taskmanager的slot的个数为1，有时可以多一些taskmanager，做冗余。
-jm：JobManager的内存（单位MB)。
-tm：每个taskmanager的内存（单位MB)。
-nm：yarn 的appName(现在yarn的ui上的名字)。 
-d：后台执行。

　　c)执行任务

./bin/flink run -m yarn-cluster -c com.xcc.FlinkDataStreamWCDemo /flink-demo-1.0-SNAPSHOT-jar-with-dependencies.jar linux02 8888

三、Flink运行框架

1，任务提交流程(yarn模式)

　　Flink任务提交后，Client向HDFS上传Flink的Jar包和配置，之后向Yarn ResourceManager提交任务，ResourceManager分配Container资源并通知对应的NodeManager启动ApplicationMaster，ApplicationMaster启动后加载Flink的Jar包和配置构建环境，然后启动JobManager，之后ApplicationMaster向ResourceManager申请资源启动TaskManager，ResourceManager分配Container资源后，由ApplicationMaster通知资源所在节点的NodeManager启动TaskManager，NodeManager加载Flink的Jar包和配置构建环境并启动TaskManager，TaskManager启动后向JobManager发送心跳包，并等待JobManager向其分配任务。

2，任务调度原理

Client 为提交 Job 的客户端，可以是运行在任何机器上（与 JobManager 环境连通即可）。提交 Job 后，Client 可以结束进程（Streaming的任务），也可以不结束并等待结果返回。
JobManager 主要负责调度 Job 并协调 Task 做 checkpoint，职责上很像 Storm 的 Nimbus。从 Client 处接收到 Job 和 JAR 包等资源后，会生成优化后的执行计划，并以 Task 的单元调度到各个 TaskManager 去执行。
TaskManager 在启动的时候就设置好了槽位数（Slot），每个 slot 能启动一个 Task，Task 为线程。从 JobManager 处接收需要部署的 Task，部署启动后，与自己的上游建立 Netty 连接，接收数据并处理。

3，Worker与Slots

　　每个task slot表示TaskManager拥有资源的一个固定大小的子集。假如一个TaskManager有三个slot，那么它会将其管理的内存分成三份给各个slot。资源slot化意味着一个subtask将不需要跟来自其他job的subtask竞争被管理的内存，取而代之的是它将拥有一定数量的内存储备。需要注意的是，这里不会涉及到CPU的隔离，slot目前仅仅用来隔离task的受管理的内存。

　　通过调整task slot的数量，允许用户定义subtask之间如何互相隔离。如果一个TaskManager一个slot，那将意味着每个task group运行在独立的JVM中（该JVM可能是通过一个特定的容器启动的），而一个TaskManager多个slot意味着更多的subtask可以共享同一个JVM。而在同一个JVM进程中的task将共享TCP连接（基于多路复用）和心跳消息。

　　Task Slot是静态的概念，是指TaskManager具有的并发执行能力，可以通过参数taskmanager.numberOfTaskSlots进行配置，而并行度parallelism是动态概念，即TaskManager运行程序时实际使用的并发能力，可以通过参数parallelism.default进行配置。

　　也就是说，假设一共有3个TaskManager，每一个TaskManager中的分配3个TaskSlot，也就是每个TaskManager可以接收3个task，一共9个TaskSlot，如果我们设置parallelism.default=1，即运行程序默认的并行度为1，9个TaskSlot只用了1个，有8个空闲，因此，设置合适的并行度才能提高效率。

4，并行数据流

　　Stream在operator之间传输数据的形式可以是one-to-one(forwarding)的模式也可以是redistributing的模式，具体是哪一种形式，取决于operator的种类。

　　One-to-one：stream(比如在source和map operator之间)维护着分区以及元素的顺序。那意味着map operator的subtask看到的元素的个数以及顺序跟source operator的subtask生产的元素的个数、顺序相同，map、fliter、flatMap等算子都是one-to-one的对应关系。类似于spark中的窄依赖。

　　Redistributing：stream(map()跟keyBy/window之间或者keyBy/window跟sink之间)的分区会发生改变。每一个operator subtask依据所选择的transformation发送数据到不同的目标subtask。例如，keyBy() 基于hashCode重分区、broadcast和rebalance会随机重新分区，这些算子都会引起redistribute过程，而redistribute过程就类似于Spark中的shuffle过程。类似于spark中的宽依赖。

Flink简介(一)

一、简介

1，事件驱动型(Event-driven)

2，分层api

3，有状态计算

4，exactly-once语义:

5，支持事件时间:

二、Flink部署

1，standalone模式

a)安装

b)提交任务

2，yarn模式

三、Flink运行框架

1，任务提交流程(yarn模式)

2，任务调度原理

3，Worker与Slots

4，并行数据流

如何让打印格式自适应纸张如何让打印格式自适应纸张大一点

剪映Windows版发布了windows版本剪映

最新文章

realme 市场沟通总监：真我 GT7 Pro 核心部件全部来自国际顶尖供应链合作

ctf加载程序需要自启动吗(ctf加载程序开机启动能禁用吗)

c语言转义字符占几个字节(c语言转义字符的使用输出字符串)

有线中继插wan口还是lan口(有线桥接时接wan口还是lan口)

shell循环分为几种(shell的循环控制结构)

mt6771v处理器相当于骁龙多少(联发科mt6771v处理器怎么样)

删除数据库表的命令(删除表的内容sql命令是什么)

怎么练口才(怎么训练自己的说话能力)

俄罗斯人口是多少(2021年中国人口是多少)

火葬场特点介绍火葬场技术设备介绍

最新评论

标签

关注我们么么哒！

Flink简介(一)

一、简介

1，事件驱动型(Event-driven)

2，分层api

3，有状态计算

4，exactly-once语义:

5，支持事件时间:

二、Flink部署

1，standalone模式

a)安装

b)提交任务

2，yarn模式

三、Flink运行框架

1，任务提交流程(yarn模式)

2，任务调度原理

3，Worker与Slots

4，并行数据流

如何让打印格式自适应纸张如何让打印格式自适应纸张大一点

剪映Windows版发布了windows版本剪映

最新文章

realme 市场沟通总监：真我 GT7 Pro 核心部件全部来自国际顶尖供应链合作

最新评论

标签

关注我们 么么哒！

关注我们的公众号

　　a)安装

　　b)提交任务

关注我们么么哒！