Alink工作原理

一、Alink结构简析

Pipeline结构

算法、预处理、特征工程等组件可加载进pipeline进行训练预测，组件也可单独使用
pipeline构成如下：

数据源

Alink对各种数据源的操作均为包装成Operator，批与流采用不同Operator。同时，Pipeline也支持Table数据源的输入，但其后续处理也是包装成TableOp，使用外部源Table时要注意设置Environment和Pipeline相同
Alink可以对以上数据源直接获取，也可对Flink的DataSet/DataStream包装为Operator

批式/流式算法通用的串联方式

Alink的fit和transform过程是同时支持BatchOperator和StreamOperator的，大部分数据处理等组件均支持，但根据实际使用的算法，fit过程对pi与流的支持是不同的。
训练后或保存的model即可预测批数据也可预测流数据

逻辑回归训练/预测过程示例

linkFrom内部完成各业务处理逻辑，同时该部分可继承EstimatorBase或TransformerBase形成PipelineStage

二、Alink使用介绍

使用概览

Pipeline pipeline = new Pipeline(
		new Imputer()
			.setSelectedCols("review")
			.setOutputCols("featureText")
			.setStrategy("value")
			.setFillValue("null"),
		new Segment()
			.setSelectedCol("featureText"),
		new StopWordsRemover()
			.setSelectedCol("featureText"),
		new DocCountVectorizer()
			.setFeatureType("TF")
			.setSelectedCol("featureText")
			.setOutputCol("featureVector"),
		new LogisticRegression()
			.setVectorCol("featureVector")
			.setLabelCol("label")
			.setPredictionCol("pred")
	);

//pipeline.add(PipelineStage组件,index)

PipelineModel model = pipeline.fit(source);
model.save(filepath);

PipelineModel model =PipelineModel.load(modelPath);
model.transform(dataOperator);
//可以model.getLocalPredictor("review string").map(row)形式进行本地预测

Operator.execute();

数据获取/保存
　　1）hive示例

data = HiveSourceBatchOp()
    .setInputTableName("tbl")
    .setPartitions("ds=2022/dt=01,ds=2022/dt=02").setHiveVersion("2.0.1") 
    .setHiveConfDir("hdfs://192.168.99.102:9000/hive-2.0.1/conf")
    .setDbName("mydb")	
	
sink = HiveSinkBatchOp()
    .setHiveVersion("2.0.1")
    .setHiveConfDir("hdfs://192.168.99.102:9000/hive-2.0.1/conf").setDbName("mydb")
    .setOutputTableName("tbl_sink")
    .setOverwriteSink(True)

　　2）Kafka

Kafka011SinkStreamOp sink = new Kafka011SinkStreamOp()
			.setBootstrapServers("localhost:9092")
			.setDataFormat("json")
			.setTopic("iris");

　　3）DataSet

DataSetWrapperBatchOp op = new DataSetWrapperBatchOp(dataSet,filedNames,fieldTypes);

Alink算法与组件

Alink工作原理

一、Alink结构简析

Pipeline结构

数据源

批式/流式算法通用的串联方式

二、Alink使用介绍

使用概览

Windows中的硬链接和软链接（hard link 和 Symbolic link）

浏览器访问http链接自动转htpps访问后无法访问的问题处理

最新文章

LLM 数学基准测试集 FrontierMath 公布：号称多数题型 AI 没学过、业界模型均败北

文字冒险游戏《饿殍：明末千里行》登陆安卓平台，首发价 24 元

腾讯宣布新的干部轮岗安排，两位副总裁张孝超、姚晓光履新

上汽荣威全新飞凡 R7 轿跑 SUV 亮相：43 英寸三联屏、行业首创 3D 矢量音效

openEuler开源五年树立新里程碑累计装机量破1000万

网上哪里买流量卡_到哪里买流量卡(2023年在网上买流量卡)

cgroup在docker中起到什么作用(namespace在docker中起什么作用)

网上哪里买便宜流量卡_在哪买流量卡便宜(便宜的流量卡)

网上哪能买流量卡包包_网上哪能买流量卡包包呢(买流量卡之前必须要问清楚的十个问题)

电脑软件打不开闪退怎么办(电脑应用闪退是什么原因)

最新评论

标签

关注我们么么哒！

Alink工作原理

一、Alink结构简析

Pipeline结构

数据源

批式/流式算法通用的串联方式

二、Alink使用介绍

使用概览

Windows中的硬链接和软链接（hard link 和 Symbolic link）

浏览器访问http链接自动转htpps访问后无法访问的问题处理

最新文章

LLM 数学基准测试集 FrontierMath 公布：号称多数题型 AI 没学过、业界模型均败北

最新评论

标签

关注我们 么么哒！

关注我们的公众号

关注我们么么哒！