【入门】AI模型与模式

目录1. 机器学习算法 1.1. 线性回归模型 1.1.1. 多元线性回归 1.1.2. 多项式回归 1.1.3. 岭回归（Ridge Regression）1.1.4. LESSO 1.2. 逻辑回归 1.3. KNN 1.4. 决策树, Decision Tree 1.5. 集成学习 1.5.1. Bagging 1.5.2. 随机森林 1.5.3. boosting（Adaptive Boosting，自适应增强）1.6. 贝叶斯分类 1.6.1. 朴素贝叶斯 1.6.2. 贝叶斯多项式模型 1.6.3. 伯努利模型 1.6.4. 混合模型 1.6.5. 高斯模型 1.6.6. 大脑中的贝叶斯 2. 聚类算法（无监督式学习）2.1. K-MEANS

本文的目标，是“简单快速”的概括AI的模型和算法类型都有哪些，以及能够解决哪些问题。

1. 机器学习算法

1.1. 线性回归模型

回归分析（regression analysis）用来建立方程模拟两个或者多个变量之间如何关联。回归分析最典型的例子就是“房价预测”。

拓展知识：

代价函数（例如最小二乘法）

1.1.1. 多元线性回归

同样运用梯度下降法，求偏导，迭代更新权值，得到最优解。

1.1.2. 多项式回归

例如：以下为多元房价特征，进行房价预测：

1.1.3. 岭回归（Ridge Regression）

代价函数采用L2正则化：

岭回归最早是用来处理特征数多于样本的情况，现在也用于在估计中加入偏差，从而得到更好的估计。同时也可以解决多重共线性的问题。岭回归是一种有偏估计。

1.1.4. LESSO

代价函数采用L1正则化：

通过构造一个一获得一个精炼的模型；

擅长处理具有多重共线性的数据
与岭回归一样是有偏估计。
L1正则化可以使一些指标(变量)的系数为零，解释力很强。相比而言，岭回归估计系数等于0的机会微乎其微，造成筛选变量困难。

1.2. 逻辑回归

Sigmoid/Logistic Function

拓展知识：

正确率
召回率

1.3. KNN

算法复杂度较高（需要比较所有已知实例与要分类的实例）
当其样本分布不平衡时，比如其中一类样本过大（实例数量过多）占主导的时候，新的未知实例容易被归类为这个主导样本，因为这类样本实例的数量过大，但这个新的末知实例实际并没有接近目标样本

1.4. 决策树, Decision Tree

比较适合分析离散数据
如果是连续数据要先转成离散数据再做分析

1948年,香农提出了“信息熵”的概念。

一条信息的信息量大小和它的不确定性有直接的关系要搞清楚一件非常非常不确定的事情，或者是我们无所知的事情，需要了解大量信息->信息量的度量就等于不确定性的多少。

原理：通过各种“熵”来确认判断准则（条件优先级），常用的算法方式包括：

ID3算法

决策树会选择最大化信息增益来对结点进行划分

C4.5算法

信息增益的方法倾向于首先选择因子数较多的变量

CART算法

CART用基尼(Gin)系数最小化准则来进行特征选择

决策树的适用领域：

适用于小规模数据集
缺点：

处理连续变量不好
类别较多时，错误增加的比较快
不能处理大量数据

拓展知识：

预剪枝
后剪枝

1.5. 集成学习

当做重要决定时，大家可能都会考虑吸取多个专家而不只是一个人的意见。集成学习也是如此。

集成学习就是组合多个学习器，最后可以得到一个更好的学习器。

集成学习算法：

个体学习器之间不存在强依赖关系，装袋（bagging）
随机森林（Random forest）
个体学习器之间存在强依赖关系，提升（boosting）
Stacking

1.5.1. Bagging

首先，进行一种有放回的抽样~

每个数据集，都采用一种不同的学习算法（或者同一个算法，得到不同的模型）

效果如下：

1.5.2. 随机森林

1.5.3. boosting（Adaptive Boosting，自适应增强）

学习器的重点放在“容易”出错的地方——增加出错数据的概率（样本采样的权值），从而优化权重。

1.6. 贝叶斯分类

例如，判断垃圾邮件：

P(H): 垃圾邮件的先验概率
P(X): 特定特征的先验概率
P(X|H): 在垃圾邮件中,包含特定特征（比如“办证”）邮件的概率
P(H|X): 包含特定特征比如“办证”的邮件属于垃圾邮件的概率

已上是根据贝叶斯定理获得单一事件对概率的影响。

1.6.1. 朴素贝叶斯

多特征时的概率计算，会导致计算量巨大……

朴素贝叶斯算法，会假设特征X1, X2, X3…之间是相互独立的，则

1.6.2. 贝叶斯多项式模型

1.6.3. 伯努利模型

1.6.4. 混合模型

1.6.5. 高斯模型

1.6.6. 大脑中的贝叶斯

Aoccdrnig to a rscheearch at Cmabrigde Uinervtisy, it deosn’t mttaer in waht oredr the Itteers in a wrod are, the olny iprmoetnt ting is taht the frist and Isat Itter be at the rghit pclae. The rset can be a toatl mses and you can sitll raed it withuot porbelm. Tihs is bcuseae the huamn mnid deos not raed ervey I teter by istlef, but the wrod as a wlohe.

研表究明，汉字的序顺并不定一能影阅响读，比如当你看完这句话后，才发这现里的字全是乱的。

2. 聚类算法（无监督式学习）

2.1. K-MEANS

以下为例，先随机定义元素的类型：

G：归类

C：计算重心，然后调整中心点

先从没有标签的元素集合A中随机取k个元素，作为 k 个子集各自的重心。
分别计算剩下的元素到 k 个子集重心的距离（这里的距离也可以使用欧氏距离），根据距离将这些元素分别划归到最近的子集
根据聚类结果，重新计算重心（重心的计算方法是计算子集中所有元素各个维度的算数平均数）
将集合A中全部元素按照新的重心然后再重新聚类。
重复第4步，直到聚类结果不再发生变化。

【入门】AI模型与模式

1. 机器学习算法

1.1. 线性回归模型

1.1.1. 多元线性回归

1.1.2. 多项式回归

1.1.3. 岭回归（Ridge Regression）

1.1.4. LESSO

1.2. 逻辑回归

1.3. KNN

1.4. 决策树, Decision Tree

1.5. 集成学习

1.5.1. Bagging

1.5.2. 随机森林

1.5.3. boosting（Adaptive Boosting，自适应增强）

1.6. 贝叶斯分类

1.6.1. 朴素贝叶斯

1.6.2. 贝叶斯多项式模型

1.6.3. 伯努利模型

1.6.4. 混合模型

1.6.5. 高斯模型

1.6.6. 大脑中的贝叶斯

2. 聚类算法（无监督式学习）

2.1. K-MEANS

APP的缓存文件到底应该存在哪？看完这篇文章你应该就自己清楚了

Python模块之pickle（列表，字典等复杂数据类型与二进制文件的转化）

最新文章

ROGZ890EXTREME怎么样? 华硕 ROG MAXIMUS Z890 EXTREME主板评测

ThinkBook哪些型号值得购买? 联想ThinkBook笔记本热卖榜六强出炉

惠普笔记本哪个型号最值得入手? 2024惠普笔记本机型梳理表与选购攻略

无畏天选系列笔记本怎么选购? 2024华硕笔记本电脑在售机型挑选全攻略

2024华为新发布四款平板电脑怎么选? 关键参数与价格对比分析

多设备跨屏协作利器! 雷柏MT560多模无线办公鼠标评测

升级锐龙AI 9 HX370! 极摩客 EVO-X1迷你主机首发价5299元

RTX4070高端游戏本怎么选？联想/华硕/惠普/微星等品牌对比推荐

Ryzen 5 5600比Ryzen 5 9600X强多少? cpu游戏性能差距对比测评

Core Ultra 9 285K和Ryzen 9 9950X差距大吗? 处理器游戏性能对比测评

最新评论

标签

关注我们么么哒！

【入门】AI模型与模式

1. 机器学习算法

1.1. 线性回归模型

1.1.1. 多元线性回归

1.1.2. 多项式回归

1.1.3. 岭回归（Ridge Regression）

1.1.4. LESSO

1.2. 逻辑回归

1.3. KNN

1.4. 决策树, Decision Tree

1.5. 集成学习

1.5.1. Bagging

1.5.2. 随机森林

1.5.3. boosting（Adaptive Boosting，自适应增强）

1.6. 贝叶斯分类

1.6.1. 朴素贝叶斯

1.6.2. 贝叶斯多项式模型

1.6.3. 伯努利模型

1.6.4. 混合模型

1.6.5. 高斯模型

1.6.6. 大脑中的贝叶斯

2. 聚类算法（无监督式学习）

2.1. K-MEANS

APP的缓存文件到底应该存在哪？看完这篇文章你应该就自己清楚了

Python模块之pickle（列表，字典等复杂数据类型与二进制文件的转化）

最新文章

ROGZ890EXTREME怎么样? 华硕 ROG MAXIMUS Z890 EXTREME主板评测

最新评论

标签

关注我们 么么哒！

关注我们的公众号

关注我们么么哒！