人工智能：十大机器学习算法

机器学习是人工智能的核心技术之一，基本的机器学习算法可以分为：1．线性回归；2．支持向量机（SVM）；3．最近邻居（KNN）；4．逻辑回归；5．决策树；6．k平均；7．随机森林；8．朴素贝叶斯；9．降维；10．梯度增强

上述算法中可具体分为三类：

1．监督学习算法：在监督学习训练过程中，可以由训练数据集学到或建立一个模式，并依此模式推测新的实例。该算法要求特定的输入／输出，首先需要决定使用哪种数据作为范例。例如，文字识别应用中一个手写的字符，或一行手写文字。主要算法包括神经网络、支持向量机、最近邻居法、朴素贝叶斯法、决策树等。

2．无监督学习算法（Unsupervised Algorithms）：根据类别未知（没有被标记）的训练样本解决模式识别中的各种问题，称之为无监督学习。最典型的非监督学习算法包括单类密度估计、单类数据降维、聚类等。

3．强化学习算法（Reinforcement Algorithms）：强化学习是智能系统从环境到行为映射的学习，以使强化信号函数值最大。主要基于决策进行训练，算法根据输出结果（决策）的成功或错误来训练自己，通过大量经验训练优化后的算法将能够给出较好的预测。类似有机体在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。在运筹学和控制论的语境下，强化学习被称作“近似动态规划”（approximate dynamic programming，ADP）。

1．线性回归算法

回归分析是统计学的数据分析方法，目的在于了解两个或多个变量间是否相关、相关方向与强度，并建立数学模型以便观察特定变量来预测其它变量的变化情况。

线性回归算法的建模过程就是使用数据点来寻找最佳拟合线。公式，s ＝ mx ＋ c，其中 s 是因变量，x 是自变量，利用给定的数据集求 m 和 c 的值。

线性回归又分为两种类型，即简单线性回归（simple linear regression），只有 1 个自变量；多变量回归中，至少两组以上自变量。

2．支持向量机算法

支持向量机／网络算法（SVM）属于分类型算法。SVM模型将实例表示为空间中的点，将使用一条直线分隔数据点。需要注意的是，支持向量机需要对输入数据进行完全标记，仅直接适用于两类任务，应用将多类任务需要减少到几个二元问题。

3．k－近邻算法

KNN算法是一种基于实例的学习，或者是局部近似和将所有计算推迟到分类之后的惰性学习。用最近的邻居（k）来预测未知数据点。k 值是预测精度的一个关键因素，无论是分类还是回归，衡量邻居的权重都非常有用，较近邻居的权重比较远邻居的权重大。

KNN 算法的缺点是对数据的局部结构非常敏感。计算量大，需要对数据进行规范化处理，使每个数据点都在相同的范围。

4．逻辑回归算法

逻辑回归算法一般用于需要明确输出的场景，如某些事件的发生（预测是否会发生降雨）。通常，逻辑回归使用某种函数将概率值压缩到某一特定范围。

例如，Sigmoid 函数（S 函数）是一种具有 S 形曲线、用于二元分类的函数。它将发生某事件的概率值转换为 0－1 的范围表示。

5．决策树算法 Decision Tree

决策树是一种特殊的树结构，由一个决策图和可能的结果（例如成本和风险）组成，用来辅助决策。机器学习中，决策树是一个预测模型，树中每个节点表示某个对象，而每个分叉路径则代表某个可能的属性值，而每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出，通常该算法用于解决分类问题。

一个决策树包含三种类型的节点：

决策节点：通常用矩形框来表示

机会节点：通常用圆圈来表示

终结点：通常用三角形来表示

6．k－平均算法

k－平均算法是一种无监督学习算法，为聚类问题提供了一种解决方案。

K－Means 算法把 n 个点划分到 k 个集群（cluster），使得每个点都属于离他最近的均值（即聚类中心，centroid）对应的集群。重复上述过程一直持续到重心不改变。

7．随机森林算法

随机森林算法的名称由 1995 年由贝尔实验室提出的random decision forests 而来，正如它的名字所说的那样，随机森林可以看作一个决策树的集合。

随机森林中每棵决策树估计一个分类，这个过程称为“投票（vote）”。理想情况下，我们根据每棵决策树的每个投票，选择最多投票的分类。

8．朴素贝叶斯算法

朴素贝叶斯算法基于概率论的贝叶斯定理，应用非常广泛，从文本分类、垃圾邮件过滤器、医疗诊断等等。朴素贝叶斯适用于特征之间的相互独立的场景，例如利用花瓣的长度和宽度来预测花的类型。“朴素”的内涵可以理解为特征和特征之间独立性强。

9．降维算法 Dimensional Reduction

在机器学习和统计学领域，降维是指在限定条件下，降低随机变量个数，得到一组“不相关”主变量的过程，并可进一步细分为特征选择和特征提取两大方法。

一些数据集可能包含许多难以处理的变量。特别是资源丰富的情况下，系统中的数据将非常详细。在这种情况下，数据集可能包含数千个变量，其中大多数变量也可能是不必要的。在这种情况下，几乎不可能确定对我们的预测影响最大的变量。此时，我们需要使用降维算法，降维的过程中也可能需要用到其他算法，例如借用随机森林，决策树来识别最重要的变量。

10．梯度增强算法 Gradient Boosting

梯度增强算法（Gradient Boosting）使用多个弱算法来创建更强大的精确算法。它与使用单个估计量不同，而是使用多个估计量创建一个更稳定和更健壮的算法。梯度增强算法：

XGBoost—使用线性和树算法

LightGBM—只使用基于树的算法

（免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。）