机器学习导论¶
我们从一个简单的调色盘例子来入手,问题:为得到目的色,该如何从既定原色中调试出?
过程很自然:要从已有的颜色(参数)进行调和(权重和偏差),我们为了接近目的色(标签数据),设置了一个损失函数,表示和预测和目的的差别,我们的期望当然是越小越好。
在这些调色这种,我们会发现,有一种颜色会使趋近速度最快,类似于数学概念上的梯度(这被视为一种重要的调整函数)。不断重复这个过程我们得到了我们想要的颜色,尽管人不能理解这些细小累积的全部过程(黑箱)。
很显然机器学习的重点在于这个算法,也就是自我优化(学习)的这个过程。而算法的分类又和具体的目的有关。
以下是一些简要的基本脉络和导图,更详尽的在最后页的附录。
时间线¶
起始:1980s - 1990(BP神经网络,决策树,CNN) 探索:1990s - 2010(SVM,Boost,RNN,LSTM,流形学习,随机森林,深度学习) 繁荣:2010s - 至今(深度学习时代:NLP,CV,GAN,AGI)
根据输入数据的类型¶
结构化数据
- 表格类
- 时间序列数据
非结构化数据
- 机器视觉
- 自然语言处理
- 语音识别
- 图数据
根据模型架构¶
统计学习
- [[线性回归]]、[[逻辑回归]]、[[感知机]]、[[k近邻]]、[[支持向量机]]、[[最大熵模型]]、[[决策树]]
- [[朴素贝叶斯]]、 [[隐马尔可夫模型]]、[[条件随机场]]
- [[k-Means]]、[[PCA降维]]、[[LDA降维]]、[[EM算法]]、[[GMM]]
[[集成学习]]
- Bagging:[[随机森林]]
- Boosting:Adaboost、[[GBDT]]、[[XGBoost]] 、[[LightGBM]]、 CatBoost
- Stacking(基/元学习器)
神经网络([[深度学习]])
- [[卷积神经网络]](CNN)、[[循环神经网络]](RNN)、[[LSTM]]、[[Transformer]]、[[多层感知机]]
- [[生成对抗网络]](GAN)、[[扩散模型]](DIffusion)
根据学习范式¶
[[监督学习]]¶
- 分类 (离散)
- 线性模型:[[逻辑回归]]、[[最大熵模型]]
- 经典模型:[[支持向量机]]、[[决策树]]、[[随机森林]]、[[XGBoost]]。
- 深度学习:MLN、CNN、RNN/LSTM(序列)
- 回归(连续)
- 线性回归、[[岭回归]]
- 神经网络回归。
[[无监督学习]](/自监督)¶
- 聚类
- k-Means
- GMM(高斯混合模型,使用 [[EM算法]]训练)
- 降维
- PCA降维
- t-SNE
- 生成模型(可视为一个特殊交集)
- GAN、VAE、扩散模型、Transformer (GPT)。
- 注:它们虽然有时使用数据本身做“自监督”,但本质上是在学概率分布。
[[强化学习]]¶
- 策略,控制,优化
- 基础算法:Q-Learning、SARSA。
- 深度强化学习 (Deep RL):把深度学习作为“大脑”来处理复杂输入。
- DQN (Deep Q Network)。
- Policy Gradient。
- [[PPO]] (目前大模型 RLHF 阶段最常用的算法)。
主要的机器学习算法¶
-
[[基于逻辑回归的分类预测]]
-
[[朴素贝叶斯]]
-
[[K近邻]]
-
[[支持向量机]]
-
[[基于决策树的分类预测]]
-
[[GBDT]]
-
[[XGBoost]]
-
[[LightGBM]]
-
[[CatBoost]]
[[哲学思考]]:¶
我坚信,当发展到科学前沿的时候,面临无方向的迷茫时,决定未来的便是己身的哲学观:你怎么看待世界? 以我有限的见解来看,关于机器学习,本质仍是统计。那么世间万物,都是可以被统计预测出来的吗?我们的宇宙的本质逻辑是否是这样的超越人类心智结构的黑箱?