深度学习¶
数据工程¶
- 数据收集/清洗:爬虫,数据标注,噪声处理
- 预处理:归一化,特征选择
架构选择¶
-
基础架构:[[多层感知机]](MLP)
-
视觉模型:[[卷积神经网络]](CNN)
-
序列模型:[[循环神经网络]](RNN),[[LSTM]],[[GRU]]
-
生成模型:[[生成对抗网络]](GAN),[[扩散模型]]
-
现代主流:[[Transformer]](自注意力机制)
训练优化¶
- 前向传播:预测结果
- 计算损失:[[交叉熵]](分类),MSE(回归)
- 反向传播:错误信号从后往前传,算出权重
- 优化算法: [[Adam优化]],SGD,
保障
- 正则化:[[Dropout]],参数范数惩罚
- 早停法
评估与部署¶
基础组件¶
- [[激活函数]]:赋予非线性。如 ReLU (主流)、Sigmoid (输出层)、Tanh、Softmax
- 全连接层
[[最大熵模型]] [[LSTM]] [[隐马尔可夫模型]]