深度学习¶
数据工程¶
- 数据收集/清洗:爬虫,数据标注,噪声处理
- 预处理:归一化,特征选择
架构选择¶
-
基础架构:多层感知机(MLP)
-
视觉模型:卷积神经网络(CNN)
-
序列模型:循环神经网络(RNN),LSTM,GRU
-
生成模型:生成对抗网络(GAN),扩散模型
-
现代主流:Transformer(自注意力机制)
训练优化¶
- 前向传播:预测结果
- 计算损失:交叉熵(分类),MSE(回归)
- 反向传播:错误信号从后往前传,算出权重
- 优化算法: Adam优化,SGD,
保障
- 正则化:Dropout
- 早停法
评估与部署¶
基础组件¶
- 激活函数