跳转至

深度学习

数据工程

  • 数据收集/清洗:爬虫,数据标注,噪声处理
  • 预处理:归一化,特征选择

架构选择

  • 基础架构:[[多层感知机]](MLP)

  • 视觉模型:[[卷积神经网络]](CNN)

  • 序列模型:[[循环神经网络]](RNN),[[LSTM]],[[GRU]]

  • 生成模型:[[生成对抗网络]](GAN),[[扩散模型]]

  • 现代主流:[[Transformer]](自注意力机制)

训练优化

  • 前向传播:预测结果
  • 计算损失:[[交叉熵]](分类),MSE(回归)
  • 反向传播:错误信号从后往前传,算出权重
  • 优化算法: [[Adam优化]],SGD,

保障

  • 正则化:[[Dropout]],参数范数惩罚
  • 早停法

评估与部署

基础组件

  • [[激活函数]]:赋予非线性。如 ReLU (主流)、Sigmoid (输出层)、Tanh、Softmax
  • 全连接层

[[最大熵模型]] [[LSTM]] [[隐马尔可夫模型]]