跳转至

深度学习

数据工程

  • 数据收集/清洗:爬虫,数据标注,噪声处理
  • 预处理:归一化,特征选择

架构选择

  • 基础架构:多层感知机(MLP)

  • 视觉模型:卷积神经网络(CNN)

  • 序列模型:循环神经网络(RNN),LSTM,GRU

  • 生成模型:生成对抗网络(GAN),扩散模型

  • 现代主流:Transformer(自注意力机制)

训练优化

  • 前向传播:预测结果
  • 计算损失:交叉熵(分类),MSE(回归)
  • 反向传播:错误信号从后往前传,算出权重
  • 优化算法: Adam优化,SGD,

保障

  • 正则化:Dropout
  • 早停法

评估与部署

基础组件

  • 激活函数