如题 深度学习 网络结构 线性结构 池化结构 卷积结构 LSTM 激活结构 sigmoid ReLU tanh 强化学习特定结构 Dueling Network 学习方式 监督学习 半监督学习 无监督学习 强化学习 理论 基础理论 TD Target 价值学习 策略学习 状态连续:神经网络 动作连续 Deterministic Policy Network Stochastic Policy Network 多智能体 训练方式 基于价值 Sarsa Q-Learning DQN 基于策略 Policy Gradient A2C 优化方法 熵正则 经验回放 (off-policy 适用) Double DQN Target network Multi-step TD Target Dueling network TRPO PPO 参数更新策略 SGD 动量 Adam