Skip to content

AIDIY Wiki

多层感知机 MLP

多层感知机 MLP

多层感知器 (MLP)¶

核心结构：隐藏层 → 偏置 → 激活 → 重复

1. 数学表示¶

对第 \(l\) 层：\(\mathbf{h}_l = \sigma(\mathbf{W}_l\mathbf{h}_{l-1} + \mathbf{b}_l)\)

\(\mathbf{h}_l\): 输出
\(\mathbf{W}_l\): 权重
\(\mathbf{b}_l\): 偏置
\(\sigma(\cdot)\): 激活函数

2. 网络结构¶

层	公式
输入	\(\mathbf{x} \in \mathbb{R}^{d_0}\)
隐藏	\(\mathbf{h}_l = \sigma(\mathbf{W}_l\mathbf{h}_{l-1} + \mathbf{b}_l)\), \(l = 1,\ldots,L-1\)
输出	\(\mathbf{y} = \mathbf{W}_L\mathbf{h}_{L-1} + \mathbf{b}_L\)

实际上，我们可以把他看作一组函数复合：\(f(\mathbf{x}) = f_L \circ f_{L-1} \circ \cdots \circ f_1(\mathbf{x})\)

其中 \(f_l(\mathbf{x}) = \sigma(\mathbf{W}_l\mathbf{x} + \mathbf{b}_l)\)

3. 关键特性¶

深度：多层结构
非线性：激活函数引入
全连接：层间全连接

4. 复杂度¶

时间（前向传播）：\(O(\sum_{l=1}^L d_l d_{l-1})\)
空间：\(O(\sum_{l=1}^L d_l d_{l-1})\)

5. 核心组件作用¶

组件	作用	说明
隐藏层	特征提取	逐层学习，实现复杂模式识别
激活函数	1. 引入非线性 2. 防止梯度消失	1. 使网络能学习非线性关系 2. 如 ReLU，保持梯度流动
偏置	调整阈值	增加模型灵活性和适应性

6. 优缺点¶

优点	缺点
结构简单	高维数据效率低
非线性学习	易过拟合
通用性强	难捕捉序列/空间依赖