博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
sigmoid 函数的损失函数与参数更新
阅读量:6854 次
发布时间:2019-06-26

本文共 1406 字,大约阅读时间需要 4 分钟。

1 sigmoid 函数的损失函数与参数更新

逻辑回归对应线性回归,但旨在解决分类问题,即将模型的输出转换为 $[0, 1]$ 的概率值。逻辑回归直接对分类的可能性进行建模,无需事先假设数据的分布。最理想的转换函数为单位阶跃函数(也称 Heaviside 函数),但单位阶跃函数是不连续的,没法在实际计算中使用。故而,在分类过程中更常使用对数几率函数(即 sigmoid 函数):

$$ \sigma(x) = \frac{1}{1+e^{-x}} $$

易推知,$\sigma(x)' = \sigma(x)(1- \sigma(x))$.

假设我们有 $m$ 个样本 $D = \{(x_i, y_i)\}_i^m$, 令 $X = (x_1, x_2, \cdots, x_m)^T, y = (y_1, y_2, \cdots, y_m)^T$, 其中 $x_i \in \mathbb{R}^n, y_i \in \{0, 1\}$, 关于参数 $w \in \mathbb{R}^n, b \in \mathbb{R}$, ($b$ 需要广播操作),我们定义正例的概率为

$$ P(y_j=1|x_j;w,b) = \sigma(x_j^Tw +b) = \sigma(z_j) $$

这样属于类别 $y$ 的概率可改写为

$$ P(y_j|x_j;w,b) = \sigma(z_j)^{y_j}(1-\sigma(z_j))^{1-y_j} $$

令 $z = (z_1, \cdots, z_m)^T$, 则记 $h(z) = (\sigma(z_1), \cdots, \sigma(z_m))^T$, 且 Logistic Regression 的损失函数为

$$ \begin{aligned} L(w, b) =& - \displaystyle \frac{1}{m} \sum_{i=1}^m (y_i \log (\sigma(z_i)) +(1-y_i) \log (1 - \sigma(z_i)))\\ =& - \frac{1}{m} (y^T\log (h(z)) + (\mathbf{1}-y)^T\log(\mathbf{1}- h(z))), \text{ 此时做了广播操作} \end{aligned} $$

这样,我们有

$$ \begin{cases} \nabla_w L(w,b) = \frac{\text{d}z}{\text{d}w} \frac{\text{d}L}{\text{d}z} = - \frac{1}{m}X^T(y-h(z))\\ \nabla_b L(w,b) = \frac{\text{d}z}{\text{d}b} \frac{\text{d}L}{\text{d}z} = - \frac{1}{m}\mathbf{1}^T(y-h(z)) \end{cases} $$

其中,$\mathbf{1}$ 表示全一列向量。这样便有参数更新公式 ($\eta$ 为学习率):

$$ \begin{cases} w \leftarrow w - \eta \nabla_{w} L(w,b)\\ b \leftarrow b - \eta \nabla_b L(w,b) \end{cases} $$

更多机器学习中的数见:

转载地址:http://yffyl.baihongyu.com/

你可能感兴趣的文章
最新研究:电脑病毒或可通过声音进行传播
查看>>
Xamarin公司开发顾问Nish Anil:移动跨平台已成趋势
查看>>
Amica保险用SAS欺诈分析解决方案提升客户满意度
查看>>
“智慧交通”向“智慧出行”转变
查看>>
缺乏支持!Caffe深度学习框架未来堪忧
查看>>
十个强大的DevOps基础设施自动化工具,不容错过
查看>>
Windows 10商店更新应用报错“0XD00002B8”怎么解决?
查看>>
你要不要升级Windows 10 TH2?先看看它的十大变化
查看>>
大数据项目如何落地之路线图探讨
查看>>
这个15美元的小设备可劫持你的鼠标控制你的电脑
查看>>
太好玩了!用好Windows 10虚拟桌面
查看>>
Linux基础命令介绍十三:启动流程
查看>>
传统存储or云存储 你会用那种确保数据安全?
查看>>
使用极简的Min浏览器消除web噪音
查看>>
9个实战及面试常用Shell脚本编写
查看>>
网能行业产品命名的中国风
查看>>
如何在Linux中找出所有在线主机的IP地址
查看>>
如何在web范围内实现微服务负载均衡
查看>>
信息安全的“无间道” 如何严防内鬼?
查看>>
云计算容器服务该何去何从
查看>>