Q: 什么是机器学习 A: 机器学习涉及开发数学模型，这些模型可以基于数据进行学习，并做出预测或决策，而无需进行明确的编程指令。

监督学习

Q: 什么是监督学习 A: 在一个由输入和有着打上“正确标签”的输出所组成的数据集当中，通过机器学习，达到只需输入就能得到误差很小的输出

回归模型

预测无限多可能数字中的一个

线性回归模型

用一个线性函数来预测一个模型比如: $f_{w,b}(x^{(i)}) = wx^{(i)} + b \tag{1}$ 但问题来了，w和b有无穷多种取值，我们该如何确定这两个变量的值

此时，我们就用损失函数来代表w和b不同的取值时，这个线性函数的拟合程度，当值越小，说明预测值与实际值相差越小，当值达到最小时，误差越小，函数拟合得越好 Cost Function: $J(w,b) = \frac{1}{2m} \sum\limits_{i = 0}^{m-1} (f_{w,b}(x^{(i)}) - y^{(i)})^2 \tag{1}$ Q: 为什么公式中会除以二 A: 除以二对描述误差没有影响，只是人为规定，让其后面推导的公式更好看即问题转化为求Cost Function的最小值：如何求其最小值？ file-20241019160616079 这是 $J (w, b)$ 函数，设置初始值w和b,你站在山上，然后四周环绕，观察周围的那一小步变化更大，然后踏出那一小步，然后重复上述步骤，你就会达到山谷里面，这就是梯度下降算法

即w和b都踏出那一小步：

\;  w &= w -  \alpha \frac{\partial J(w,b)}{\partial w} \tag{3}  \; \newline  b &= b -  \alpha \frac{\partial J(w,b)}{\partial b}  \newline \rbrace \end{align*}$$ 其中\alpha 是学习率，即每踏出一步的步伐，其中的偏导后得

\begin{align}

\frac{\partial J(w,b)}{\partial w} &= \frac{1}{m} \sum\limits_{i = 0}^{m-1} (f_{w,b}(x^{(i)}) - y^{(i)})x^{(i)} \tag{4}\

\frac{\partial J(w,b)}{\partial b} &= \frac{1}{m} \sum\limits_{i = 0}^{m-1} (f_{w,b}(x^{(i)}) - y^{(i)}) \tag{5}\

\end{align}

![file-20241019212944797](https://obsidian-picgo-mio.oss-cn-hangzhou.aliyuncs.com/file-20241019212944797.png) 这里可以直观的看到，每一次梯度下降，w和b的焦点将无限逼近椭圆的中心原点，使得Cost Fucstion的值越来越小，w和b的取值对于这个函数拟合得越好。 但对于日常生活中复杂的模型，肯定不止只有一个变量，可能有多个变量等着我们去拟合这个函数 这怎么办呢？ ### 多元线性回归 用向量表示多个特征变量 ![file-20241019214757182](https://obsidian-picgo-mio.oss-cn-hangzhou.aliyuncs.com/file-20241019214757182.png) 用点乘来简化： $$ f_{\mathbf{w},b}(\mathbf{x}) = \mathbf{w} \cdot \mathbf{x} + b  \tag{2} $$ 这么做的优点： - 更加简洁 - 有一个库叫做Numpy它可以在硬件层面实现两个向量之间的点乘，而非用循环语句来点乘，效率大大增加 ![file-20241019215422925](https://obsidian-picgo-mio.oss-cn-hangzhou.aliyuncs.com/file-20241019215422925.png) 当用向量来表达时，Cost Function 变为： $$\begin{align*} \text{repeat}&\text{ until convergence:} \; \lbrace \newline\; & w_j := w_j -  \alpha \frac{\partial J(\mathbf{w},b)}{\partial w_j} \tag{1}  \; & \text{for j = 0..n-1}\newline &b\ \ := b -  \alpha \frac{\partial J(\mathbf{w},b)}{\partial b}  \newline \rbrace \end{align*}$$ 其中：

\begin{align}

\frac{\partial J(\mathbf{w},b)}{\partial w_j} &= \frac{1}{m} \sum\limits_{i = 0}^{m-1} (f_{\mathbf{w},b}(\mathbf{x}^{(i)}) - y^{(i)})x_{j}^{(i)} \tag{2} \

\frac{\partial J(\mathbf{w},b)}{\partial b} &= \frac{1}{m} \sum\limits_{i = 0}^{m-1} (f_{\mathbf{w},b}(\mathbf{x}^{(i)}) - y^{(i)}) \tag{3}

\end{align}

\begin{align}

f_{\mathbf{w},b}(\mathbf{x^{(i)}}) &= g(z^{(i)})\tag{3} \

z^{(i)} &= \mathbf{w} \cdot \mathbf{x}^{(i)}+ b\tag{4} \

g(z^{(i)}) &= \frac{1}{1+e^{-z^{(i)}}}\tag{5}

\end{align}

探索

Akiyama's blog

吴恩达机器学习笔记

监督学习

回归模型

线性回归模型

反向链接

目录