- 定义
- 链式法则(Chain Rule)是微积分中的一个重要法则,用于计算复合函数的导数。如果有一个复合函数(y = f(g(x))),那么它的导数(\frac{dy}{dx}=\frac{df}{dg}\cdot\frac{dg}{dx})。也就是说,复合函数的导数是外层函数对内层函数的导数乘以内层函数对自变量的导数。
- 例如,设(y=(x^2 + 1)^3),可以把它看作是(y = f(g(x)))的形式,其中(g(x)=x^2+1),(f(u)=u^3)(这里(u = g(x)))。首先求(\frac{df}{du}=3u^2),再求(\frac{dg}{dx}=2x),然后根据链式法则,(\frac{dy}{dx}=\frac{df}{du}\cdot\frac{dg}{dx}=3u^2\cdot2x = 3(x^2 + 1)^2\cdot2x = 6x(x^2 + 1)^2)。
- 多元函数的链式法则
- 在多元函数中,情况会更复杂一些。假设(z = f(u,v)),其中(u = u(x,y)),(v = v(x,y)),那么(\frac{\partial z}{\partial x}=\frac{\partial f}{\partial u}\cdot\frac{\partial u}{\partial x}+\frac{\partial f}{\partial v}\cdot\frac{\partial v}{\partial x}),(\frac{\partial z}{\partial y}=\frac{\partial f}{\partial u}\cdot\frac{\partial u}{\partial y}+\frac{\partial f}{\partial v}\cdot\frac{\partial v}{\partial y})。
- 例如,设(z = u^2v),(u = x + y),(v = x - y)。首先求(\frac{\partial z}{\partial u}=2uv),(\frac{\partial z}{\partial v}=u^2),(\frac{\partial u}{\partial x}=1),(\frac{\partial u}{\partial y}=1),(\frac{\partial v}{\partial x}=1),(\frac{\partial v}{\partial y}=-1)。然后根据多元函数的链式法则,(\frac{\partial z}{\partial x}=\frac{\partial z}{\partial u}\cdot\frac{\partial u}{\partial x}+\frac{\partial z}{\partial v}\cdot\frac{\partial v}{\partial x}=2uv\cdot1 + u^2\cdot1=(2(x + y)(x - y)+(x + y)^2)),经过化简可以得到(3x^2 - y^2 + 2xy)。同理,(\frac{\partial z}{\partial y}=\frac{\partial z}{\partial u}\cdot\frac{\partial u}{\partial y}+\frac{\partial z}{\partial v}\cdot\frac{\partial v}{\partial y}=2uv\cdot1+u^2\cdot(-1)),化简后为(x^2 - 3y^2 - 2xy)。
- 应用场景
- 物理中的应用:在物理的运动学中,位移是速度的积分,速度是加速度的积分。如果加速度是时间的函数(a(t)),速度(v(t))是加速度的积分(v(t)=\int a(t)dt),位移(s(t))是速度的积分(s(t)=\int v(t)dt)。如果加速度(a)是关于速度(v)的函数,比如(a = f(v)),要求位移对时间的导数(即速度),就会用到链式法则。因为(s(t)=\int\left(\int f(v)dt\right)dt),根据链式法则(\frac{ds}{dt}=\frac{ds}{dv}\cdot\frac{dv}{dt}),这里(\frac{ds}{dv})是位移对速度的导数,(\frac{dv}{dt})是速度对时间的导数(即加速度)。
- 机器学习中的应用:在神经网络的反向传播算法中,链式法则是计算梯度的关键。神经网络的输出是一个关于输入和权重的复合函数。例如,在一个简单的三层神经网络中,输出层的误差是关于输出的函数,输出是关于隐藏层输出的函数,隐藏层输出又是关于输入层和权重的函数。为了计算误差对权重的导数,需要从输出层开始,根据链式法则逐步向后计算每一层的导数,从而更新权重以优化神经网络的性能。
- 链式法则的证明思路
- 对于一元函数的链式法则,可以通过极限的定义来证明。设(y = f(g(x))),当(x)有一个增量(\Delta x)时,(g(x))有一个增量(\Delta g = g(x+\Delta x)-g(x)),(y)有一个增量(\Delta y = f(g(x+\Delta x)) - f(g(x)))。那么(\frac{\Delta y}{\Delta x}=\frac{\Delta y}{\Delta g}\cdot\frac{\Delta g}{\Delta x}),当(\Delta x\to0)时,(\frac{\Delta y}{\Delta x}\to\frac{dy}{dx}),(\frac{\Delta y}{\Delta g}\to\frac{df}{dg}),(\frac{\Delta g}{\Delta x}\to\frac{dg}{dx}),所以(\frac{dy}{dx}=\frac{df}{dg}\cdot\frac{dg}{dx})。
- 对于多元函数的链式法则,可以从偏导数的定义和全微分的概念出发进行证明。全微分(dz=\frac{\partial f}{\partial u}du+\frac{\partial f}{\partial v}dv),又因为(du=\frac{\partial u}{\partial x}dx+\frac{\partial u}{\partial y}dy),(dv=\frac{\partial v}{\partial x}dx+\frac{\partial v}{\partial y}dy),将(du)和(dv)代入(dz)的表达式,然后比较(dz)与(dx)、(dy)的系数,就可以得到多元函数链式法则的公式。
链式法则
评论
34 views