2025-11-24

Cayley Hamilton

Cayley Hamilton

好了大家都知道内容说的是矩阵AA特征多项式p(λ)=λIAp(\lambda)=\vert \lambda I-A\vertp(A)=0p(A)=0

如果F=R,CF=R,C

或者说,如果FF满足FF的多项式方程的根也属于FF,即我们可以搞特征值那一套.

证明方法会很多.

比如舒尔定理+因式分解,则p(A)=i(Aλi)p(A)=\prod_i (A-\lambda_i),你可以排列这些因式使得A=B1B2BnA=B_1B_2\ldots B_nBk,k,k=0{B_k}_{,k,k}=0,于是乘起来显然对任意向量是00.

比如直接考虑广义本征空间G(A,λ)G(A,\lambda)(TλI)G(A,λ)(T-\lambda I)_{G(A,\lambda)}是幂零的.

如果任意域

然后大家都知道你不能直接声称p(A)=det(AIA)p(A)=\det (AI-A)带进去做,因为λI\lambda I是数乘但带入AA就成了矩阵乘法.

为了让它们一样,容易想到我们把原来的数aa变成aIaI,因为这样符合数乘规则和数之间的运算.

于是新的AIAAI-A实际上是矩阵

Bi,j={Aai,jI,i=jai,jI,ij\begin{gathered} B_{i,j}=\begin{cases} A-a_{i,j}I,i=j \\ -a_{i,j}I,i\ne j \end{cases} \end{gathered}

这里AIAI是数字AA数乘矩阵II,而A-A是一个矩阵,其中数字是ai,jIa_{i,j}I.

而原来我们说AIA=0AI-A=0,那新的矩阵显然不是一个00矩阵,但是难以注意到,取原来空间的一组基e1ene_1\ldots e_n,考虑

let E=[e1e2en]BE=[x1x2xn]\begin{gathered} \text{let } E=\begin{bmatrix} e_1 \\ e_2 \\ \ldots \\ e_n \end{bmatrix} \\ B E=\begin{bmatrix} x_1 \\ x_2 \\ \ldots \\ x_n \end{bmatrix} \end{gathered}

(如果觉得在把n×nn\times n矩阵当数的情况下引入n×1n\times 1的向量是坏文明,可以把向量变成n×nn\times n的对角矩阵,容易验证性质不变).

xk=i=1nBk,iei=Aeki=1nak,iei=0\begin{gathered} x_k=\sum _{i = 1} ^{n} B_{k,i}e_i \\ =Ae_k-\sum _{i = 1} ^{n} a_{k,i}e_i \\ =0 \end{gathered}

那么考虑在新的域下定义的伴随矩阵仍然是能用的(只用到行列式,即只需要加和乘),乘上伴随矩阵就得到

BE=BIE=BBE=0\begin{gathered} \vert B\vert E=\vert B \vert IE= B^*BE=0 \end{gathered}

detB\det B是什么呢,你发现大矩阵求行列式的结构det(AIA)\det (AI-A)和求小矩阵的结构detxIA\det xI-A是完全一样的,只要把AIAI替换成xx,就会得到detB=p(A)\det B=p(A),而这是个n×nn\times n的矩阵,且乘一组基是00,所以p(A)=0p(A)=0

这样你就通过在n×nn\times n矩阵的环上定义的矩阵和行列式,以及它们和原本矩阵的结构的相似性证明了这个问题.

这个证法其实和走抽象代数,走张量积的做法本质相同(甚至你把矩阵塞到矩阵里就是张量积的坐标形式).

另一个证法

考虑有理标准型的想法,对任意vv,取kk使得v,Tv,T2v,,Tkvv,Tv,T^2v,\ldots,T^kv线性无关且kk是最大的满足无关的.那么它们构成一组基且张成TT的一个不变子空间.在这组基下TT的矩阵形如:

A=(c01c11cp1)A = \begin{pmatrix} & & & c_0 \\ 1 & & & c_1 \\ & \ddots & & \vdots \\ & & 1 & c_{p-1} \end{pmatrix}

然后这个东西的特征多项式是 xpi=0p1cixix^p-\sum _{i = 0} ^{p-1} c_ix^i,且它能零化这个矩阵,它又一定是TT特征多项式的因子,就结束了.

重要推论

我们还是想带入,或者更广义的说:

现在你有一个矩阵系数多项式f(x)=iCixif(x)=\sum_i C_ix^i,和一个标量系数多项式g(x)=detf(x)g(x)=\det f(x),则我们说若f(A)=0f(A)=0g(A)=0g(A)=0

注意到

xkIAk=(xIA)(i=0k1xiIAki1)    xIAxkIAk\begin{gathered} x^kI-A^k=(xI-A)(\sum_{i=0}^{k-1} x^iIA^{k-i-1}) \\ \implies xI-A \vert x^kI-A^k \end{gathered}

于是

f(x)=f(x)f(A)=iCi(xiIAk)    xiIAf(x)    f(x)=(xiIA)Q(x)\begin{gathered} f(x)=f(x)-f(A)=\sum_i C_i (x_iI-A^k) \\ \implies x_iI-A \vert f(x) \\ \implies f(x)=(x_iI-A)Q(x) \end{gathered}

注意到这里,ff是矩阵系数多项式,xx是一个标量.而在取行列式后,我们会得到标量多项式:

g(x)=detf(x)=det(xiIA)detQ(x)\begin{gathered} g(x)=\det f(x)=\det (x_iI-A) \det Q(x) \end{gathered}

这是两个标量多项式相乘,而第一个根据Cayley-Hamilton在带入AA后值为00,所以g(A)=0g(A)=0.

一个核心点就在于,我们往矩阵多项式里带入矩阵的话是很小心的(比如F(B)(BIA)Q(B)F(B)\ne (BI-A)Q(B),因为因式分解的时候利用了xIxIAA的交换律,而替换成任意矩阵就没有这个性质),但是取行列式转化成标量多项式后就没问题了.