Linear Algebra, 선형변환의 표현행렬과 추이행렬

선형변환의 표현행렬과 추이행렬

앞내용의 표현행렬 부분과 이어지는 내용이다.

앞서 언급했듯이 이 부분은 선형대수의 꽃이고, 추상적인 벡터공간사이의 변환에서는 좌표 라는 게 없으므로 기저를 택해 좌표벡터로 바꾼후 행렬계산으로 다루는 과정이다.

복잡한 선형변환을 단순 행렬곱으로 바꿔주는 것을 넘어, 예를들어 머신러닝에서 feature를 추출할때, 입력데이터를 매핑하는 과정에서 쓰이는 등 그래픽스, 인공지능, 신호처리 등 다양한 분야에서 쓰이는 아이디어이다.

표현행렬은 타 공간간의 좌표변환을 의미했다면 추이행렬(기저변환행렬) 은 같은 공간내의 좌표변환을 의미한다.

다항식등의 추상적인 개념들을 다루기 쉽게 좌표변환을 해서 계산한다 라고 생각하면 접근하기 쉬워진다.
원서 : Strang, G. (2023). Introduction to Linear Algebra (6th ed.).

1. 기저변환행렬 (change-of-basis matrix)

벡터공간 V의 순서기저 α = { v1, v2, …, vn } 와 벡터공간 V의 순서기저 β = { w1, w2, …, wn }일 때, X ∈ V 에 대하여

\[v_1 = a_{11}w_1 + a_{21}w_2 + \cdots + a_{n1}w_n \;\;\Rightarrow\;\; [v_1]_\beta = (a_{11}, a_{21}, \cdots, a_{n1})^T\] \[v_2 = a_{12}w_1 + a_{22}w_2 + \cdots + a_{n2}w_n \;\;\Rightarrow\;\; [v_2]_\beta = (a_{12}, a_{22}, \cdots, a_{n2})^T\]

$ \vdots $$

\[v_n = a_{1n}w_1 + a_{2n}w_2 + \cdots + a_{nn}w_n \;\;\Rightarrow\;\; [v_n]_\beta = (a_{1n}, a_{2n}, \cdots, a_{nn})^T\]

그리고

\[X = x_1 v_1 + x_2 v_2 + \cdots + x_n v_n \;\;\Rightarrow\;\; [X]_\alpha = (x_1, x_2, \cdots, x_n)^T\]

이므로

\[[X]_\beta = x_1 [v_1]_\beta + x_2 [v_2]_\beta + \cdots + x_n [v_n]_\beta\] \[= \begin{bmatrix} [v_1]_\beta & [v_2]_\beta & \cdots & [v_n]_\beta \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{bmatrix}\] \[= \begin{bmatrix} [v_1]_\beta & [v_2]_\beta & \cdots & [v_n]_\beta \end{bmatrix} [X]_\alpha\]

따라서 α에서 β로의 추이(기저변환)행렬

\[P_{\alpha \to \beta}\]

은 다음과 같이 만들 수 있다.

\[P_{\alpha \to \beta} = \begin{bmatrix} [v_1]_\beta & [v_2]_\beta & \cdots & [v_n]_\beta \end{bmatrix} = \begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{n1} & a_{n2} & \cdots & a_{nn} \end{bmatrix}\]

흐름은 이전의 행렬표현과 비슷하고, 같은 공간내에서 다른기저로 좌표변환 한다고 생각하자.

추이행렬도 마찬가지로 예제를 풀어보는게 이해하기 쉽다.

문제 1

벡터공간 V의 기저 { v1, v2, v3, v4 }에 대한 선형사상 T : V → V의 행렬표현이

\[\begin{bmatrix} 2 & 0 & 0 & 0 \\ 1 & 2 & 0 & 0 \\ 0 & 1 & 2 & 0 \\ 0 & 0 & 0 & 2 \end{bmatrix}\]

일 때, V의 기저 { v1, T(v1), T^2(v1), v4 }에 대한 T의 행렬표현을 A라 하자.
행렬 A의 모든 성분들의 합을 구하시오.

막말로 모든성분의 합이므로 그냥 1111 대입하면 바로 나오긴한다.

하지만 이 문제를 푸는 과정이 중요하므로 어렵지만 해결해보자.

기저 { v1, v2, v3, v4 }에 대한 표현행렬이

\[\begin{bmatrix} 2 & 0 & 0 & 0 \\ 1 & 2 & 0 & 0 \\ 0 & 1 & 2 & 0 \\ 0 & 0 & 0 & 2 \end{bmatrix}\]

이므로

\[T(v1) = 2v1 + v2, \quad T(v2) = 2v2 + v3, \quad T(v3) = 2v3, \quad T(v4) = 2v4\] \[T^2(v1) = T(2v1 + v2) = 2T(v1) + T(v2) = 2(2v1 + v2) + (2v2 + v3) = 4v1 + 4v2 + v3\]

이렇게 나오는 이유는 표현행렬에서 마지막 과정이 치역의 기저로 쪼갠후 열로 세운것이였고,

거꾸로 열을 행으로 눕힌후 치역의 기저로 합친 것이다. (V에서 V이므로 기저는 동일)

V의 기저 { v1, v2, v3, v4 }를 α, { v1, T(v1), T^2(v1), v4 }를 β라고 할 때,

\[v1 = 1v1 + 0v2 + 0v3 + 0v4\] \[T(v1) = 2v1 + v2 = 2v1 + 1v2 + 0v3 + 0v4\] \[T^2(v1) = 4v1 + 4v2 + v3 = 4v1 + 4v2 + 1v3 + 0v4\] \[v4 = 0v1 + 0v2 + 0v3 + 1v4\]

이므로 β에서 α로의 기저 변환 행렬은

\[P_{\beta \to \alpha} = \begin{bmatrix} 1 & 2 & 4 & 0 \\ 0 & 1 & 4 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{bmatrix}\]

이고

α에서 β로의 기저 변환 행렬은

\[P_{\beta \to \alpha}^{-1} = \begin{bmatrix} 1 & -2 & 4 & 0 \\ 0 & 1 & -4 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{bmatrix}\]

이므로

\[A = [T]_\beta = P_{\alpha \to \beta}^{-1} [T]_\alpha P_{\beta \to \alpha}\] \[= \begin{bmatrix} 1 & -2 & 4 & 0 \\ 0 & 1 & -4 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{bmatrix} \begin{bmatrix} 2 & 0 & 0 & 0 \\ 1 & 2 & 0 & 0 \\ 0 & 1 & 2 & 0 \\ 0 & 0 & 0 & 2 \end{bmatrix} \begin{bmatrix} 1 & 2 & 4 & 0 \\ 0 & 1 & 4 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{bmatrix}\] \[= \begin{bmatrix} 0 & 0 & 8 & 0 \\ 1 & -2 & -8 & 0 \\ 0 & 1 & 2 & 0 \\ 0 & 0 & 0 & 2 \end{bmatrix} \begin{bmatrix} 1 & 2 & 4 & 0 \\ 0 & 1 & 4 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{bmatrix}\] \[= \begin{bmatrix} 0 & 0 & 8 & 0 \\ 1 & 0 & -12 & 0 \\ 0 & 1 & 6 & 0 \\ 0 & 0 & 0 & 2 \end{bmatrix}\]

그러므로 행렬 A의 모든 성분들의 합은 6이다.

갑자기 P-1TP를 왜하는지 이해가 안갈 수 있는데 다음 부분을 이해한 후 다시 돌아와서 이해해보자.

그리고 1111대입해서 나오는 과정은 그냥 (1,1,1,1)을 대입해서 PTP-1을 구하면 되는데 이유는 앞에서 언급했듯이 1111은 각행의 합을 나타내기 때문이다.

(1,1,1,1)은 각행의 합이 같은 행렬의 고유치구하거나 모든 성분의 합을 구하는등 다양한 개념에서 응용할 수 있다.

2. 추이행렬과 표현행렬

시작하기 앞서 참고로, 표준기저로 나온 표준행렬 과 표현행렬 을 구분지으려 하지말자.

표준행렬도 표준기저를 표현행렬과 동일한 과정으로 나올 것 이므로 백터공간과 부분공간을 구분하려고 하는것과 비슷한 행위이므로 의미없다. (결국 벡터공간 자기자신도 부분공간에 속하듯이, 표준행렬도 표현행렬에 속함)

다항식 등 추상적인 공간에서 좌표공간으로 변환후 행렬곱으로 바꾸는 과정을 요약하면 다음그림과 유사하다.

그림에서 T과정이 결국에는 Q-1T]EQ가 되는것을 볼 수 있고 위 문제는 이를 사용해서 A를 구한 것이다.

앞서 배운 것을 종합하여 예제를 풀어보자.

문제 2

선형사상 T : R^3 → P2(x), T(e1) = 1 - x^2, T(e2) = x + x^2, T(e3) = -1 + x

를 R^3의 순서기저 { e1 = (1,0,0), e2 = (0,1,0), e3 = (0,0,1) }와

P2(x) = { a0 + a1 x + a2 x^2 / a0, a1, a2 ∈ R }의 순서기저 { 1, x, x^2 }에 대하여 표현한 3×3 행렬을 A라 하자.

A^100 (a1, a2, a3)^T = (0,0,0)^T 이라 할 때, a1 + a2 + a3 의 값은?

우선 표현행렬을 구해보자.

T(ae1 + be2 + ce3) = aT(e1) + bT(e2) + cT(e3) = a(1 - x^2) + b(x + x^2) + c(-1 + x) = (a - c) + (b + c)x + (-a + b)x^2 이므로

선형사상 T의 표현행렬 A 는 다음과 같다.

\[\begin{bmatrix} 1 & 0 & -1 \\ 0 & 1 & 1 \\ -1 & 1 & 0 \end{bmatrix}\]

행렬의 100승이므로 고유치를 구해보자.

고유값을 구하면 1, -1, 2 가 나온다.

A 고윳값 λ = 1, -1, 2의 대응하는 고유벡터는

\[\begin{bmatrix}1\\1\\0\end{bmatrix},\; \begin{bmatrix}1\\-1\\2\end{bmatrix},\; \begin{bmatrix}-1\\1\\1\end{bmatrix}\]

이고

A^{-1}의 고윳값 λ = 1, -1, 1/2 에 대응하는 고유벡터는

\[\begin{bmatrix}1\\1\\0\end{bmatrix},\; \begin{bmatrix}1\\-1\\2\end{bmatrix},\; \begin{bmatrix}-1\\1\\1\end{bmatrix}\]

이다.

\[A^{-1}\begin{bmatrix}1\\1\\0\end{bmatrix} = 1\begin{bmatrix}1\\1\\0\end{bmatrix} \;\;\Rightarrow\;\; (A^{-1})^{100}\begin{bmatrix}1\\1\\0\end{bmatrix} = \begin{bmatrix}1\\1\\0\end{bmatrix}\] \[A^{-1}\begin{bmatrix}1\\-1\\2\end{bmatrix} = (-1)\begin{bmatrix}1\\-1\\2\end{bmatrix} \;\;\Rightarrow\;\; (A^{-1})^{100}\begin{bmatrix}1\\-1\\2\end{bmatrix} = \begin{bmatrix}1\\-1\\2\end{bmatrix}\] \[A^{-1}\begin{bmatrix}-1\\1\\1\end{bmatrix} = \tfrac{1}{2}\begin{bmatrix}-1\\1\\1\end{bmatrix} \;\;\Rightarrow\;\; (A^{-1})^{100}\begin{bmatrix}-1\\1\\1\end{bmatrix} = \tfrac{1}{2^{100}}\begin{bmatrix}-1\\1\\1\end{bmatrix}\]

따라서

\[A^{100}\begin{bmatrix}a_1\\a_2\\a_3\end{bmatrix} = \begin{bmatrix}0\\0\\1\end{bmatrix} \;\;\Leftrightarrow\;\; \begin{bmatrix}a_1\\a_2\\a_3\end{bmatrix} = (A^{-1})^{100}\begin{bmatrix}0\\0\\1\end{bmatrix}\]

\[\begin{bmatrix}0\\0\\1\end{bmatrix} = 0\cdot\begin{bmatrix}1\\1\\0\end{bmatrix} + \tfrac{1}{3}\begin{bmatrix}1\\-1\\2\end{bmatrix} + \tfrac{1}{3}\begin{bmatrix}-1\\1\\1\end{bmatrix}\]

이므로

\[\begin{bmatrix}a_1\\a_2\\a_3\end{bmatrix} = (A^{-1})^{100}\begin{bmatrix}0\\0\\1\end{bmatrix} = (A^{-1})^{100}\left\{ \tfrac{1}{3}\begin{bmatrix}1\\-1\\2\end{bmatrix} + \tfrac{1}{3}\begin{bmatrix}-1\\1\\1\end{bmatrix} \right\}\] \[= \tfrac{1}{3}(A^{-1})^{100} \begin{bmatrix} 1 \\ -1 \\ 2 \end{bmatrix} + \tfrac{1}{3} \cdot \tfrac{1}{2^{100}} \begin{bmatrix} -1 \\ 1 \\ 1 \end{bmatrix}\]

따라서

\[a_1 + a_2 + a_3 = \tfrac{2}{3} + \tfrac{1}{3 \cdot 2^{100}}\]