Bài viết này khám phá sâu về một vấn đề phức tạp trong không gian ma trận, liên quan đến việc xác định một metric mà theo đó một tự ánh xạ (self-map) ma trận trở nên không giãn. Chúng ta sẽ đi sâu vào các khái niệm như ma trận bán xác định dương (PSD), tích Hadamard, và phép chiếu metric, đồng thời xem xét các ứng dụng thống kê tiềm năng của các kết quả này. Nếu bạn quan tâm đến đại số tuyến tính, phân tích ma trận, hoặc thống kê toán học, bài viết này sẽ cung cấp những hiểu biết sâu sắc và hữu ích.
Cho một ma trận đối xứng, bán xác định dương P với các phần tử trên đường chéo chính bằng 1 (tức là I ∘ P = I, với ∘ là tích Hadamard). Xét tự ánh xạ sau trên không gian các ma trận xác định dương đường chéo:
fP(X) = I ∘ Π≤I(X1/2PX1/2)
Trong đó Π≤I là phép chiếu metric lên các ma trận PSD bị chặn trên bởi I. Phép chiếu này có thể được định nghĩa trên các ma trận đối xứng PSD X = UΛU' như sau:
Π≤I(UΛU') = U min(Λ, I) U'
Câu hỏi đặt ra là: Liệu có tồn tại một metric dP(⋅, ⋅) mà theo đó fP là không giãn, tức là thỏa mãn:
dP(fP(X), fP(Y)) ≤ dP(X, Y)
Cần lưu ý rằng P về cơ bản là một ma trận tương quan, và X1/2PX1/2 tương tự như một ma trận hiệp phương sai với các phương sai X. Từ cách diễn giải thống kê này, có thể phỏng đoán một metric phù hợp như sau:
dP(X, Y) = dBW(X1/2PX1/2, Y1/2PY1/2)
Trong đó dBW(⋅, ⋅) là metric Bures-Wasserstein, thường được sử dụng để đo khoảng cách giữa các phân phối chuẩn với các ma trận hiệp phương sai khác nhau. Một lựa chọn khác, độc lập với P, có thể là:
dP(X, Y) = dBW(X, Y) = ||X1/2 - Y1/2||F
Trong đó ||⋅||F là chuẩn Frobenius.
Bằng phản ví dụ, người ta chứng minh rằng fP không phải là không giãn đối với bất kỳ metric ℓp nào:
dp(X, Y) := ||X - Y||p
trong đó các ma trận đường chéo được coi như các vectơ. Điều này cho thấy sự phức tạp trong việc tìm kiếm một metric phù hợp cho bài toán này.
Nếu không bảo toàn cấu trúc tương quan, ta định nghĩa trên các ma trận đối xứng PSD:
f(X) = Π≤I(X)
Khi n > 1, không tồn tại d(⋅, ⋅) sao cho:
d(I ∘ f(X), I ∘ f(Y)) ≤ d(I ∘ X, I ∘ Y)
Lý do là vì ta có thể tìm được X ≠ Y, X ≤ I, và Y ≰ I sao cho I ∘ X = I ∘ Y nhưng f(X) = X và do đó I ∘ f(X) = I ∘ X trong khi I ∘ f(Y) ≠ I ∘ Y = I ∘ X. Điều này chỉ ra một giới hạn cơ bản trong việc xây dựng các metric thỏa mãn tính không giãn trong các trường hợp tổng quát.
Xét tập hợp D++ = {diag(x1, …, xn) | xi > 0}, tập hợp các ma trận đường chéo với các phần tử dương trên đường chéo. Ta xét ánh xạ fP(X) = I ∘ Π≤I(X1/2PX1/2), trong đó P ⪰ 0 là một ma trận tương quan cố định, Π≤I là phép chiếu metric lên tập hợp {Z ⪰ 0 : Z ⪯ I}, và I ∘ A ký hiệu ma trận đường chéo được tạo thành từ đường chéo của A.
Phép chiếu metric Π≤I lên tập lồi đóng {Z ⪰ 0 : Z ⪯ I} là firmly non-expansive, và do đó non-expansive, trong chuẩn Frobenius:
||Π≤I(A) - Π≤I(B)||F ≤ ||A - B||F
Thao tác "diagonal pinching" P(A) = I ∘ A là một phép chiếu trực giao, do đó nó cũng non-expansive:
||P(A) - P(B)||F ≤ ||A - B||F
Kết hợp các tính chất này, ta thấy rằng ánh xạ fP thỏa mãn:
||fP(X) - fP(Y)||F ≤ ||Π≤I(X1/2PX1/2) - Π≤I(Y1/2PY1/2)||F ≤ ||X1/2PX1/2 - Y1/2PY1/2||F
Giới thiệu ánh xạ tuyến tính Φ(X) = X1/2P1/2. Khi đó, X1/2PX1/2 = Φ(X)Φ(X)⊤. Thay thế vào bất đẳng thức trên, ta được:
||fP(X) - fP(Y)||F ≤ ||Φ(X)Φ(X)⊤ - Φ(Y)Φ(Y)⊤||F
Vì Φ(X) = X1/2P1/2, ánh xạ Φ tuyến tính theo X1/2, nên:
Φ(X) - Φ(Y) = (X1/2 - Y1/2)P1/2 = diag(x-√ - y√)P1/2
Đặt MP = ||P1/2||2 = √λmax(P). Sử dụng tính chất sub-multiplicativity của chuẩn Frobenius ||AB||F ≤ ||A||F||B||2, ta có:
||Φ(X) - Φ(Y)||F ≤ ||diag(x-√ - y√)||F ||P1/2||2 = ||x-√ - y√||2 MP
Để chặn trên hiệu của các ma trận Gram, ta sử dụng đẳng thức:
AA⊤ - BB⊤ = (A - B)A⊤ + B(A - B)⊤
và bất đẳng thức tam giác:
||Φ(X)Φ(X)⊤ - Φ(Y)Φ(Y)⊤||F ≤ ||(Φ(X) - Φ(Y))Φ(X)⊤||F + ||Φ(Y)(Φ(X) - Φ(Y))⊤||F
Sử dụng ||MN||F ≤ ||M||F||N||2 và ||MN||F ≤ ||M||2||N||F, ta được:
||Φ(X)Φ(X)⊤ - Φ(Y)Φ(Y)⊤||F ≤ (||Φ(X)||2 + ||Φ(Y)||2) ||Φ(X) - Φ(Y)||F
Thay thế chặn trên cho ||Φ(X) - Φ(Y)||F, ta có:
||Φ(X)Φ(X)⊤ - Φ(Y)Φ(Y)⊤||F ≤ (||Φ(X)||2 + ||Φ(Y)||2) MP ||x-√ - y√||2
Điều này có thể được chặn trên thêm bằng cách sử dụng max:
||Φ(X)Φ(X)⊤ - Φ(Y)Φ(Y)⊤||F ≤ 2 MP max{||Φ(X)||2, ||Φ(Y)||2} ||x-√ - y√||2
Các lần lặp của fP nằm trong tập hợp D(1)++ = {diag(x) | 0 < xi ≤ 1}, giả sử chúng vẫn dương nghiêm ngặt. Bên trong tập hợp này, với bất kỳ Z ∈ D(1)++, ta có ||Φ(Z)||2 = ||Z1/2P1/2||2 ≤ ||Z1/2||2 ||P1/2||2. Vì Z1/2 = diag(√zi) với 0 < zi ≤ 1, ||Z1/2||2 = maxi √zi ≤ 1. Do đó, ||Φ(Z)||2 ≤ MP.
Giả sử X, Y là các lần lặp như vậy (hoặc thuộc một tập hợp mà ràng buộc này đúng), ta có:
||Φ(X)Φ(X)⊤ - Φ(Y)Φ(Y)⊤||F ≤ 2 MP (MP + MP) ||x-√ - y√||2 = 2 M2P ||x-√ - y√||2
Kết hợp điều này với bất đẳng thức trước đó cho ||fP(X) - fP(Y)||F, ta thu được:
||fP(X) - fP(Y)||F ≤ 2 M2P ||x-√ - y√||2
Nếu ta định nghĩa bình phương khoảng cách Bures-Wasserstein giữa các ma trận đường chéo này là ΔP(X, Y) = ||X-√ - Y√||2F = ||x-√ - y√||22, thì bất đẳng thức có thể được viết là:
ΔP(fP(X), fP(Y)) ≤ 2 √n M2P ΔP(X, Y)1/2
Bất đẳng thức này cho thấy rằng ánh xạ fP co lại khoảng cách Bures bình phương theo một cách dưới tuyến tính liên quan đến căn bậc hai. Nó không trực tiếp ngụ ý tính không giãn tuyến tính ΔP(fP(X), fP(Y)) ≤ ΔP(X, Y) hoặc tính không giãn trong chính khoảng cách Bures, √ΔP(fP(X), fP(Y)) ≤ √ΔP(X, Y). Tuy nhiên, mối quan hệ này ngụ ý sự co lại trong khoảng cách Bures cục bộ, trên các tập hợp nơi các mục nhập đường chéo có một giới hạn dưới dương chung, làm cho ánh xạ t ↦ √t Lipschitz.
Bài viết liên quan