Bài viết này trình bày chứng minh cho một đẳng thức quan trọng trong lý thuyết xác suất, liên kết độ lệch toàn phương sai với khoảng cách biến thiên toàn phần giữa hai độ đo xác suất. Hiểu rõ mối liên hệ này giúp chúng ta có cái nhìn sâu sắc hơn về cách các độ đo xác suất khác nhau và cách chúng có thể được so sánh.
Để bắt đầu, chúng ta cần làm rõ một số định nghĩa và ký hiệu quan trọng:
Chúng ta cần chứng minh rằng:
∥μ − ν∥ = inf{P(X ≠ Y) : (X, Y) ∈ C(μ, ν)}
Nói cách khác, độ lệch toàn phương sai giữa hai độ đo xác suất bằng infimum của xác suất mà hai biến ngẫu nhiên được ghép cặp khác nhau, lấy trên tất cả các phép ghép cặp khả thi.
Đầu tiên, ta chứng minh: μ(C) − ν(C) = P(X ∈ C) − P(Y ∈ C) ≤ P(X ∈ C, Y ∉ C) ≤ P(X ≠ Y). Điều này đúng vì nếu X thuộc C và Y không thuộc C, thì chắc chắn X và Y khác nhau. Do đó, xác suất để X và Y khác nhau ít nhất phải bằng xác suất để X thuộc C và Y không thuộc C.
Giả sử μ và ν tuyệt đối liên tục đối với độ đo Lebesgue trên R. Gọi dμ/dλ = f và dν/dλ = g là các đạo hàm Radon-Nikodym tương ứng với độ đo Lebesgue. Ta bỏ qua trường hợp suy biến μ = ν vì khi đó chứng minh là tầm thường. Gọi A là đường chéo {x = y} trên R2. Với a ∧ b, ta sẽ hiểu là min(a, b).
Định nghĩa một độ đo xác suất ϕ trên R2 bởi ϕ(B) = ∫B∩A (f(x) ∧ g(x)) dλ(x) + ∫B∩Ac (f(x) − (f(x) ∧ g(x)))(g(y) − (f(y) ∧ g(y))) 12 ∫R |f(z) − g(z)| dλ(z) dλ(x) dλ(y).
Ở đây, với ∫B∩A ⋅ dλ(x), ta có nghĩa là trước tiên ta xét đường chéo x = y như là một bản sao của R được nhúng trong R2 và ta muốn tích phân trên tập B∩A xem như một tập con của R. Sau đó, ϕ là một phép ghép cặp của các độ đo xác suất μ và ν.
Để chứng minh điều này, ta thấy rằng P(X ∈ x + dx) = f(x) ∧ g(x) dλ(x) + (f(x) − f(x) ∧ g(x)) dλ(x) = f(x) dλ(x) và tương tự P(Y ∈ y + dy) = g(y) dλ(y). Điều này đơn giản là vì ∫R (f(x) − (f(x) ∧ g(x))) dλ(x) = ∫R (g(y) − (f(y) ∧ g(y))) dλ(y) = 12 ∫R |f(x) − g(x)| dλ(x) bằng cách chỉ ra rằng min(x, y) = x + y − |x − y|2.
Điều này cũng cho bạn biết rằng P(X ≠ Y) = ϕ(Ac) = 12 ∫R |f(x) − g(x)| dλ(x). Do đó, inf{P(X ≠ Y) : (X, Y) ∈ C(μ, ν)} ≤ 12 ∫R |f(x) − g(x)| dλ(x). Ngoài ra, bạn có thể chỉ ra rằng supC |μ(C) − ν(C)| = 12 ∫R |f(x) − g(x)| dλ(x) (*). Cùng với nhau, chúng chứng minh rằng inf{P(X ≠ Y) : (X, Y) ∈ C(μ, ν)} ≤ supC |μ(C) − ν(C)|. Bạn đã tự mình chứng minh điều ngược lại: inf{P(X ≠ Y) : (X, Y) ∈ C(μ, ν)} ≥ supC |μ(C) − ν(C)|. Cùng với nhau, chúng cung cấp cho bạn sự tương đương của các định nghĩa □◻ Chứng minh của (*) :- Xem rằng với bất kỳ B ∈ R, ∫B f(x) − g(x) dλ(x) + ∫Bc f(x) − g(x) dλ(x) = 1 − 1 = 0. Do đó |∫B f(x) − g(x) dλ(x)| = |∫Bc f(x) − g(x) dλ(x)|.
Do đó 2|μ(B) − ν(B)| = |∫B f(x) − g(x) dλ(x)| + |∫Bc f(x) − g(x) dλ(x)| ≤ ∫B |f(x) − g(x)| dλ(x) + ∫Bc |f(x) − g(x)| dλ(x) = ∫R |f(x) − g(x)| dλ(x).
Do đó supB |μ(B) − ν(B)| ≤ 12 ∫R |f(x) − g(x)| dλ(x). Nếu bạn lấy B = {f ≥ g}, thì 2(μ(B) − ν(B)) = ∫B (f(x) − g(x)) dλ(x) + ∫Bc (g(x) − f(x)) dλ(x) = ∫B |f(x) − g(x)| dλ(x) + ∫Bc |f(x) − g(x)| dλ(x) = ∫R |f(x) − g(x)| dλ(x).
Do đó supC |μ(C) − ν(C)| = 12 ∫R |f(x) − g(x)| dλ(x) LƯU Ý - Chúng ta không sử dụng bất kỳ thuộc tính phân biệt nào của độ đo Lebesgue ngoài thực tế là nó là một độ đo trên đường thẳng thực. Vì vậy, đối với trường hợp tổng quát, chúng ta cũng có thể làm việc với bất kỳ độ đo m nào trên R mà μ và ν là tuyệt đối liên tục. Sau đó, chúng ta có thể lặp lại bằng chứng một cách nguyên văn để có được kết quả với dλ(x) dλ(x) được thay thế bằng dm(x) dm(x). Làm thế nào để tìm một độ đo m như vậy? Chà, phỏng đoán dễ nhất và hiển nhiên hoạt động là m = μ + ν. Điều này thực sự hoàn thành bằng chứng trong trường hợp tổng quát cũng như (tức là nơi chúng ta bỏ qua giả định trong gợi ý).
Chứng minh trên thiết lập một mối liên hệ chặt chẽ giữa hai khái niệm quan trọng trong lý thuyết xác suất: độ lệch toàn phương sai và phép ghép cặp. Kết quả này có ứng dụng trong nhiều lĩnh vực, bao gồm thống kê, học máy và khoa học thông tin.
Bài viết liên quan