Bạn đã bao giờ tự hỏi làm thế nào để đánh giá một tập dữ liệu khi các giá trị không đồng đều? **Trung vị trọng số** chính là câu trả lời. Đây là một công cụ thống kê mạnh mẽ, vượt trội hơn so với trung vị thông thường khi xử lý dữ liệu có trọng số khác nhau. Bài viết này sẽ giúp bạn hiểu rõ về trung vị trọng số, từ định nghĩa cơ bản đến các ứng dụng thực tế và cách tính toán nó một cách dễ dàng.
Trong thống kê, **trung vị trọng số** của một mẫu là giá trị mà tại đó tổng trọng số của các phần tử nhỏ hơn hoặc bằng trung vị này bằng 50% tổng trọng số, và tổng trọng số của các phần tử lớn hơn hoặc bằng trung vị này cũng bằng 50% tổng trọng số. Nói một cách đơn giản, nó là điểm mà tại đó nửa tổng trọng số nằm ở bên dưới và nửa còn lại nằm ở bên trên.
Khái niệm này lần đầu tiên được đề xuất bởi F. Y. Edgeworth vào năm 1888. Giống như trung vị thông thường, trung vị trọng số hữu ích trong việc ước tính xu hướng trung tâm và có khả năng chống lại các giá trị ngoại lệ. Nó cho phép sử dụng các trọng số thống kê không đồng nhất liên quan đến, ví dụ: các phép đo độ chính xác khác nhau trong mẫu.
Cho `n` phần tử riêng biệt đã được sắp xếp `x1, x2, ..., xn` với trọng số dương `w1, w2, ..., wn` sao cho `∑i=1n wi = 1`. Trung vị trọng số là phần tử `xk` thỏa mãn:
Nói cách khác, tổng trọng số của các phần tử đứng trước `xk` và sau `xk` đều không vượt quá 1/2.
Khi có hai phần tử thỏa mãn trường hợp tổng quát, chúng được gọi là trung vị trọng số dưới và trung vị trọng số trên. Trung vị trọng số dưới thỏa mãn:
Trung vị trọng số trên thỏa mãn:
Trong trường hợp này, lý tưởng nhất là tạo một phần tử mới bằng cách sử dụng trung bình của trung vị trọng số trên và dưới, và gán cho nó trọng số bằng 0. Nếu không thể tạo dữ liệu mới, trung vị trọng số nên được chọn dựa trên phần tử nào giữ cho các phân vùng gần bằng nhau nhất. Thông thường, trung vị trọng số dưới được chấp nhận theo đề xuất ban đầu của Edgeworth.
Trung vị trọng số có một số tính chất quan trọng:
Để đơn giản, hãy xem xét tập hợp các số {1, 2, 3, 4, 5} với mỗi số có trọng số {0.15, 0.1, 0.2, 0.3, 0.25} tương ứng. Trung vị là 3 và trung vị trọng số là phần tử tương ứng với trọng số 0.3, đó là 4. Các trọng số ở mỗi bên của điểm trục cộng lại thành 0.45 và 0.25, thỏa mãn điều kiện chung là mỗi bên phải càng đều càng tốt.
Xét tập hợp các số {1, 2, 3, 4} với mỗi số có trọng số đồng nhất {0.25, 0.25, 0.25, 0.25} tương ứng. Trọng số bằng nhau sẽ tạo ra trung vị trọng số bằng trung vị. Trung vị này là 2.5 vì nó là một tập hợp chẵn. Trung vị trọng số dưới là 2 với tổng phân vùng là 0.25 và 0.5, và trung vị trọng số trên là 3 với tổng phân vùng là 0.5 và 0.25. Việc giới thiệu một điểm trục mới bằng cách lấy trung bình của các trung vị trọng số trên và dưới là lý tưởng.
Trung vị trọng số có thể được tính bằng cách sắp xếp tập hợp các số và tìm tập hợp các số nhỏ nhất mà tổng lại bằng một nửa trọng số của tổng trọng số. Thuật toán này mất thời gian O(n log n). Có một cách tiếp cận tốt hơn để tìm trung vị trọng số bằng cách sử dụng một thuật toán lựa chọn đã sửa đổi.
(Đoạn mã giả thuật toán bị lược bỏ để đơn giản hóa bài viết)
Trung vị trọng số là một công cụ thống kê vô cùng hữu ích trong nhiều lĩnh vực, đặc biệt khi bạn cần xem xét tầm quan trọng khác nhau của các giá trị trong một tập dữ liệu. Hy vọng bài viết này đã giúp bạn hiểu rõ hơn về khái niệm, tính chất và cách tính trung vị trọng số.
Bài viết liên quan