Bài viết này cung cấp một hướng dẫn chuyên sâu về cách tính hệ số tương quan nội lớp (ICC), một thước đo quan trọng để đánh giá sự phù hợp trong dữ liệu đếm. Chúng ta sẽ khám phá cách sử dụng các mô hình hỗn hợp tuyến tính tổng quát (GLMM) trong R, đặc biệt tập trung vào gói iccCounts
. Nếu bạn đang gặp khó khăn trong việc phân tích dữ liệu đếm có cấu trúc phân cấp, bài viết này sẽ cung cấp các giải pháp và ví dụ thực tế để bạn có thể áp dụng.
Hệ số tương quan nội lớp (ICC) thường được sử dụng để đánh giá sự phù hợp giữa các phép đo liên tục. Tuy nhiên, khi làm việc với dữ liệu đếm, việc áp dụng các phương pháp ICC truyền thống có thể dẫn đến kết quả sai lệch. Điều này là do dữ liệu đếm thường không tuân theo các giả định về tính tuyến tính và phân phối chuẩn mà các phương pháp ICC truyền thống dựa vào.
Ví dụ, nếu bạn đang đánh giá sự đồng nhất giữa số lượng sản phẩm lỗi được tìm thấy bởi các kiểm tra viên khác nhau, hoặc số lượng khách hàng ghé thăm cửa hàng mỗi ngày, dữ liệu của bạn là dữ liệu đếm. Trong những trường hợp này, các phương pháp ICC dựa trên mô hình tuyến tính có thể không phù hợp.
iccCounts
trong RMô hình hỗn hợp tuyến tính tổng quát (GLMM) cung cấp một khuôn khổ linh hoạt hơn để phân tích dữ liệu đếm, đặc biệt khi dữ liệu có cấu trúc phân cấp (ví dụ: các phép đo được nhóm theo đối tượng hoặc địa điểm). Gói iccCounts
trong R được thiết kế đặc biệt để tính toán ICC từ các mô hình GLMM này, đảm bảo kết quả chính xác và phù hợp hơn cho dữ liệu đếm.
Gói iccCounts
hỗ trợ nhiều loại phân phối cho dữ liệu đếm, bao gồm:
Việc lựa chọn phân phối phù hợp là rất quan trọng để đảm bảo tính hợp lệ của kết quả ICC. Chúng ta sẽ xem xét cách chọn phân phối thích hợp và đánh giá mức độ phù hợp của mô hình sau.
iccCounts
Dưới đây là các bước chính để tính ICC bằng gói iccCounts
:
iccCounts
: Đảm bảo bạn đã cài đặt gói này từ CRAN và tải nó vào phiên R của bạn.glmmTMB
(từ gói glmmTMB
) để xây dựng mô hình GLMM phù hợp với dữ liệu của bạn, chỉ định phân phối và hàm liên kết.icc_counts
để tính ICC từ mô hình GLMM đã xây dựng.GOF_check
để đánh giá mức độ phù hợp của mô hình và đảm bảo rằng các giả định của mô hình được đáp ứng.Hãy xem xét một ví dụ trong đó chúng ta muốn đánh giá sự phù hợp giữa hai phương pháp khác nhau để đếm tế bào CD34+ (một loại tế bào gốc) trong mẫu máu. Dữ liệu được lưu trữ trong đối tượng AF
trong gói iccCounts
.
Đầu tiên, chúng ta xây dựng mô hình GLMM với phân phối Negative Binomial (để giải quyết tình trạng overdispersion):
AF_NB2 <- icc_counts(AF, y = "y", id = "id", met = "met", type = "con", fam = "nbinom2")
Sau đó, chúng ta tính ICC:
ICC(AF_NB2)
Kết quả cho thấy ICC là khoảng 0.83, cho thấy sự phù hợp tốt giữa hai phương pháp đếm tế bào. Tuy nhiên, điều quan trọng là phải kiểm tra mức độ phù hợp của mô hình để đảm bảo tính hợp lệ của kết quả này. Chúng ta có thể làm điều này bằng cách sử dụng hàm GOF_check
:
set.seed(100)
AF_NB2.gof <- GOF_check(AF_NB2)
plot(AF_NB2.gof)
Nếu các chẩn đoán mô hình cho thấy mô hình phù hợp với dữ liệu, chúng ta có thể tự tin vào kết quả ICC.
Nếu dữ liệu đếm của bạn có số lượng số không lớn hơn dự kiến so với phân phối Poisson hoặc Negative Binomial, bạn nên xem xét sử dụng các mô hình Zero-Inflated. Các mô hình này cho phép mô hình hóa riêng biệt quá trình tạo ra số không, mang lại kết quả chính xác hơn trong những tình huống này.
Tính toán hệ số tương quan nội lớp (ICC) cho dữ liệu đếm đòi hỏi một cách tiếp cận cẩn thận, có tính đến các đặc tính cụ thể của dữ liệu. Sử dụng mô hình hỗn hợp tuyến tính tổng quát (GLMM) và gói iccCounts
trong R, bạn có thể đánh giá sự phù hợp trong dữ liệu đếm một cách chính xác và đáng tin cậy. Hãy nhớ chọn phân phối phù hợp, đánh giá mức độ phù hợp của mô hình và giải thích kết quả một cách thận trọng.
Bài viết liên quan