Bài viết này cung cấp hướng dẫn toàn diện về hồi quy logistic hiệu ứng hỗn hợp, một kỹ thuật mạnh mẽ để mô hình hóa dữ liệu nhị phân có cấu trúc phân cấp. Chúng ta sẽ khám phá cách diễn giải các hệ số, thực hiện bootstrapping để suy luận mạnh mẽ hơn, và trực quan hóa kết quả để hiểu rõ hơn về dữ liệu của bạn. Nếu bạn đang làm việc với dữ liệu có cấu trúc nhóm và muốn dự đoán kết quả nhị phân, bài viết này là dành cho bạn.
Hồi quy logistic hiệu ứng hỗn hợp là một phương pháp thống kê được sử dụng để mô hình hóa các biến kết quả nhị phân khi dữ liệu được nhóm hoặc có cả hiệu ứng cố định và hiệu ứng ngẫu nhiên. Điều này có nghĩa là chúng ta có thể xem xét cả các yếu tố ảnh hưởng đến tất cả các nhóm (hiệu ứng cố định) và các biến thể giữa các nhóm (hiệu ứng ngẫu nhiên). Ví dụ, chúng ta có thể sử dụng hồi quy logistic hiệu ứng hỗn hợp để nghiên cứu các yếu tố dự đoán sự thành công của sinh viên trong các trường khác nhau, hoặc để xác định các yếu tố liên quan đến việc thuyên giảm ung thư phổi ở bệnh nhân được điều trị bởi các bác sĩ khác nhau trong các bệnh viện khác nhau.
Kỹ thuật này đặc biệt hữu ích khi làm việc với dữ liệu có cấu trúc phân cấp, trong đó các quan sát không độc lập với nhau. Ví dụ, dữ liệu có thể được nhóm theo bệnh nhân, bác sĩ hoặc bệnh viện. Bằng cách sử dụng hồi quy logistic hiệu ứng hỗn hợp, chúng ta có thể kiểm soát sự phụ thuộc này và có được các ước tính chính xác hơn về ảnh hưởng của các biến dự đoán. Điều này giúp đưa ra các quyết định sáng suốt hơn và hiểu sâu hơn về các yếu tố ảnh hưởng đến kết quả mong muốn. Nó còn giúp ta giải quyết bài toán
Để minh họa việc sử dụng hồi quy logistic hiệu ứng hỗn hợp, hãy xem xét một vài ví dụ:
Các ví dụ trên cho thấy tính linh hoạt của hồi quy logistic hiệu ứng hỗn hợp trong việc giải quyết các câu hỏi nghiên cứu khác nhau trong các lĩnh vực khác nhau. Bằng cách kết hợp hiệu ứng cố định và hiệu ứng ngẫu nhiên, các mô hình này cho phép các nhà nghiên cứu hiểu rõ hơn về các mối quan hệ phức tạp và đưa ra các dự đoán chính xác hơn.
Để minh họa cách sử dụng hồi quy logistic hiệu ứng hỗn hợp trong thực tế, chúng ta sẽ sử dụng một tập dữ liệu mô phỏng về ung thư phổi. Tập dữ liệu này chứa nhiều kết quả khác nhau được thu thập trên bệnh nhân, được lồng trong các bác sĩ, đến lượt họ lại được lồng trong các bệnh viện. Chúng ta cũng sẽ sử dụng một vài biến cấp bác sĩ, chẳng hạn như Kinh nghiệm, trong ví dụ của mình.
Việc trực quan hóa dữ liệu là vô cùng quan trọng để hiểu rõ hơn về phân phối, phát hiện lỗi mã hóa và nắm bắt mối quan hệ giữa các biến. Ví dụ: chúng ta có thể nhận thấy rằng hai yếu tố dự đoán có tương quan cao và quyết định chỉ đưa một yếu tố vào mô hình, hoặc chúng ta có thể ghi nhận một mối quan hệ cong giữa hai biến. Trực quan hóa dữ liệu là một cách nhanh chóng và trực quan để kiểm tra tất cả những điều này cùng một lúc.
Dưới đây là một số kỹ thuật trực quan hóa mà chúng ta có thể sử dụng:
Trước khi đi sâu vào hồi quy logistic hiệu ứng hỗn hợp, hãy xem xét các phương pháp phân tích thay thế mà bạn có thể đã cân nhắc:
Bằng cách xem xét các phương pháp phân tích khác này, bạn có thể chọn phương pháp phù hợp nhất để trả lời câu hỏi nghiên cứu của mình và giải quyết các đặc điểm cụ thể của dữ liệu của bạn.
Để ước tính mô hình hồi quy logistic hiệu ứng hỗn hợp, chúng ta có thể sử dụng lệnh glmer
trong gói lme4
. Lệnh này cho phép chúng ta chỉ định cả các yếu tố dự đoán cấp bệnh nhân và cấp bác sĩ, cũng như chặn ngẫu nhiên theo ID bác sĩ.
Ước tính và diễn giải các mô hình hỗn hợp tuyến tính tổng quát (GLMM), trong đó hồi quy logistic hiệu ứng hỗn hợp là một trong số đó, có thể khá khó khăn. Nếu bạn chỉ mới bắt đầu, chúng tôi khuyên bạn nên đọc trang này trước: Giới thiệu về GLMM. Nó bao gồm một số kiến thức nền tảng và lý thuyết cũng như các tùy chọn ước tính, suy luận và cạm bẫy một cách chi tiết hơn.
Sau khi ước tính mô hình, chúng ta có thể in kết quả mà không có mối tương quan giữa các hiệu ứng cố định để có được cái nhìn tổng quan rõ ràng về các ước tính hệ số. Phần đầu tiên của kết quả cho chúng ta biết rằng các ước tính dựa trên một phép tính gần đúng Gaussian Hermite thích ứng của khả năng xảy ra. Cụ thể chúng tôi đã sử dụng 10 điểm tích phân. Khi chúng tôi sử dụng nhiều điểm tích phân hơn, phép tính gần đúng sẽ trở nên chính xác hơn hội tụ về các ước tính ML; tuy nhiên, nhiều điểm hơn đòi hỏi tính toán nhiều hơn và có thể cực kỳ chậm hoặc thậm chí không thể giải quyết được với công nghệ ngày nay. Để tránh cảnh báo về sự không hội tụ, chúng ta chỉ định một bộ tối ưu hóa khác bằng đối số control=glmerControl(optimizer="bobyqa"). Mặc dù mô hình sẽ tạo ra các kết quả gần như giống hệt nhau mà không có đối số mới, nhưng chúng tôi thích sử dụng các mô hình không có các cảnh báo như vậy.
Phần tiếp theo cung cấp cho chúng ta thông tin cơ bản có thể được sử dụng để so sánh các mô hình, sau đó là các ước tính hiệu ứng ngẫu nhiên. Điều này đại diện cho sự thay đổi ước tính trong chặn trên thang đo logit. Nếu có các hiệu ứng ngẫu nhiên khác, chẳng hạn như độ dốc ngẫu nhiên, chúng cũng sẽ xuất hiện ở đây. Phần trên cùng kết thúc bằng tổng số quan sát và số lượng quan sát cấp 2. Trong trường hợp của chúng tôi, điều này bao gồm tổng số bệnh nhân (8.525) và bác sĩ (407).
Phần cuối cùng là một bảng các ước tính hiệu ứng cố định. Đối với nhiều ứng dụng, đây là những gì mọi người chủ yếu quan tâm. Các ước tính đại diện cho các hệ số hồi quy. Chúng không được chuẩn hóa và nằm trên thang đo logit. Các ước tính được theo sau bởi các lỗi chuẩn (SE). Như thường thấy trong GLM, SE có được bằng cách đảo ngược ma trận thông tin quan sát được (ma trận đạo hàm bậc hai âm). Tuy nhiên, đối với GLMM, đây lại là một phép tính gần đúng. Các phép tính gần đúng của các ước tính hệ số có khả năng ổn định nhanh hơn so với các ước tính cho SE. Do đó, nếu bạn sử dụng ít điểm tích phân hơn, các ước tính có thể hợp lý, nhưng phép tính gần đúng của SE có thể kém chính xác hơn. Các bài kiểm tra Wald, (frac{Ước tính}{SE}), dựa trên lý thuyết tiệm cận, ở đây đề cập đến khi kích thước đơn vị cấp cao nhất hội tụ về vô cực, các bài kiểm tra này sẽ được phân phối bình thường và từ đó, các giá trị p (xác suất thu được ước tính quan sát được hoặc cực đoan hơn, với ước tính thực là 0).
Suy luận từ GLMM rất phức tạp. Ngoại trừ các trường hợp có nhiều quan sát ở mỗi cấp độ (đặc biệt là cấp cao nhất), việc giả định rằng (frac{Ước tính}{SE}) được phân phối bình thường có thể không chính xác. Nhiều lựa chọn thay thế đã được đề xuất bao gồm mô phỏng Monte Carlo, ước tính Bayesian và bootstrapping. Mỗi điều này có thể phức tạp để thực hiện. Chúng ta sẽ tập trung vào một ví dụ bootstrapping nhỏ. Bootstrapping là một phương pháp lấy mẫu lại. Nó không hoàn hảo bằng bất kỳ phương tiện nào, nhưng nó là trực quan đơn giản và dễ thực hiện trong mã. Một nhược điểm là nó đòi hỏi tính toán. Đối với các tập dữ liệu lớn hoặc các mô hình phức tạp, nơi mỗi mô hình mất vài phút để chạy, ước tính trên hàng ngàn mẫu bootstrap có thể dễ dàng mất hàng giờ hoặc hàng ngày. Trong ví dụ cho trang này, chúng ta sử dụng một số lượng mẫu rất nhỏ, nhưng trong thực tế bạn sẽ sử dụng nhiều mẫu hơn. Có lẽ 1.000 là một điểm khởi đầu hợp lý.
Đối với các mô hình đơn cấp, chúng ta có thể thực hiện một mẫu ngẫu nhiên đơn giản với thay thế để bootstrapping. Với dữ liệu đa cấp, chúng ta muốn lấy mẫu lại theo cách tương tự như cơ chế tạo dữ liệu. Chúng ta bắt đầu bằng cách lấy mẫu lại từ cấp cao nhất, và sau đó bước xuống một cấp tại một thời điểm. Trong trường hợp của chúng ta, trước tiên chúng ta sẽ lấy mẫu từ các bác sĩ, và sau đó trong mỗi bác sĩ được lấy mẫu, chúng ta sẽ lấy mẫu từ bệnh nhân của họ. Để làm điều này, trước tiên chúng ta cần viết một hàm để lấy mẫu lại ở mỗi cấp độ.
Những kết quả này rất tuyệt vời để đưa vào bảng hoặc trong văn bản của một bản thảo nghiên cứu; tuy nhiên, các con số có thể khó giải thích. Các bản trình bày trực quan rất hữu ích để dễ dàng giải thích và cho các áp phích và bản trình bày. Khi các mô hình trở nên phức tạp hơn, có nhiều tùy chọn. Chúng ta sẽ thảo luận ngắn gọn về một số tùy chọn trong số đó và đưa ra một ví dụ về cách bạn có thể thực hiện một tùy chọn. Trong một mô hình logistic, kết quả thường ở một trong ba thang đo: Log odds (còn gọi là logits), là thang đo tuyến tính; Tỷ lệ cược (log odds lũy thừa), không nằm trên thang đo tuyến tính; Xác suất, cũng không nằm trên thang đo tuyến tính.
Đối với các bảng, mọi người thường trình bày tỷ lệ cược. Để trực quan hóa, thang đo logit hoặc xác suất là phổ biến nhất. Có một số ưu điểm và nhược điểm cho mỗi loại. Thang đo logit là thuận tiện vì nó được tuyến tính hóa, có nghĩa là một sự gia tăng 1 đơn vị trong một yếu tố dự đoán dẫn đến một sự gia tăng đơn vị hệ số trong kết quả và điều này đúng bất kể các cấp độ của các yếu tố dự đoán khác (đặt tương tác sang một bên tại thời điểm này). Một nhược điểm là thang đo không dễ diễn giải. Rất khó để độc giả có một sự hiểu biết trực quan về logits. Ngược lại, xác suất là một thang đo tốt để hiểu trực quan các kết quả; tuy nhiên, chúng không tuyến tính. Điều này có nghĩa là một sự gia tăng 1 đơn vị trong yếu tố dự đoán, không bằng một sự gia tăng không đổi trong xác suất—sự thay đổi trong xác suất phụ thuộc vào các giá trị được chọn cho các yếu tố dự đoán khác. Trong hồi quy logistic thông thường, bạn có thể chỉ cần giữ tất cả các yếu tố dự đoán không đổi, chỉ thay đổi yếu tố dự đoán mà bạn quan tâm.
Tuy nhiên, trong các mô hình logistic hiệu ứng hỗn hợp, các hiệu ứng ngẫu nhiên cũng có ảnh hưởng đến kết quả. Do đó, nếu bạn giữ mọi thứ không đổi, sự thay đổi trong xác suất của kết quả trên các giá trị khác nhau của yếu tố dự đoán mà bạn quan tâm chỉ đúng khi tất cả các hiệp biến được giữ không đổi và bạn đang ở trong cùng một nhóm, hoặc một nhóm có cùng hiệu ứng ngẫu nhiên. Các hiệu ứng có điều kiện đối với các yếu tố dự đoán khác và tư cách thành viên nhóm, điều này khá hạn hẹp. Một lựa chọn hấp dẫn là lấy xác suất biên trung bình. Đó là, trên tất cả các nhóm trong mẫu của chúng ta (mà chúng ta hy vọng là đại diện cho quần thể bạn quan tâm), hãy vẽ biểu đồ sự thay đổi trung bình trong xác suất của kết quả trên phạm vi của một số yếu tố dự đoán mà bạn quan tâm.
Chúng ta đã xem xét một mô hình logistic hai cấp với một chặn ngẫu nhiên một cách chi tiết. Đây là mô hình logistic hiệu ứng hỗn hợp đơn giản nhất có thể. Bây giờ chúng ta sẽ xem xét ngắn gọn cách bạn có thể thêm một cấp độ thứ ba và các hiệu ứng độ dốc ngẫu nhiên cũng như các chặn ngẫu nhiên.
Dưới đây chúng ta ước tính một mô hình logistic ba cấp với một chặn ngẫu nhiên cho các bác sĩ và một chặn ngẫu nhiên cho các bệnh viện. Trong các ví dụ này, các bác sĩ được lồng trong các bệnh viện, có nghĩa là mỗi bác sĩ thuộc về một và chỉ một bệnh viện. Trường hợp thay thế đôi khi được gọi là "phân loại chéo" có nghĩa là một bác sĩ có thể thuộc về nhiều bệnh viện, chẳng hạn như nếu một số bệnh nhân của bác sĩ đến từ bệnh viện A và những người khác từ bệnh viện B. Trong glmer bạn không cần chỉ định liệu các nhóm có được lồng nhau hay phân loại chéo, R có thể tìm ra dựa trên dữ liệu. Chúng ta sử dụng cùng một cú pháp chung (1 | ID) để chỉ ra chặn (1) thay đổi theo một số ID. Đối với các mô hình có nhiều hơn một hiệu ứng ngẫu nhiên vô hướng duy nhất, glmer chỉ hỗ trợ một điểm tích phân, vì vậy chúng ta sử dụng nAGQ=1.
Đầu ra cho chúng ta biết họ (binomial cho kết quả nhị phân) và liên kết (logit). Theo sau là các chỉ số phù hợp thông thường và phương sai của các hiệu ứng ngẫu nhiên. Trong trường hợp này, sự thay đổi trong chặn (trên thang đo log odds) giữa các bác sĩ và giữa các bệnh viện. Độ lệch chuẩn cũng được hiển thị (đơn giản chỉ là căn bậc hai của phương sai, không phải lỗi chuẩn của ước tính của phương sai). Chúng ta cũng nhận được số lượng đơn vị duy nhất ở mỗi cấp độ. Cuối cùng là các hiệu ứng cố định, như trước đây.
Việc diễn giải kết quả từ hồi quy logistic hiệu ứng hỗn hợp có thể phức tạp, vì vậy điều quan trọng là phải xem xét những điều sau:
Bằng cách xem xét cẩn thận những điều này, bạn có thể đảm bảo rằng bạn đang diễn giải chính xác kết quả từ mô hình hồi quy logistic hiệu ứng hỗn hợp của mình và đưa ra các kết luận có ý nghĩa từ dữ liệu của mình.
Bài viết liên quan