Hồi Quy Logistic Hiệu Ứng Hỗn Hợp: Hướng Dẫn Chi Tiết và Diễn Giải Kết Quả

Bài viết này cung cấp hướng dẫn toàn diện về hồi quy logistic hiệu ứng hỗn hợp, một kỹ thuật mạnh mẽ để mô hình hóa dữ liệu nhị phân có cấu trúc phân cấp. Chúng ta sẽ khám phá cách diễn giải các hệ số, thực hiện bootstrapping để suy luận mạnh mẽ hơn, và trực quan hóa kết quả để hiểu rõ hơn về dữ liệu của bạn. Nếu bạn đang làm việc với dữ liệu có cấu trúc nhóm và muốn dự đoán kết quả nhị phân, bài viết này là dành cho bạn.

Giới Thiệu về Hồi Quy Logistic Hiệu Ứng Hỗn Hợp

Hồi quy logistic hiệu ứng hỗn hợp là một phương pháp thống kê được sử dụng để mô hình hóa các biến kết quả nhị phân khi dữ liệu được nhóm hoặc có cả hiệu ứng cố định và hiệu ứng ngẫu nhiên. Điều này có nghĩa là chúng ta có thể xem xét cả các yếu tố ảnh hưởng đến tất cả các nhóm (hiệu ứng cố định) và các biến thể giữa các nhóm (hiệu ứng ngẫu nhiên). Ví dụ, chúng ta có thể sử dụng hồi quy logistic hiệu ứng hỗn hợp để nghiên cứu các yếu tố dự đoán sự thành công của sinh viên trong các trường khác nhau, hoặc để xác định các yếu tố liên quan đến việc thuyên giảm ung thư phổi ở bệnh nhân được điều trị bởi các bác sĩ khác nhau trong các bệnh viện khác nhau.

Kỹ thuật này đặc biệt hữu ích khi làm việc với dữ liệu có cấu trúc phân cấp, trong đó các quan sát không độc lập với nhau. Ví dụ, dữ liệu có thể được nhóm theo bệnh nhân, bác sĩ hoặc bệnh viện. Bằng cách sử dụng hồi quy logistic hiệu ứng hỗn hợp, chúng ta có thể kiểm soát sự phụ thuộc này và có được các ước tính chính xác hơn về ảnh hưởng của các biến dự đoán. Điều này giúp đưa ra các quyết định sáng suốt hơn và hiểu sâu hơn về các yếu tố ảnh hưởng đến kết quả mong muốn. Nó còn giúp ta giải quyết bài toán hồi quy logistic đa cấp thường gặp trong phân tích dữ liệu.

Ví Dụ Thực Tế về Hồi Quy Logistic Hiệu Ứng Hỗn Hợp

Để minh họa việc sử dụng hồi quy logistic hiệu ứng hỗn hợp, hãy xem xét một vài ví dụ:

Ví dụ 1: Một nhà nghiên cứu lấy mẫu đơn xin nhập học vào 40 trường cao đẳng khác nhau để nghiên cứu các yếu tố dự đoán việc được nhận vào đại học. Các yếu tố dự đoán bao gồm điểm trung bình học bạ ở trường trung học, các hoạt động ngoại khóa và điểm SAT của học sinh. Một số trường chọn lọc nhiều hơn hoặc ít hơn, vì vậy xác suất cơ bản được nhận vào mỗi trường là khác nhau. Các yếu tố dự đoán cấp trường bao gồm việc trường là công lập hay tư thục, tỷ lệ học sinh-giáo viên hiện tại và xếp hạng của trường.
Ví dụ 2: Một HMO lớn muốn biết những yếu tố nào liên quan nhất đến việc ung thư phổi của bệnh nhân thuyên giảm sau khi điều trị như một phần của một nghiên cứu lớn hơn về kết quả điều trị và chất lượng cuộc sống ở bệnh nhân mắc bệnh ung thư phổi.
Ví dụ 3: Một đài truyền hình muốn biết thời gian và các chiến dịch quảng cáo ảnh hưởng như thế nào đến việc mọi người xem một chương trình truyền hình. Họ lấy mẫu người từ bốn thành phố trong sáu tháng. Mỗi tháng, họ hỏi liệu những người này đã xem một chương trình cụ thể hay chưa trong tuần qua. Sau ba tháng, họ giới thiệu một chiến dịch quảng cáo mới ở hai trong số bốn thành phố và tiếp tục theo dõi liệu mọi người có xem chương trình hay không.

Các ví dụ trên cho thấy tính linh hoạt của hồi quy logistic hiệu ứng hỗn hợp trong việc giải quyết các câu hỏi nghiên cứu khác nhau trong các lĩnh vực khác nhau. Bằng cách kết hợp hiệu ứng cố định và hiệu ứng ngẫu nhiên, các mô hình này cho phép các nhà nghiên cứu hiểu rõ hơn về các mối quan hệ phức tạp và đưa ra các dự đoán chính xác hơn.

Phân Tích Dữ Liệu và Trực Quan Hóa

Để minh họa cách sử dụng hồi quy logistic hiệu ứng hỗn hợp trong thực tế, chúng ta sẽ sử dụng một tập dữ liệu mô phỏng về ung thư phổi. Tập dữ liệu này chứa nhiều kết quả khác nhau được thu thập trên bệnh nhân, được lồng trong các bác sĩ, đến lượt họ lại được lồng trong các bệnh viện. Chúng ta cũng sẽ sử dụng một vài biến cấp bác sĩ, chẳng hạn như Kinh nghiệm, trong ví dụ của mình.

Việc trực quan hóa dữ liệu là vô cùng quan trọng để hiểu rõ hơn về phân phối, phát hiện lỗi mã hóa và nắm bắt mối quan hệ giữa các biến. Ví dụ: chúng ta có thể nhận thấy rằng hai yếu tố dự đoán có tương quan cao và quyết định chỉ đưa một yếu tố vào mô hình, hoặc chúng ta có thể ghi nhận một mối quan hệ cong giữa hai biến. Trực quan hóa dữ liệu là một cách nhanh chóng và trực quan để kiểm tra tất cả những điều này cùng một lúc.

Dưới đây là một số kỹ thuật trực quan hóa mà chúng ta có thể sử dụng:

Biểu đồ phân tán theo cặp: Để khám phá mối quan hệ tuyến tính giữa các yếu tố dự đoán liên tục.
Biểu đồ bong bóng: Để kiểm tra sự liên kết giữa các biến phân loại và các yếu tố dự đoán rời rạc.
Biểu đồ violin: Để hình dung sự phân phối của các biến liên tục theo các cấp độ của biến phân loại.
Biểu đồ hộp: Để so sánh sự phân phối của các biến liên tục ở mỗi cấp độ của kết quả nhị phân.

Các Phương Pháp Phân Tích Khác Nên Cân Nhắc

Trước khi đi sâu vào hồi quy logistic hiệu ứng hỗn hợp, hãy xem xét các phương pháp phân tích thay thế mà bạn có thể đã cân nhắc:

Hồi quy probit hiệu ứng hỗn hợp: Rất giống với hồi quy logistic hiệu ứng hỗn hợp, nhưng sử dụng CDF chuẩn thay vì CDF logistic.
Hồi quy logistic hiệu ứng cố định: Bị giới hạn trong trường hợp này vì nó có thể bỏ qua các hiệu ứng ngẫu nhiên cần thiết và/hoặc không độc lập trong dữ liệu.
Hồi quy probit hiệu ứng cố định: Tương tự như hồi quy logistic hiệu ứng cố định, nhưng có thể bỏ qua các hiệu ứng ngẫu nhiên cần thiết và/hoặc không độc lập trong dữ liệu.
Hồi quy logistic với các lỗi chuẩn được nhóm: Có thể điều chỉnh cho sự không độc lập nhưng không cho phép các hiệu ứng ngẫu nhiên.
Hồi quy probit với các lỗi chuẩn được nhóm: Tương tự như hồi quy logistic với các lỗi chuẩn được nhóm, nhưng sử dụng CDF chuẩn.

Bằng cách xem xét các phương pháp phân tích khác này, bạn có thể chọn phương pháp phù hợp nhất để trả lời câu hỏi nghiên cứu của mình và giải quyết các đặc điểm cụ thể của dữ liệu của bạn.

Ước Tính Mô Hình và Diễn Giải Kết Quả

Để ước tính mô hình hồi quy logistic hiệu ứng hỗn hợp, chúng ta có thể sử dụng lệnh glmer trong gói lme4. Lệnh này cho phép chúng ta chỉ định cả các yếu tố dự đoán cấp bệnh nhân và cấp bác sĩ, cũng như chặn ngẫu nhiên theo ID bác sĩ.

Ước tính và diễn giải các mô hình hỗn hợp tuyến tính tổng quát (GLMM), trong đó hồi quy logistic hiệu ứng hỗn hợp là một trong số đó, có thể khá khó khăn. Nếu bạn chỉ mới bắt đầu, chúng tôi khuyên bạn nên đọc trang này trước: Giới thiệu về GLMM. Nó bao gồm một số kiến thức nền tảng và lý thuyết cũng như các tùy chọn ước tính, suy luận và cạm bẫy một cách chi tiết hơn.

Sau khi ước tính mô hình, chúng ta có thể in kết quả mà không có mối tương quan giữa các hiệu ứng cố định để có được cái nhìn tổng quan rõ ràng về các ước tính hệ số. Phần đầu tiên của kết quả cho chúng ta biết rằng các ước tính dựa trên một phép tính gần đúng Gaussian Hermite thích ứng của khả năng xảy ra. Cụ thể chúng tôi đã sử dụng 10 điểm tích phân. Khi chúng tôi sử dụng nhiều điểm tích phân hơn, phép tính gần đúng sẽ trở nên chính xác hơn hội tụ về các ước tính ML; tuy nhiên, nhiều điểm hơn đòi hỏi tính toán nhiều hơn và có thể cực kỳ chậm hoặc thậm chí không thể giải quyết được với công nghệ ngày nay. Để tránh cảnh báo về sự không hội tụ, chúng ta chỉ định một bộ tối ưu hóa khác bằng đối số control=glmerControl(optimizer="bobyqa"). Mặc dù mô hình sẽ tạo ra các kết quả gần như giống hệt nhau mà không có đối số mới, nhưng chúng tôi thích sử dụng các mô hình không có các cảnh báo như vậy.

Phần tiếp theo cung cấp cho chúng ta thông tin cơ bản có thể được sử dụng để so sánh các mô hình, sau đó là các ước tính hiệu ứng ngẫu nhiên. Điều này đại diện cho sự thay đổi ước tính trong chặn trên thang đo logit. Nếu có các hiệu ứng ngẫu nhiên khác, chẳng hạn như độ dốc ngẫu nhiên, chúng cũng sẽ xuất hiện ở đây. Phần trên cùng kết thúc bằng tổng số quan sát và số lượng quan sát cấp 2. Trong trường hợp của chúng tôi, điều này bao gồm tổng số bệnh nhân (8.525) và bác sĩ (407).

Phần cuối cùng là một bảng các ước tính hiệu ứng cố định. Đối với nhiều ứng dụng, đây là những gì mọi người chủ yếu quan tâm. Các ước tính đại diện cho các hệ số hồi quy. Chúng không được chuẩn hóa và nằm trên thang đo logit. Các ước tính được theo sau bởi các lỗi chuẩn (SE). Như thường thấy trong GLM, SE có được bằng cách đảo ngược ma trận thông tin quan sát được (ma trận đạo hàm bậc hai âm). Tuy nhiên, đối với GLMM, đây lại là một phép tính gần đúng. Các phép tính gần đúng của các ước tính hệ số có khả năng ổn định nhanh hơn so với các ước tính cho SE. Do đó, nếu bạn sử dụng ít điểm tích phân hơn, các ước tính có thể hợp lý, nhưng phép tính gần đúng của SE có thể kém chính xác hơn. Các bài kiểm tra Wald, (frac{Ước tính}{SE}), dựa trên lý thuyết tiệm cận, ở đây đề cập đến khi kích thước đơn vị cấp cao nhất hội tụ về vô cực, các bài kiểm tra này sẽ được phân phối bình thường và từ đó, các giá trị p (xác suất thu được ước tính quan sát được hoặc cực đoan hơn, với ước tính thực là 0).

Bootstrapping Đa Cấp

Suy luận từ GLMM rất phức tạp. Ngoại trừ các trường hợp có nhiều quan sát ở mỗi cấp độ (đặc biệt là cấp cao nhất), việc giả định rằng (frac{Ước tính}{SE}) được phân phối bình thường có thể không chính xác. Nhiều lựa chọn thay thế đã được đề xuất bao gồm mô phỏng Monte Carlo, ước tính Bayesian và bootstrapping. Mỗi điều này có thể phức tạp để thực hiện. Chúng ta sẽ tập trung vào một ví dụ bootstrapping nhỏ. Bootstrapping là một phương pháp lấy mẫu lại. Nó không hoàn hảo bằng bất kỳ phương tiện nào, nhưng nó là trực quan đơn giản và dễ thực hiện trong mã. Một nhược điểm là nó đòi hỏi tính toán. Đối với các tập dữ liệu lớn hoặc các mô hình phức tạp, nơi mỗi mô hình mất vài phút để chạy, ước tính trên hàng ngàn mẫu bootstrap có thể dễ dàng mất hàng giờ hoặc hàng ngày. Trong ví dụ cho trang này, chúng ta sử dụng một số lượng mẫu rất nhỏ, nhưng trong thực tế bạn sẽ sử dụng nhiều mẫu hơn. Có lẽ 1.000 là một điểm khởi đầu hợp lý.

Đối với các mô hình đơn cấp, chúng ta có thể thực hiện một mẫu ngẫu nhiên đơn giản với thay thế để bootstrapping. Với dữ liệu đa cấp, chúng ta muốn lấy mẫu lại theo cách tương tự như cơ chế tạo dữ liệu. Chúng ta bắt đầu bằng cách lấy mẫu lại từ cấp cao nhất, và sau đó bước xuống một cấp tại một thời điểm. Trong trường hợp của chúng ta, trước tiên chúng ta sẽ lấy mẫu từ các bác sĩ, và sau đó trong mỗi bác sĩ được lấy mẫu, chúng ta sẽ lấy mẫu từ bệnh nhân của họ. Để làm điều này, trước tiên chúng ta cần viết một hàm để lấy mẫu lại ở mỗi cấp độ.

Xác Suất Dự Đoán và Đồ Thị

Những kết quả này rất tuyệt vời để đưa vào bảng hoặc trong văn bản của một bản thảo nghiên cứu; tuy nhiên, các con số có thể khó giải thích. Các bản trình bày trực quan rất hữu ích để dễ dàng giải thích và cho các áp phích và bản trình bày. Khi các mô hình trở nên phức tạp hơn, có nhiều tùy chọn. Chúng ta sẽ thảo luận ngắn gọn về một số tùy chọn trong số đó và đưa ra một ví dụ về cách bạn có thể thực hiện một tùy chọn. Trong một mô hình logistic, kết quả thường ở một trong ba thang đo: Log odds (còn gọi là logits), là thang đo tuyến tính; Tỷ lệ cược (log odds lũy thừa), không nằm trên thang đo tuyến tính; Xác suất, cũng không nằm trên thang đo tuyến tính.

Đối với các bảng, mọi người thường trình bày tỷ lệ cược. Để trực quan hóa, thang đo logit hoặc xác suất là phổ biến nhất. Có một số ưu điểm và nhược điểm cho mỗi loại. Thang đo logit là thuận tiện vì nó được tuyến tính hóa, có nghĩa là một sự gia tăng 1 đơn vị trong một yếu tố dự đoán dẫn đến một sự gia tăng đơn vị hệ số trong kết quả và điều này đúng bất kể các cấp độ của các yếu tố dự đoán khác (đặt tương tác sang một bên tại thời điểm này). Một nhược điểm là thang đo không dễ diễn giải. Rất khó để độc giả có một sự hiểu biết trực quan về logits. Ngược lại, xác suất là một thang đo tốt để hiểu trực quan các kết quả; tuy nhiên, chúng không tuyến tính. Điều này có nghĩa là một sự gia tăng 1 đơn vị trong yếu tố dự đoán, không bằng một sự gia tăng không đổi trong xác suất—sự thay đổi trong xác suất phụ thuộc vào các giá trị được chọn cho các yếu tố dự đoán khác. Trong hồi quy logistic thông thường, bạn có thể chỉ cần giữ tất cả các yếu tố dự đoán không đổi, chỉ thay đổi yếu tố dự đoán mà bạn quan tâm.

Tuy nhiên, trong các mô hình logistic hiệu ứng hỗn hợp, các hiệu ứng ngẫu nhiên cũng có ảnh hưởng đến kết quả. Do đó, nếu bạn giữ mọi thứ không đổi, sự thay đổi trong xác suất của kết quả trên các giá trị khác nhau của yếu tố dự đoán mà bạn quan tâm chỉ đúng khi tất cả các hiệp biến được giữ không đổi và bạn đang ở trong cùng một nhóm, hoặc một nhóm có cùng hiệu ứng ngẫu nhiên. Các hiệu ứng có điều kiện đối với các yếu tố dự đoán khác và tư cách thành viên nhóm, điều này khá hạn hẹp. Một lựa chọn hấp dẫn là lấy xác suất biên trung bình. Đó là, trên tất cả các nhóm trong mẫu của chúng ta (mà chúng ta hy vọng là đại diện cho quần thể bạn quan tâm), hãy vẽ biểu đồ sự thay đổi trung bình trong xác suất của kết quả trên phạm vi của một số yếu tố dự đoán mà bạn quan tâm.

Hồi Quy Logistic Hiệu Ứng Hỗn Hợp Ba Cấp

Chúng ta đã xem xét một mô hình logistic hai cấp với một chặn ngẫu nhiên một cách chi tiết. Đây là mô hình logistic hiệu ứng hỗn hợp đơn giản nhất có thể. Bây giờ chúng ta sẽ xem xét ngắn gọn cách bạn có thể thêm một cấp độ thứ ba và các hiệu ứng độ dốc ngẫu nhiên cũng như các chặn ngẫu nhiên.

Dưới đây chúng ta ước tính một mô hình logistic ba cấp với một chặn ngẫu nhiên cho các bác sĩ và một chặn ngẫu nhiên cho các bệnh viện. Trong các ví dụ này, các bác sĩ được lồng trong các bệnh viện, có nghĩa là mỗi bác sĩ thuộc về một và chỉ một bệnh viện. Trường hợp thay thế đôi khi được gọi là "phân loại chéo" có nghĩa là một bác sĩ có thể thuộc về nhiều bệnh viện, chẳng hạn như nếu một số bệnh nhân của bác sĩ đến từ bệnh viện A và những người khác từ bệnh viện B. Trong glmer bạn không cần chỉ định liệu các nhóm có được lồng nhau hay phân loại chéo, R có thể tìm ra dựa trên dữ liệu. Chúng ta sử dụng cùng một cú pháp chung (1 | ID) để chỉ ra chặn (1) thay đổi theo một số ID. Đối với các mô hình có nhiều hơn một hiệu ứng ngẫu nhiên vô hướng duy nhất, glmer chỉ hỗ trợ một điểm tích phân, vì vậy chúng ta sử dụng nAGQ=1.

Đầu ra cho chúng ta biết họ (binomial cho kết quả nhị phân) và liên kết (logit). Theo sau là các chỉ số phù hợp thông thường và phương sai của các hiệu ứng ngẫu nhiên. Trong trường hợp này, sự thay đổi trong chặn (trên thang đo log odds) giữa các bác sĩ và giữa các bệnh viện. Độ lệch chuẩn cũng được hiển thị (đơn giản chỉ là căn bậc hai của phương sai, không phải lỗi chuẩn của ước tính của phương sai). Chúng ta cũng nhận được số lượng đơn vị duy nhất ở mỗi cấp độ. Cuối cùng là các hiệu ứng cố định, như trước đây.

Những Điều Cần Cân Nhắc

Việc diễn giải kết quả từ hồi quy logistic hiệu ứng hỗn hợp có thể phức tạp, vì vậy điều quan trọng là phải xem xét những điều sau:

Diễn giải các hệ số: Các ước tính đại diện cho các hệ số hồi quy trên thang đo logit.
Suy luận đa cấp: Các kiểm tra Wald có thể không chính xác khi có ít quan sát ở mỗi cấp độ, vì vậy hãy cân nhắc các lựa chọn thay thế như mô phỏng Monte Carlo hoặc bootstrapping.
Xác suất dự đoán và đồ thị: Trình bày trực quan có thể giúp diễn giải và truyền đạt kết quả một cách hiệu quả.

Bằng cách xem xét cẩn thận những điều này, bạn có thể đảm bảo rằng bạn đang diễn giải chính xác kết quả từ mô hình hồi quy logistic hiệu ứng hỗn hợp của mình và đưa ra các kết luận có ý nghĩa từ dữ liệu của mình.

Hồi Quy Logistic Hiệu Ứng Hỗn Hợp: Hướng Dẫn Chi Tiết và Diễn Giải Kết Quả

Giới Thiệu về Hồi Quy Logistic Hiệu Ứng Hỗn Hợp

Ví Dụ Thực Tế về Hồi Quy Logistic Hiệu Ứng Hỗn Hợp

Phân Tích Dữ Liệu và Trực Quan Hóa

Các Phương Pháp Phân Tích Khác Nên Cân Nhắc

Ước Tính Mô Hình và Diễn Giải Kết Quả

Bootstrapping Đa Cấp

Xác Suất Dự Đoán và Đồ Thị

Hồi Quy Logistic Hiệu Ứng Hỗn Hợp Ba Cấp

Những Điều Cần Cân Nhắc

Xử lý lỗi chia cho 0 trong Python với NumPy: Trả về 0 thay vì Inf

Chạy Apple Service Diagnostic từ USB: Hướng dẫn chi tiết và khắc phục sự cố

Tính Tương Đương của Chương Trình: Biến Đổi và Tối Ưu Hóa trong Imp

Strong Sphaleron: Tìm hiểu sâu về Ứng dụng và Cơ chế

Khắc phục tiếng kêu lạ từ trục giữa xe đạp: Hướng dẫn chi tiết từ A-Z

Căn Chỉnh Phương Trình Toán Học Phức Tạp Trong LaTeX Với amsmath: Hướng Dẫn Chi Tiết