Bạn có bao giờ tự hỏi tại sao việc loại bỏ hằng số trong một mô hình hồi quy tuyến tính lại có thể tạo ra những thay đổi đáng kể đến vậy? Từ việc biến mất cảnh báo đa cộng tuyến, đến sự nhảy vọt của R-squared, và sự thay đổi lớn trong thống kê F, ảnh hưởng của hằng số là vô cùng lớn. Bài viết này sẽ đi sâu vào các khía cạnh khác nhau để giải thích những hiện tượng này, giúp bạn hiểu rõ hơn về cách xây dựng và đánh giá mô hình hồi quy tuyến tính một cách chính xác.
Khi bạn loại bỏ hằng số (intercept) khỏi phương trình hồi quy (bằng cách chỉ định `- 1` trong công thức), bạn thực tế loại bỏ thành phần chặn từ mô hình. Điều này có nghĩa là các biến độc lập (ví dụ: `hsperc` và `sat` trong bộ dữ liệu GPA2) sẽ được căn chỉnh xung quanh gốc tọa độ (0,0). Việc căn chỉnh này làm giảm đa cộng tuyến giữa các biến độc lập, vì chúng không còn bị ràng buộc phải đi qua một điểm cố định (điểm chặn). Đó là lý do tại sao cảnh báo đa cộng tuyến biến mất khi bạn loại bỏ hằng số.
Trong mô hình hồi quy tuyến tính, đa cộng tuyến xảy ra khi có sự tương quan cao giữa hai hoặc nhiều biến độc lập. Điều này có thể gây khó khăn cho việc xác định ảnh hưởng riêng biệt của từng biến đối với biến phụ thuộc. Việc thêm hoặc loại bỏ hằng số có thể ảnh hưởng đến mức độ đa cộng tuyến, do đó tác động đến các hệ số hồi quy và độ tin cậy của mô hình.
R-squared và R-squared điều chỉnh là các thước đo đánh giá mức độ phù hợp của mô hình với dữ liệu. Khi bạn loại bỏ hằng số, về cơ bản bạn đang ép mô hình đi qua gốc tọa độ (0,0). Khi hằng số được bao gồm, mô hình có thể dịch chuyển lên hoặc xuống, dẫn đến một sự phù hợp khác. Trong trường hợp này, vì hằng số bị bỏ qua, mô hình bị buộc phải đi qua gốc tọa độ, và sự phù hợp thu được sẽ nắm bắt sự biến thiên của dữ liệu tốt hơn, dẫn đến giá trị R-squared và R-squared điều chỉnh cao hơn đáng kể.
Tuy nhiên, cần lưu ý rằng việc so sánh R-squared giữa mô hình có và không có hằng số có thể không hoàn toàn chính xác. Bởi vì, khi không có hằng số, tổng bình phương (total sum of squares) được tính toán khác, và do đó R-squared trở nên nhạy cảm hơn với các giá trị dự đoán gần gốc tọa độ.
Thống kê F là một thước đo sự ý nghĩa tổng thể của mô hình hồi quy. Khi hằng số bị bỏ qua, mô hình bị hạn chế phải đi qua gốc tọa độ, và mô hình đơn giản hơn này được so sánh với mô hình đầy đủ (có hằng số) bằng cách sử dụng thống kê F. Trong trường hợp của bạn, vì mô hình đơn giản hơn (không có hằng số) phù hợp với dữ liệu tốt hơn nhiều (như được chứng minh bằng các giá trị R-squared cao hơn), thống kê F trở nên lớn hơn nhiều, cho thấy một sự phù hợp tổng thể có ý nghĩa hơn.
Tuy nhiên, điều quan trọng là phải xem xét cẩn thận liệu việc loại bỏ hằng số có phù hợp với bản chất của dữ liệu và câu hỏi nghiên cứu hay không. Nếu mối quan hệ thực tế giữa các biến không bắt buộc phải đi qua gốc tọa độ, thì việc ép mô hình làm như vậy có thể dẫn đến kết quả sai lệch.
Liên quan đến hệ số phóng đại phương sai (VIF) cao cho hằng số, điều này có thể xảy ra nếu hằng số tương quan cao với một hoặc nhiều biến độc lập trong mô hình của bạn. Vì hằng số về bản chất là một cột các số một, nó có thể tương quan cao với các biến khác có giá trị tương đối lớn. Sự tương quan này có thể dẫn đến VIF cao cho hằng số, cho thấy đa cộng tuyến.
Điều này không phải lúc nào cũng là một vấn đề nghiêm trọng, nhưng nó có thể gây khó khăn cho việc giải thích ý nghĩa của hằng số. Trong một số trường hợp, việc chuẩn hóa hoặc căn chỉnh các biến độc lập có thể giúp giảm VIF cho hằng số.
Quyết định loại bỏ hằng số khỏi mô hình hồi quy tuyến tính nên dựa trên sự hiểu biết sâu sắc về dữ liệu và câu hỏi nghiên cứu. Dưới đây là một số tình huống có thể cân nhắc:
Tuy nhiên, trong hầu hết các trường hợp, việc bao gồm hằng số là một thực hành tốt, vì nó cho phép mô hình tự do tìm kiếm mức độ phù hợp tốt nhất với dữ liệu, ngay cả khi mối quan hệ không bắt buộc phải đi qua gốc tọa độ. Loại bỏ hằng số khi không cần thiết có thể dẫn đến kết quả sai lệch và giải thích sai lệch về tác động của các biến độc lập.
Bài viết liên quan