Trong bài viết này, Luận Văn 2S sẽ đi sâu vào tìm hiểu vấn đề đa cộng tuyến là gì, làm thế nào để xác định đa cộng tuyến, tại sao đa cộng tuyến chính là một vấn đề và bạn có thể làm gì để khắc phục nó. Cùng bắt đầu nhé!
Đa cộng tuyến (Multicollinearity) là hiện tượng thường xảy ra khi mối tương quan cao giữa hai hay nhiều biến độc lập trong mô hình hồi quy. Nói cách khác, một biến độc lập có thể sử dụng để dự đoán một biến độc lập khác. Khi biến độc lập A tặng thì biến độc lập B tăng và ngược lại A giảm thì B cũng giảm. Điều này sẽ dẫn đến việc tạo ra các thông tin dư thừa, làm sai lệch kết quả của mô hình hồi quy đa biến. Hiện tượng đa cộng tuyến vi phạm giả định của mô hình hồi quy tuyến tính là các biến độc lập không có mối quan hệ tuyến tính với nhau.
Một số ví dụ về cặp biến độc lập có sự tương quan như: Chiều cao và cân nặng của một người, tuổi và giá bán của một chiếc xe, số năm kinh nghiệm và thu nhập hàng năm của người lao động...
Khái niệm về đa cộng tuyến
Mục đích chính của phân tích hồi quy là xác định mối quan hệ tương quan giữa từng biến độc lập và biến phụ thuộc. Giải thích hệ số hồi quy là đại diện cho sự thay đổi trung bình của biến phụ thuộc cho mỗi một đơn vị thay đổi trong một biến độc lập khi bạn giữ tất cả các biến độc lập khác không đổi. Tuy nhiên, khi các biến độc lập có sự tương tương quan, các biến độc lập có xu hướng thay đổi đồng nhất. Sự thay đổi trong một biến sẽ liên kết làm thay đổi một biến khác. Mối tương quan càng mạnh thì càng khó thay đổi một biến mà không thay đổi một biến khác. Mô hình trở nên khó khăn trong việc ước tính mối quan hệ giữa từng biến độc lập và biến phụ thuộc một cách độc lập: Gia tăng sai số chuẩn của các hệ số, khoảng tin cậy lớn và kiểm định t ít ý nghĩa. Các ước lượng trong phân tích hồi quy không thật chính xác.
Để nhận biết hiện tượng đa cộng tuyến, ta có thể áp dụng một thử nghiệm rất đơn giản đó chính là dựa vào hệ số phóng đại phương sai VIF (Variance inflation factor) để xác định mối tương quan giữa các biến độc lập và sức mạnh của mối tương quan đó.
Giá trị VIF bắt đầu từ 1 và không có giới hạn trên. Giá trị VIF trong khoảng từ 1-2 chỉ ra rằng không có mối tương quan giữa biến độc lập này và bất kỳ biến nào khác. VIF giữa 2 và 5 cho thấy rằng có một mối tương quan vừa phải, nhưng nó không đủ nghiêm trọng để người nghiên cứu phải tìm biện pháp khắc phục. VIF lớn hơn 5 đại diện cho mối tương quan cao, hệ số được ước tính kém và các giá trị p - values là đáng nghi ngờ. VIF > 10 thì chắc chắn có đa cộng tuyến.
Hầu hết các phần mềm thống kê có thể hiển thị kết quả kiểm định VIF cho bạn. Đánh giá VIF đặc biệt quan trọng đối với các nghiên cứu quan sát vì những nghiên cứu này dễ bị đa hình. Dưới đây sẽ là các bước thực hiện kiểm định đa cộng tuyến trong SPSS dựa vào hệ số phóng đại phương sai VIF:
Khi thực hiện hồi quy đa biến, ta nhấn chọn nút Statistics > check vào ô Collinearity diagnostics.
Kiểm định hệ số phóng đại phương sai VFI trong SPSS
Sau khi thực hiện xong các thao tác phân tích hồi quy trong SPSS, ta sẽ được bảng Coefficients. Tại bảng này, chúng ta chú ý đến các giá trị trong cột VIF.
Kết quả bảng Coefficients
Trong kết quả phân tích hồi quy, nhìn vào bảng Model Summary, nếu Hệ số tương quan (R2 hay R Square) cao (trên 0.8) và thống kê t trong bảng Coefficients thấp. Tuy nhiên, thông thường phương pháp này ít được sử dụng vì nó mang phán đoán chủ quan hơn là công thức khoa học.
Bạn có thể xây dựng ma trận tương quan với nền màu gradient và xem cách dữ liệu tương quan với nhau. Thang đo này sẽ từ 0-1 và thể hiện sự tương quan hoàn hảo.
Khi dữ liệu của bạn xảy ra đa cộng tuyến, bạn có thể thử áp dụng một số phương pháp dưới đây. Nhưng hãy lưu ý rằng, mỗi phương pháp đều có một số nhược điểm nhất định. Bạn sẽ cần sử dụng kiến thức và các yếu tố trong mục tiêu của nghiên cứu để phỏng đoán đúng nguyên nhân và chọn giải pháp tốt nhất. Các giải pháp tiềm năng bao gồm:
Trên đây, Luận Văn 2S đã nên ra cho bạn đọc hiểu rõ về khái niệm đa cộng tuyến, nguyên nhân, hậu quả và một số biện pháp phát hiện, khắc phục. Tuy nhiên, không thể phủ nhận rằng, đây là một tình huống này thực sự rất khó để giải quyết. Trong quá trình xử lý, nếu như bạn cần đến sự tư vấn, giúp đỡ hãy liên hệ với dịch vụ phân tích định lượng, hỗ trợ SPSS của chúng tôi nhé!
Hà Nội: Tòa nhà Detech Tower - Số 8 Tôn Thất Thuyết, Mỹ Đình, Nam Từ Liêm, Hà Nội.
Đà Nẵng: Toà nhà Thành Lợi 2 - Số 3 Lê Đình Lý, Thạc Gián, Thanh Khê, Đà Nẵng.
Hồ Chí Minh: Tòa nhà Hải Hà - 217 Đường Nguyễn Văn Thủ, Đa Kao, Quận 1, Hồ Chí Minh.
Cần Thơ: Ba Tháng Hai, Xuân Khánh, Ninh Kiều, Cần Thơ.
Hotline: 0976 632 554
Email: 2sluanvan@gmail.com