Linear Regression (hồi quy tuyến tính)
Linear Regression (hồi quy tuyến tính) là một trong những thuật toán đơn giản và phổ biến nhất trong Machine Learning, được sử dụng để mô hình hóa mối quan hệ giữa biến đầu vào (independent variables hay features) và biến đầu ra (dependent variable hay target).
Mô hình cơ bản của Linear Regression:
Mô hình hồi quy tuyến tính cố gắng tìm một hàm số tuyến tính để dự đoán giá trị đầu ra dựa trên đầu vào:
Trong đó:
- : Giá trị đầu ra dự đoán (target).
- : Vector đặc trưng (features) đầu vào.
- : Vector trọng số (weights) mà mô hình học được.
- : Bias (độ lệch), điều chỉnh dự đoán của mô hình.
1. Linear Regression đơn biến (Simple Linear Regression)
Nếu mô hình chỉ có một biến đầu vào, thì mô hình được gọi là Simple Linear Regression và có dạng:
- : Trọng số hoặc hệ số góc (slope) của đường thẳng.
- : Biến đầu vào (feature).
- : Bias, còn gọi là hệ số cắt (intercept), là giá trị của khi .
Mục tiêu là tìm được và sao cho đường thẳng là tốt nhất để dự đoán giá trị dựa trên giá trị .
2. Linear Regression đa biến (Multiple Linear Regression)
Khi có nhiều biến đầu vào (nhiều features), mô hình có dạng tổng quát hơn:
Hoặc viết dưới dạng vector:
- : Vector trọng số cho các biến đầu vào.
- : Vector đầu vào (features).
- : Bias.
Mục tiêu là tối ưu hóa và để dự đoán dựa trên tập hợp các đặc trưng .
3. Hàm mất mát (Loss Function)
Trong hồi quy tuyến tính, hàm mất mát phổ biến là Mean Squared Error (MSE), giúp đo lường sự khác biệt giữa giá trị dự đoán và giá trị thực :
Trong đó:
- : Giá trị thực tế.
- : Giá trị dự đoán bởi mô hình.
- : Số lượng mẫu.
Mục tiêu của hồi quy tuyến tính là tìm các giá trị của và sao cho hàm mất mát MSE được tối thiểu hóa.
Để tìm các trọng số và bias sao cho hàm mất mát là nhỏ nhất, ta có thể sử dụng các phép toán đại số để tìm cực tiểu của hàm này.
a. Chuyển đổi về Dạng Ma Trận
Giả sử ta có mẫu dữ liệu, ta có thể biểu diễn tập dữ liệu dưới dạng ma trận:
- Ma trận đặc trưng có kích thước (với là số lượng đặc trưng).
- Vector mục tiêu có kích thước .
Ta có thể mở rộng mô hình để bao gồm bias bằng cách thêm một cột các giá trị 1 vào ma trận :
Và trọng số sẽ là bao gồm cả .
b. Tính Đạo Hàm
- Để tối thiểu hóa hàm mất mát, ta tính đạo hàm theo trọng số và đặt nó bằng 0:
c. Giải Đạo Hàm
- Giải phương trình trên để tìm trọng số:
- Sau đó, nếu ma trận khả nghịch (invertible), ta có:
* Điều kiện
Phương trình này hoạt động hiệu quả khi:
- Ma trận là khả nghịch, tức là nó không có các đặc trưng tuyến tính (các cột của ma trận phải độc lập tuyến tính).
- Dữ liệu không bị phân tán quá mức và mô hình hồi quy tuyến tính là phù hợp với tập dữ liệu.
4. Ứng dụng của Linear Regression
Linear Regression được sử dụng rộng rãi trong nhiều bài toán dự đoán, ví dụ:
- Dự đoán giá nhà dựa trên các yếu tố như diện tích, số phòng, vị trí.
- Dự đoán doanh thu bán hàng dựa trên chi tiêu quảng cáo, giá sản phẩm, mùa vụ.
- Phân tích xu hướng: Dự đoán xu hướng trong tương lai từ các dữ liệu quá khứ như thời tiết, tài chính, v.v.
No comments yet.