Linear Regression Là Gì
Trong bài trước chúng ta đã bóc tách được dữ liệu và bài này chúng ta sẽ tiếp tục một bước rất quan trọng trong quy trình làm việc với khoa học dữ liệu đó là trực quan hóa dữ liệu thông qua các đồ thị và biểu đồ.
Bạn đang xem: Linear regression là gì
Trực quan hóa dữ liệu
Trực quan hóa dữ liệu là một bước cần thiết, với các đồ thị và biểu đồ chúng ta sẽ dễ dàng nhận ra các mối quan hệ giữa các thành phần hơn. Trong Python, chúng ta có một module là matplotlib được sử dụng để vẽ biểu đồ từ dữ liệu.
Chúng ta sẽ sử dụng một số chức năng trong matplotlib.pyplot để vẽ biểu đồ, để sử dụng thực hiện import module này:
import matplotlib.pyplot Chú ý, nếu sử dụng Jupyter, sau khi gõ code bấm tổ hợp Shift + Enter hoặc bấm vào nút Run để import module này và có thể sử dụng trong các cell ở dưới.
Tiếp theo, chúng ta thực hiện vẽ biểu đồ với dữ liệu và ngân sách và doanh thu phim đã được bóc tách trong bài trước:
matplotlib.pyplot.scatter(X, y)matplotlib.pyplot.show() Kết quả chúng ta có dữ liệu đã được vẽ lên trên đồ thị, tương ứng với một cặp (ngân sách, doanh thu) sẽ là một điểm trên đồ thị.
Xem thêm: Fed Là Gì? Cơ Cấu Tổ Chức Fed Là Gì? Những Điều Cần Biết Về Fed

Để bắt đầu tìm câu trả lời, chúng ta cùng xem hình dưới đây, đường thẳng đi qua tập hợp điểm và chúng ta thấy rằng có một độ dư, độ lệch giữa điểm thực tế và điểm trên đường thẳng.

Hồi quy tuyến tính - Linear Regression có câu trả lời là đường thẳng nào có các tổng các độ lệch bé nhất thì đó chính là đường thẳng tốt nhất. Nhưng do độ lệch này có thể có giá trị âm (ví dụ điểm thực tế nằm dưới đường thẳng), do đó chúng ta cần lấy bình phương của các độ lệch này, như vậy sẽ không còn giá trị âm và nó phản ánh đúng định hướng chúng ta cần.

Tóm lại công thức sẽ sử dụng cho Linear Regression là tìm các giá trị θ0 và θ1 sao cho tổng bình phương các độ lệch có giá trị thấp nhất.
Xem thêm: Top 10+ App Đào Coin Bằng Điện Thoại An Toàn Và Dễ Dàng Nhất

Kết luận
Lý thuyết Hồi quy tuyến tính dựa trên những ý tưởng hết sức cơ bản, nó đưa ra cách thức lựa chọn một phương án có tính tối ưu nhất, không phải tất cả các dự đoán dựa trên Hồi quy đều chính xác nhưng nó sẽ lựa chọn ra phương án tốt nhất. Trong bài tiếp theo, chúng ta sẽ áp dụng các lý thuyết này trong viết code Python để thực hiện vẽ ra đường thẳng thể hiện mối quan hệ giữa ngân sách và doanh thu.