LÀM QUEN VỚI THƯ VIỆN PANDAS VÀ DATAFRAME

1.Pandas là gì?

Pandas là một thư viện Python cung cấp các cấu trúc dữ liệu nhanh, mạnh mẽ, linh hoạt. Pandas được thiết kế để làm việc dễ dàng và trực quan với dữ liệu có cấu trúc (dạng bảng, đa chiều, không đồng nhất) và dữ liệu chuỗi thời gian.

Vì sao bạn nên sử dụng Pandas?

Pandas rất phù hợp với nhiều loại dữ liệu khác nhau:

- Dữ liệu dạng bảng với các cột được nhập không đồng nhất, như trong bảng SQL hoặc bảng tính Excel.

- Dữ liệu chuỗi thời gian theo thứ tự và không có thứ tự (không nhất thiết phải có tần số cố định).

- Dữ liệu ma trận tùy ý (được nhập đồng nhất hoặc không đồng nhất) với nhãn hàng và cột.Bất kỳ hình thức khác của các bộ dữ liệu quan sát / thống kê.

- Dữ liệu thực sự không cần phải được dán nhãn vào cấu trúc dữ liệu pandas.Pandas được xây dựng dựa trên NumPy.

- Hai cấu trúc dữ liệu chính của pandas là Series (1 chiều) và DataFrame (2 chiều) xử lý được phần lớn các trường hợp điển hình trong tài chính, thống kê, khoa học xã hội và nhiều lĩnh vực kỹ thuật.

Ưu điểm của pandas:

- Dễ dàng xử lý dữ liệu mất mát, được biểu thị dưới dạng NaN, trong dữ liệu dấu phẩy động cũng như dấu phẩy tĩnh theo ý người dùng mong muốn: bỏ qua hoặc chuyển sang 0

- Khả năng thay đổi kích thước: các cột có thể được chèn và xóa khỏi DataFrame và các đối tượng chiều cao hơn

- Căn chỉnh dữ liệu tự động và rõ ràng: các đối tượng có thể được căn chỉnh rõ ràng với một bộ nhãn hoặc người dùng chỉ cần bỏ qua các nhãn và để Series, DataFrame, v.v. tự động căn chỉnh dữ liệu cho bạn trong các tính toán.

- Các công cụ IO mạnh mẽ để tải dữ liệu từ các tệp phẳng (flat file) như CSV và delimited, tệp Excel, cơ sở dữ liệu và lưu / tải dữ liệu từ định dạng HDF5 cực nhanh

- Gộp (merging) và nối (joining) các tập dữ liệu trực quan

2. Làm quen với Pandas và DataFrame

Chúng ta sẽ cũng phân tích  một data hiểu hiểu rõ hơn về thư viện Pandas và các lệnh trong Pandas bằng Jupyter NoteBook.

Nếu bạn chưa biết cách sử dụng Jupyter Notebook hãy xem lại tại đây.

Bước 1: Thêm thư viện

Để sử dụng được thư viện các bạn sẽ phải thêm thư viện bằng lệnh “import

Bước 2: Import Dataset

Pandas sẽ hỗ trợ bạn làm việc với nhiều định dạng khác nhau như: excel, csv, word,….

Để đọc file các bạn sẽ sử dụng các lệnh như bên dưới.

 Sau khi đọc file chúng ta sẽ in kết quả ra màn hình bằng cách gõ tên DataFrame và Run

Và đây là kết quả sau khi ta chạy lệnh

Bước 3: Phân tích DataFrame với một số hàm cơ bản

Hàm head()

Để có thể hình dung được DataFrame một cách đơn giản các bạn có thể sử dụng hàm head()

Bạn có thể thay đổi số dòng bằng cách sử dụng lệnh .head kèm theo số dòng: .head(5), .head(7)

Hàm shape

shape giúp bạn lấy được số lượng hang và cột của DataFrame một cách nhanh chóng

Hàm columns

columns giúp các bạn lấy ra tên cột trong DataFrame, kết quả trả về sẽ là một danh sách

Hàm describe()

describe() là một lệnh giúp bạn nắm được các thông tin cơ bản của DataFrame. Max, min, … của từng cột

 

Hàm loc

loc là lệnh giúp bạn lấy ra được các hang tương ứng khi thỏa mãn được điều kiện và bạn có thể chỉ định cột trả về

loc[dieu kien,[ten_cac_cot]]

Ngoài ra các bạn có thể kết hợp nhiều kiện với nhau bằng cách sử dụng &(and) hoặc |(or)

Hàm iloc

iloc sẽ giúp các bạn lấy ra các hang trùng với số thứ tự được chỉnh định, bạn cũng có thể chỉ định các cột trả về tương tự với hàm loc

Hàm groupby

groupby sẽ giúp các bạn nhóm các hang có theo giá trị chỉ định

Hàm sort_values

sort_value giúp bạn sắp xếp lại các cột theo thứ tự tang hoặc giảm

Các bạn có thể chỉ định thú tự tang dần hoặc giảm dần qua việc thay đổi ascending = True/False

Để thêm một cột mới vào DataFrame hãy sử dụng hàm insert

Cuối cùng chúng ta sẽ xuất file

Sau khi xuất file, file mới sẽ được tạo ra cùng thư mục với Notebook của các bạn

Ngoài ra Python hỗ trợ các bạn xuất ra nhiều định dạng file khác nhau, dưới đây là một số file bạn có thể tham khảo

Trên đây là một số hàm cơ bản với Pandas. Chúc các bạn sẽ thực hiện thành công.

 

 

 

 

 

 

 

 

 

 
 
Gọi (028) 3514 2046