LÀM QUEN VỚI THƯ VIỆN PANDAS VÀ DATAFRAME
1.Pandas là gì?
Pandas là một thư viện Python cung cấp các cấu trúc dữ liệu nhanh, mạnh mẽ, linh hoạt. Pandas được thiết kế để làm việc dễ dàng và trực quan với dữ liệu có cấu trúc (dạng bảng, đa chiều, không đồng nhất) và dữ liệu chuỗi thời gian.
Vì sao bạn nên sử dụng Pandas?
Pandas rất phù hợp với nhiều loại dữ liệu khác nhau:
- Dữ liệu dạng bảng với các cột được nhập không đồng nhất, như trong bảng SQL hoặc bảng tính Excel.
- Dữ liệu chuỗi thời gian theo thứ tự và không có thứ tự (không nhất thiết phải có tần số cố định).
- Dữ liệu ma trận tùy ý (được nhập đồng nhất hoặc không đồng nhất) với nhãn hàng và cột.Bất kỳ hình thức khác của các bộ dữ liệu quan sát / thống kê.
- Dữ liệu thực sự không cần phải được dán nhãn vào cấu trúc dữ liệu pandas.Pandas được xây dựng dựa trên NumPy.
- Hai cấu trúc dữ liệu chính của pandas là Series (1 chiều) và DataFrame (2 chiều) xử lý được phần lớn các trường hợp điển hình trong tài chính, thống kê, khoa học xã hội và nhiều lĩnh vực kỹ thuật.
Ưu điểm của pandas:
- Dễ dàng xử lý dữ liệu mất mát, được biểu thị dưới dạng NaN, trong dữ liệu dấu phẩy động cũng như dấu phẩy tĩnh theo ý người dùng mong muốn: bỏ qua hoặc chuyển sang 0
- Khả năng thay đổi kích thước: các cột có thể được chèn và xóa khỏi DataFrame và các đối tượng chiều cao hơn
- Căn chỉnh dữ liệu tự động và rõ ràng: các đối tượng có thể được căn chỉnh rõ ràng với một bộ nhãn hoặc người dùng chỉ cần bỏ qua các nhãn và để Series, DataFrame, v.v. tự động căn chỉnh dữ liệu cho bạn trong các tính toán.
- Các công cụ IO mạnh mẽ để tải dữ liệu từ các tệp phẳng (flat file) như CSV và delimited, tệp Excel, cơ sở dữ liệu và lưu / tải dữ liệu từ định dạng HDF5 cực nhanh
- Gộp (merging) và nối (joining) các tập dữ liệu trực quan
2. Làm quen với Pandas và DataFrame
Chúng ta sẽ cũng phân tích một data hiểu hiểu rõ hơn về thư viện Pandas và các lệnh trong Pandas bằng Jupyter NoteBook.
Nếu bạn chưa biết cách sử dụng Jupyter Notebook hãy xem lại tại đây.
Bước 1: Thêm thư viện
Để sử dụng được thư viện các bạn sẽ phải thêm thư viện bằng lệnh “import”
Bước 2: Import Dataset
Pandas sẽ hỗ trợ bạn làm việc với nhiều định dạng khác nhau như: excel, csv, word,….
Để đọc file các bạn sẽ sử dụng các lệnh như bên dưới.
Sau khi đọc file chúng ta sẽ in kết quả ra màn hình bằng cách gõ tên DataFrame và Run
Và đây là kết quả sau khi ta chạy lệnh
Bước 3: Phân tích DataFrame với một số hàm cơ bản
Hàm head()
Để có thể hình dung được DataFrame một cách đơn giản các bạn có thể sử dụng hàm head()
Bạn có thể thay đổi số dòng bằng cách sử dụng lệnh .head kèm theo số dòng: .head(5), .head(7)
Hàm shape
shape giúp bạn lấy được số lượng hang và cột của DataFrame một cách nhanh chóng
Hàm columns
columns giúp các bạn lấy ra tên cột trong DataFrame, kết quả trả về sẽ là một danh sách
Hàm describe()
describe() là một lệnh giúp bạn nắm được các thông tin cơ bản của DataFrame. Max, min, … của từng cột
Hàm loc
loc là lệnh giúp bạn lấy ra được các hang tương ứng khi thỏa mãn được điều kiện và bạn có thể chỉ định cột trả về
loc[dieu kien,[ten_cac_cot]]
Ngoài ra các bạn có thể kết hợp nhiều kiện với nhau bằng cách sử dụng &(and) hoặc |(or)
Hàm iloc
iloc sẽ giúp các bạn lấy ra các hang trùng với số thứ tự được chỉnh định, bạn cũng có thể chỉ định các cột trả về tương tự với hàm loc
Hàm groupby
groupby sẽ giúp các bạn nhóm các hang có theo giá trị chỉ định
Hàm sort_values
sort_value giúp bạn sắp xếp lại các cột theo thứ tự tang hoặc giảm
Các bạn có thể chỉ định thú tự tang dần hoặc giảm dần qua việc thay đổi ascending = True/False
Để thêm một cột mới vào DataFrame hãy sử dụng hàm insert
Cuối cùng chúng ta sẽ xuất file
Sau khi xuất file, file mới sẽ được tạo ra cùng thư mục với Notebook của các bạn
Ngoài ra Python hỗ trợ các bạn xuất ra nhiều định dạng file khác nhau, dưới đây là một số file bạn có thể tham khảo
Trên đây là một số hàm cơ bản với Pandas. Chúc các bạn sẽ thực hiện thành công.
© 2021 CÔNG TY TNHH ERX VIỆT NAM
Địa chỉ văn phòng: 46/4 Nguyễn Cửu Vân, Phường 17, Quận Bình Thạnh, TP.HCM