 sql >> Cơ Sở Dữ Liệu >  >> RDS >> Database

Gấu trúc:Cách đọc và ghi tệp

Xem ngay Hướng dẫn này có một khóa học video liên quan được tạo bởi nhóm Real Python. Xem nó cùng với hướng dẫn bằng văn bản để hiểu sâu hơn của bạn: Đọc và ghi tệp với gấu trúc

Gấu trúc là một gói Python mạnh mẽ và linh hoạt cho phép bạn làm việc với dữ liệu chuỗi thời gian và có nhãn. Nó cũng cung cấp các phương pháp thống kê, cho phép vẽ biểu đồ và hơn thế nữa. Một tính năng quan trọng của Pandas là khả năng viết và đọc Excel, CSV và nhiều loại tệp khác. Các chức năng như Pandas read_csv() cho phép bạn làm việc với các tệp một cách hiệu quả. Bạn có thể sử dụng chúng để lưu dữ liệu và nhãn từ các đối tượng Pandas vào một tệp và tải chúng sau này dưới dạng Pandas Series hoặc DataFrame phiên bản.

Trong hướng dẫn này, bạn sẽ học:

  • Công cụ IO của gấu trúc là gì API là
  • Cách đọc và ghi dữ liệu đến và từ các tệp
  • Cách làm việc với nhiều định dạng tệp khác nhau
  • Cách làm việc với dữ liệu lớn hiệu quả

Hãy bắt đầu đọc và ghi tệp!

Phần thưởng miễn phí: 5 Suy nghĩ khi Làm chủ Python, một khóa học miễn phí dành cho các nhà phát triển Python, cho bạn thấy lộ trình và tư duy mà bạn sẽ cần để nâng các kỹ năng Python của mình lên một cấp độ tiếp theo.

Cài đặt gấu trúc

Mã trong hướng dẫn này được thực thi với CPython 3.7.4 và Pandas 0.25.1. Sẽ rất hữu ích nếu đảm bảo bạn có phiên bản Python và Pandas mới nhất trên máy của mình. Bạn có thể muốn tạo một môi trường ảo mới và cài đặt các phần phụ thuộc cho hướng dẫn này.

Trước tiên, bạn sẽ cần thư viện Pandas. Bạn có thể đã có nó được cài đặt. Nếu không, bạn có thể cài đặt nó bằng pip:

$ pip install pandas

Sau khi quá trình cài đặt hoàn tất, bạn sẽ cài đặt Pandas và sẵn sàng.

Anaconda là một bản phân phối Python tuyệt vời đi kèm với Python, nhiều gói hữu ích như Pandas, và một trình quản lý gói và môi trường được gọi là Conda. Để tìm hiểu thêm về Anaconda, hãy xem Thiết lập Python cho Máy học trên Windows.

Nếu bạn không có gấu trúc trong môi trường ảo của mình, thì bạn có thể cài đặt nó với Conda:

$ conda install pandas

Conda rất mạnh mẽ vì nó quản lý các phần phụ thuộc và các phiên bản của chúng. Để tìm hiểu thêm về cách làm việc với Conda, bạn có thể xem tài liệu chính thức.

Chuẩn bị dữ liệu

Trong hướng dẫn này, bạn sẽ sử dụng dữ liệu liên quan đến 20 quốc gia. Dưới đây là tổng quan về dữ liệu và nguồn bạn sẽ làm việc:

  • Quốc gia được biểu thị bằng tên quốc gia. Mỗi quốc gia đều nằm trong danh sách 10 quốc gia hàng đầu về dân số, diện tích hoặc tổng sản phẩm quốc nội (GDP). Các nhãn hàng cho tập dữ liệu là các mã quốc gia gồm ba chữ cái được xác định trong ISO 3166-1. Nhãn cột cho tập dữ liệu là COUNTRY .

  • Dân số được biểu thị bằng hàng triệu. Dữ liệu đến từ danh sách các quốc gia và các vùng phụ thuộc theo dân số trên Wikipedia. Nhãn cột cho tập dữ liệu là POP .

  • Khu vực được biểu thị bằng hàng nghìn km bình phương. Dữ liệu đến từ danh sách các quốc gia và các khu vực phụ thuộc trên Wikipedia. Nhãn cột cho tập dữ liệu là AREA .

  • Tổng sản phẩm quốc nội được biểu thị bằng hàng triệu đô la Mỹ, theo dữ liệu của Liên hợp quốc cho năm 2017. Bạn có thể tìm thấy dữ liệu này trong danh sách các quốc gia theo GDP danh nghĩa trên Wikipedia. Nhãn cột cho tập dữ liệu là GDP .

  • Lục địa là Châu Phi, Châu Á, Châu Đại Dương, Châu Âu, Bắc Mỹ hoặc Nam Mỹ. Bạn cũng có thể tìm thấy thông tin này trên Wikipedia. Nhãn cột cho tập dữ liệu là CONT .

  • Ngày quốc khánh là một ngày kỷ niệm độc lập của một quốc gia. Dữ liệu lấy từ danh sách các ngày độc lập quốc gia trên Wikipedia. Ngày tháng được hiển thị ở định dạng ISO 8601. Bốn chữ số đầu tiên đại diện cho năm, hai số tiếp theo là tháng và hai chữ số cuối cùng là ngày trong tháng. Nhãn cột cho tập dữ liệu là IND_DAY .

Đây là cách dữ liệu trông như một bảng:

CHN Trung Quốc 1398,72 9596,96 12234.78 Châu Á
IND Ấn Độ 1351.16 3287,26 2575,67 Châu Á 1947-08-15
Hoa Kỳ Hoa Kỳ 329,74 9833.52 19485,39 N.America 1776-07-04
IDN Indonesia 268.07 1910,93 1015,54 Châu Á 1945-08-17
BRA Braxin 210,32 8515.77 2055.51 S.America 1822-09-07
PAK Pakistan 205,71 881,91 302.14 Châu Á 1947-08-14
NGA Nigeria 200,96 923.77 375,77 Châu Phi 1960-10-01
BGD Bangladesh 167,09 147,57 245,63 Châu Á 1971-03-26
NGA Nga 146,79 17098,25 1530,75 1992-06-12
MEX Mexico 126,58 1964,38 1158,23 N.America 1810-09-16
JPN Nhật Bản 126,22 377,97 4872,42 Châu Á
DEU Đức 83.02 357.11 3693.20 Châu Âu
FRA Pháp 67.02 640,68 2582,49 Châu Âu 1789-07-14
GBR Vương quốc Anh 66,44 242.50 2631,23 Châu Âu
ITA Ý 60,36 301,34 1943,84 Châu Âu
ARG Argentina 44,94 2780.40 637,49 S.America 1816-07-09
DZA Algeria 43,38 2381,74 167,56 Châu Phi 1962-07-05
CÓ THỂ Canada 37,59 9984,67 1647.12 N.America 1867-07-01
AUS Úc 25,47 7692.02 1408,68 Châu Đại Dương
KAZ Kazakhstan 18,53 2724.90 159,41 Châu Á 1991-12-16

Bạn có thể nhận thấy rằng một số dữ liệu bị thiếu. Ví dụ:lục địa cho Nga không được chỉ định vì nó trải dài trên cả Châu Âu và Châu Á. Cũng có một số ngày độc lập bị thiếu vì nguồn dữ liệu bỏ qua chúng.

Bạn có thể sắp xếp dữ liệu này bằng Python bằng cách sử dụng từ điển lồng nhau:

data = {
    'CHN': {'COUNTRY': 'China', 'POP': 1_398.72, 'AREA': 9_596.96,
            'GDP': 12_234.78, 'CONT': 'Asia'},
    'IND': {'COUNTRY': 'India', 'POP': 1_351.16, 'AREA': 3_287.26,
            'GDP': 2_575.67, 'CONT': 'Asia', 'IND_DAY': '1947-08-15'},
    'USA': {'COUNTRY': 'US', 'POP': 329.74, 'AREA': 9_833.52,
            'GDP': 19_485.39, 'CONT': 'N.America',
            'IND_DAY': '1776-07-04'},
    'IDN': {'COUNTRY': 'Indonesia', 'POP': 268.07, 'AREA': 1_910.93,
            'GDP': 1_015.54, 'CONT': 'Asia', 'IND_DAY': '1945-08-17'},
    'BRA': {'COUNTRY': 'Brazil', 'POP': 210.32, 'AREA': 8_515.77,
            'GDP': 2_055.51, 'CONT': 'S.America', 'IND_DAY': '1822-09-07'},
    'PAK': {'COUNTRY': 'Pakistan', 'POP': 205.71, 'AREA': 881.91,
            'GDP': 302.14, 'CONT': 'Asia', 'IND_DAY': '1947-08-14'},
    'NGA': {'COUNTRY': 'Nigeria', 'POP': 200.96, 'AREA': 923.77,
            'GDP': 375.77, 'CONT': 'Africa', 'IND_DAY': '1960-10-01'},
    'BGD': {'COUNTRY': 'Bangladesh', 'POP': 167.09, 'AREA': 147.57,
            'GDP': 245.63, 'CONT': 'Asia', 'IND_DAY': '1971-03-26'},
    'RUS': {'COUNTRY': 'Russia', 'POP': 146.79, 'AREA': 17_098.25,
            'GDP': 1_530.75, 'IND_DAY': '1992-06-12'},
    'MEX': {'COUNTRY': 'Mexico', 'POP': 126.58, 'AREA': 1_964.38,
            'GDP': 1_158.23, 'CONT': 'N.America', 'IND_DAY': '1810-09-16'},
    'JPN': {'COUNTRY': 'Japan', 'POP': 126.22, 'AREA': 377.97,
            'GDP': 4_872.42, 'CONT': 'Asia'},
    'DEU': {'COUNTRY': 'Germany', 'POP': 83.02, 'AREA': 357.11,
            'GDP': 3_693.20, 'CONT': 'Europe'},
    'FRA': {'COUNTRY': 'France', 'POP': 67.02, 'AREA': 640.68,
            'GDP': 2_582.49, 'CONT': 'Europe', 'IND_DAY': '1789-07-14'},
    'GBR': {'COUNTRY': 'UK', 'POP': 66.44, 'AREA': 242.50,
            'GDP': 2_631.23, 'CONT': 'Europe'},
    'ITA': {'COUNTRY': 'Italy', 'POP': 60.36, 'AREA': 301.34,
            'GDP': 1_943.84, 'CONT': 'Europe'},
    'ARG': {'COUNTRY': 'Argentina', 'POP': 44.94, 'AREA': 2_780.40,
            'GDP': 637.49, 'CONT': 'S.America', 'IND_DAY': '1816-07-09'},
    'DZA': {'COUNTRY': 'Algeria', 'POP': 43.38, 'AREA': 2_381.74,
            'GDP': 167.56, 'CONT': 'Africa', 'IND_DAY': '1962-07-05'},
    'CAN': {'COUNTRY': 'Canada', 'POP': 37.59, 'AREA': 9_984.67,
            'GDP': 1_647.12, 'CONT': 'N.America', 'IND_DAY': '1867-07-01'},
    'AUS': {'COUNTRY': 'Australia', 'POP': 25.47, 'AREA': 7_692.02,
            'GDP': 1_408.68, 'CONT': 'Oceania'},
    'KAZ': {'COUNTRY': 'Kazakhstan', 'POP': 18.53, 'AREA': 2_724.90,
            'GDP': 159.41, 'CONT': 'Asia', 'IND_DAY': '1991-12-16'}

columns = ('COUNTRY', 'POP', 'AREA', 'GDP', 'CONT', 'IND_DAY')

Mỗi hàng của bảng được viết như một từ điển bên trong có khóa là tên cột và giá trị là dữ liệu tương ứng. Sau đó, những từ điển này được thu thập dưới dạng các giá trị trong dữ liệu data bên ngoài từ điển. Các khóa tương ứng cho data là các mã quốc gia gồm ba chữ cái.

Bạn có thể sử dụng data này để tạo một phiên bản của gấu trúc DataFrame . Trước tiên, bạn cần nhập Gấu trúc:

>>> import pandas as pd

Bây giờ bạn đã nhập Gấu trúc, bạn có thể sử dụng DataFrame hàm tạo và data để tạo DataFrame đối tượng.

data được tổ chức theo cách mà mã quốc gia tương ứng với các cột. Bạn có thể đảo ngược các hàng và cột của DataFrame với thuộc tính .T :

>>> df = pd.DataFrame(data=data).T
>>> df
        COUNTRY      POP     AREA      GDP       CONT     IND_DAY
CHN       China  1398.72  9596.96  12234.8       Asia         NaN
IND       India  1351.16  3287.26  2575.67       Asia  1947-08-15
USA          US   329.74  9833.52  19485.4  N.America  1776-07-04
IDN   Indonesia   268.07  1910.93  1015.54       Asia  1945-08-17
BRA      Brazil   210.32  8515.77  2055.51  S.America  1822-09-07
PAK    Pakistan   205.71   881.91   302.14       Asia  1947-08-14
NGA     Nigeria   200.96   923.77   375.77     Africa  1960-10-01
BGD  Bangladesh   167.09   147.57   245.63       Asia  1971-03-26
RUS      Russia   146.79  17098.2  1530.75        NaN  1992-06-12
MEX      Mexico   126.58  1964.38  1158.23  N.America  1810-09-16
JPN       Japan   126.22   377.97  4872.42       Asia         NaN
DEU     Germany    83.02   357.11   3693.2     Europe         NaN
FRA      France    67.02   640.68  2582.49     Europe  1789-07-14
GBR          UK    66.44    242.5  2631.23     Europe         NaN
ITA       Italy    60.36   301.34  1943.84     Europe         NaN
ARG   Argentina    44.94   2780.4   637.49  S.America  1816-07-09
DZA     Algeria    43.38  2381.74   167.56     Africa  1962-07-05
CAN      Canada    37.59  9984.67  1647.12  N.America  1867-07-01
AUS   Australia    25.47  7692.02  1408.68    Oceania         NaN
KAZ  Kazakhstan    18.53   2724.9   159.41       Asia  1991-12-16

Bây giờ bạn có DataFrame của mình đối tượng được điền dữ liệu về từng quốc gia.

Lưu ý: Bạn có thể sử dụng .transpose() thay vì .T để đảo ngược các hàng và cột trong tập dữ liệu của bạn. Nếu bạn sử dụng .transpose() , sau đó bạn có thể đặt tham số tùy chọn copy để chỉ định xem bạn có muốn sao chép dữ liệu cơ bản hay không. Hành vi mặc định là False .

Các phiên bản Python cũ hơn 3.6 không đảm bảo thứ tự của các khóa trong từ điển. Để đảm bảo thứ tự của các cột được duy trì cho các phiên bản cũ hơn của Python và Pandas, bạn có thể chỉ định index=columns :

>>> df = pd.DataFrame(data=data, index=columns).T

Bây giờ bạn đã chuẩn bị dữ liệu của mình, bạn đã sẵn sàng để bắt đầu làm việc với các tệp!

Sử dụng Pandas read_csv().to_csv() Chức năng

Tệp các giá trị được phân tách bằng dấu phẩy (CSV) là tệp văn bản rõ có .csv tiện ích mở rộng chứa dữ liệu dạng bảng. Đây là một trong những định dạng tệp phổ biến nhất để lưu trữ lượng lớn dữ liệu. Mỗi hàng của tệp CSV đại diện cho một hàng bảng. Theo mặc định, các giá trị trong cùng một hàng được phân tách bằng dấu phẩy, nhưng bạn có thể thay đổi dấu phân cách thành dấu chấm phẩy, tab, dấu cách hoặc một số ký tự khác.

Viết tệp CSV

Bạn có thể lưu gấu trúc DataFrame của mình dưới dạng tệp CSV với .to_csv() :

>>> df.to_csv('data.csv')

Đó là nó! Bạn đã tạo tệp data.csv trong thư mục làm việc hiện tại của bạn. Bạn có thể mở rộng khối mã bên dưới để xem tệp CSV của bạn trông như thế nào:


Tệp văn bản này chứa dữ liệu được phân tách bằng dấu phẩy . Cột đầu tiên chứa các nhãn hàng. Trong một số trường hợp, bạn sẽ thấy chúng không liên quan. Nếu bạn không muốn giữ chúng, thì bạn có thể chuyển đối số index=False thành .to_csv() .

Đọc tệp CSV

Sau khi dữ liệu của bạn được lưu trong tệp CSV, bạn có thể muốn tải và sử dụng nó theo thời gian. Bạn có thể làm điều đó với Pandas read_csv() chức năng:

>>> df = pd.read_csv('data.csv', index_col=0)
>>> df
        COUNTRY      POP      AREA       GDP       CONT     IND_DAY
CHN       China  1398.72   9596.96  12234.78       Asia         NaN
IND       India  1351.16   3287.26   2575.67       Asia  1947-08-15
USA          US   329.74   9833.52  19485.39  N.America  1776-07-04
IDN   Indonesia   268.07   1910.93   1015.54       Asia  1945-08-17
BRA      Brazil   210.32   8515.77   2055.51  S.America  1822-09-07
PAK    Pakistan   205.71    881.91    302.14       Asia  1947-08-14
NGA     Nigeria   200.96    923.77    375.77     Africa  1960-10-01
BGD  Bangladesh   167.09    147.57    245.63       Asia  1971-03-26
RUS      Russia   146.79  17098.25   1530.75        NaN  1992-06-12
MEX      Mexico   126.58   1964.38   1158.23  N.America  1810-09-16
JPN       Japan   126.22    377.97   4872.42       Asia         NaN
DEU     Germany    83.02    357.11   3693.20     Europe         NaN
FRA      France    67.02    640.68   2582.49     Europe  1789-07-14
GBR          UK    66.44    242.50   2631.23     Europe         NaN
ITA       Italy    60.36    301.34   1943.84     Europe         NaN
ARG   Argentina    44.94   2780.40    637.49  S.America  1816-07-09
DZA     Algeria    43.38   2381.74    167.56     Africa  1962-07-05
CAN      Canada    37.59   9984.67   1647.12  N.America  1867-07-01
AUS   Australia    25.47   7692.02   1408.68    Oceania         NaN
KAZ  Kazakhstan    18.53   2724.90    159.41       Asia  1991-12-16

Trong trường hợp này, Pandas read_csv() hàm trả về một DataFrame mới với dữ liệu và nhãn từ tệp data.csv , mà bạn đã chỉ định với đối số đầu tiên. Chuỗi này có thể là bất kỳ đường dẫn hợp lệ nào, bao gồm cả URL.

Tham số index_col chỉ định cột từ tệp CSV có chứa các nhãn hàng. Bạn chỉ định một chỉ số cột dựa trên 0 cho tham số này. Bạn nên xác định giá trị của index_col khi tệp CSV chứa các nhãn hàng để tránh tải chúng dưới dạng dữ liệu.

Bạn sẽ tìm hiểu thêm về cách sử dụng Gấu trúc với tệp CSV ở phần sau trong hướng dẫn này. Bạn cũng có thể xem Đọc và Viết tệp CSV bằng Python để xem cách xử lý tệp CSV với thư viện Python csv tích hợp sẵn.

Sử dụng gấu trúc để viết và đọc tệp Excel

Microsoft Excel có lẽ là phần mềm bảng tính được sử dụng rộng rãi nhất. Trong khi các phiên bản cũ hơn sử dụng nhị phân .xls tệp, Excel 2007 đã giới thiệu .xlsx dựa trên XML mới tập tin. Bạn có thể đọc và ghi tệp Excel trong Pandas, tương tự như tệp CSV. Tuy nhiên, trước tiên bạn cần cài đặt các gói Python sau:

  • xlwt để ghi vào .xls tệp
  • openpyxl hoặc XlsxWriter để ghi vào .xlsx tệp
  • xlrd để đọc các tệp Excel

Bạn có thể cài đặt chúng bằng cách sử dụng pip với một lệnh duy nhất:

$ pip install xlwt openpyxl xlsxwriter xlrd

Bạn cũng có thể sử dụng Conda:

$ conda install xlwt openpyxl xlsxwriter xlrd

Xin lưu ý rằng bạn không phải cài đặt tất cả các gói này. Ví dụ:bạn không cần cả openpyxl và XlsxWriter. Nếu bạn chỉ làm việc với .xls thì bạn không cần bất kỳ tệp nào trong số chúng! Tuy nhiên, nếu bạn chỉ định làm việc với .xlsx thì bạn sẽ cần ít nhất một trong số chúng, nhưng không cần xlwt . Hãy dành chút thời gian để quyết định gói nào phù hợp với dự án của bạn.

Viết tệp Excel

Sau khi cài đặt các gói đó, bạn có thể lưu DataFrame của mình trong tệp Excel có .to_excel() :

>>> df.to_excel('data.xlsx')

Đối số 'data.xlsx' đại diện cho tệp đích và, tùy chọn, đường dẫn của nó. Câu lệnh trên sẽ tạo tệp data.xlsx trong thư mục làm việc hiện tại của bạn. Tệp đó sẽ giống như sau:

Cột đầu tiên của tệp chứa nhãn của các hàng, trong khi các cột khác lưu trữ dữ liệu.

Đọc tệp Excel

Bạn có thể tải dữ liệu từ các tệp Excel bằng read_excel() :

>>> df = pd.read_excel('data.xlsx', index_col=0)
>>> df
        COUNTRY      POP      AREA       GDP       CONT     IND_DAY
CHN       China  1398.72   9596.96  12234.78       Asia         NaN
IND       India  1351.16   3287.26   2575.67       Asia  1947-08-15
USA          US   329.74   9833.52  19485.39  N.America  1776-07-04
IDN   Indonesia   268.07   1910.93   1015.54       Asia  1945-08-17
BRA      Brazil   210.32   8515.77   2055.51  S.America  1822-09-07
PAK    Pakistan   205.71    881.91    302.14       Asia  1947-08-14
NGA     Nigeria   200.96    923.77    375.77     Africa  1960-10-01
BGD  Bangladesh   167.09    147.57    245.63       Asia  1971-03-26
RUS      Russia   146.79  17098.25   1530.75        NaN  1992-06-12
MEX      Mexico   126.58   1964.38   1158.23  N.America  1810-09-16
JPN       Japan   126.22    377.97   4872.42       Asia         NaN
DEU     Germany    83.02    357.11   3693.20     Europe         NaN
FRA      France    67.02    640.68   2582.49     Europe  1789-07-14
GBR          UK    66.44    242.50   2631.23     Europe         NaN
ITA       Italy    60.36    301.34   1943.84     Europe         NaN
ARG   Argentina    44.94   2780.40    637.49  S.America  1816-07-09
DZA     Algeria    43.38   2381.74    167.56     Africa  1962-07-05
CAN      Canada    37.59   9984.67   1647.12  N.America  1867-07-01
AUS   Australia    25.47   7692.02   1408.68    Oceania         NaN
KAZ  Kazakhstan    18.53   2724.90    159.41       Asia  1991-12-16

read_excel() trả về một DataFrame mới chứa các giá trị từ data.xlsx . Bạn cũng có thể sử dụng read_excel() với bảng tính OpenDocument hoặc .ods tệp.

Bạn sẽ tìm hiểu thêm về cách làm việc với các tệp Excel ở phần sau trong hướng dẫn này. Bạn cũng có thể xem Sử dụng gấu trúc để đọc tệp Excel lớn bằng Python.

Hiểu về Pandas IO API

Công cụ IO của gấu trúc là API cho phép bạn lưu nội dung của SeriesDataFrame các đối tượng vào khay nhớ tạm, các đối tượng hoặc tệp thuộc nhiều loại khác nhau. Nó cũng cho phép tải dữ liệu từ khay nhớ tạm, đối tượng hoặc tệp.

Viết tệp

SeriesDataFrame các đối tượng có các phương thức cho phép ghi dữ liệu và nhãn vào khay nhớ tạm hoặc tệp. Chúng được đặt tên theo mẫu .to_<file-type>() , trong đó <file-type> là loại tệp đích.

Bạn đã tìm hiểu về .to_csv().to_excel() , nhưng có những người khác, bao gồm:

  • .to_json()
  • .to_html()
  • .to_sql()
  • .to_pickle()

Vẫn còn nhiều loại tệp khác mà bạn có thể ghi vào, vì vậy danh sách này chưa đầy đủ.

Lưu ý: Để tìm các phương pháp tương tự, hãy kiểm tra tài liệu chính thức về tuần tự hóa, IO và chuyển đổi liên quan đến SeriesDataFrame đối tượng.

Các phương thức này có các tham số chỉ định đường dẫn tệp đích nơi bạn đã lưu dữ liệu và nhãn. Điều này là bắt buộc trong một số trường hợp và không bắt buộc trong một số trường hợp khác. Nếu tùy chọn này khả dụng và bạn chọn bỏ qua, thì các phương thức sẽ trả về các đối tượng (như chuỗi hoặc đoạn lặp) với nội dung của DataFrame phiên bản.

Tham số tùy chọn compression quyết định cách nén tệp với dữ liệu và nhãn. Bạn sẽ tìm hiểu thêm về nó sau này. Có một số tham số khác, nhưng chúng chủ yếu dành riêng cho một hoặc một số phương pháp. Bạn sẽ không đi vào chi tiết chúng ở đây.

Đọc tệp

Các hàm Pandas để đọc nội dung của tệp được đặt tên bằng mẫu .read_<file-type>() , trong đó <file-type> cho biết loại tệp để đọc. Bạn đã thấy Gấu trúc read_csv()read_excel() chức năng. Dưới đây là một số người khác:

  • read_json()
  • read_html()
  • read_sql()
  • read_pickle()

Các hàm này có một tham số chỉ định đường dẫn tệp đích. Nó có thể là bất kỳ chuỗi hợp lệ nào đại diện cho đường dẫn, trên máy cục bộ hoặc trong một URL. Các đối tượng khác cũng được chấp nhận tùy thuộc vào loại tệp.

Tham số tùy chọn compression xác định kiểu giải nén để sử dụng cho các tệp nén. Bạn sẽ tìm hiểu về nó ở phần sau trong hướng dẫn này. Có các tham số khác, nhưng chúng dành riêng cho một hoặc một số chức năng. Bạn sẽ không đi vào chi tiết chúng ở đây.

Làm việc với các loại tệp khác nhau

Thư viện Pandas cung cấp nhiều khả năng lưu dữ liệu của bạn vào tệp và tải dữ liệu từ tệp. Trong phần này, bạn sẽ tìm hiểu thêm về cách làm việc với tệp CSV và Excel. Bạn cũng sẽ thấy cách sử dụng các loại tệp khác, như JSON, các trang web, cơ sở dữ liệu và các tệp rắc rối trong Python.


Bạn đã học cách đọc và ghi tệp CSV. Bây giờ chúng ta hãy tìm hiểu chi tiết sâu hơn một chút. Khi bạn sử dụng .to_csv() để lưu DataFrame của bạn , bạn có thể cung cấp một đối số cho tham số path_or_buf để chỉ định đường dẫn, tên và phần mở rộng của tệp đích.

path_or_buf là đối số đầu tiên .to_csv() sẽ lấy. Nó có thể là bất kỳ chuỗi nào đại diện cho một đường dẫn tệp hợp lệ bao gồm tên tệp và phần mở rộng của nó. Bạn đã thấy điều này trong một ví dụ trước. Tuy nhiên, nếu bạn bỏ qua path_or_buf , rồi đến .to_csv() sẽ không tạo bất kỳ tệp nào. Thay vào đó, nó sẽ trả về chuỗi tương ứng:

>>> df = pd.DataFrame(data=data).T
>>> s = df.to_csv()
>>> print(s)

Bây giờ bạn có chuỗi s thay vì tệp CSV. Bạn cũng có một số giá trị bị thiếu trong DataFrame của bạn vật. Ví dụ, lục địa cho Nga và ngày độc lập của một số quốc gia (Trung Quốc, Nhật Bản, v.v.) không có sẵn. Trong khoa học dữ liệu và máy học, bạn phải xử lý các giá trị bị thiếu một cách cẩn thận. Gấu trúc xuất sắc ở đây! Theo mặc định, Pandas sử dụng giá trị NaN để thay thế các giá trị bị thiếu.

Lưu ý: nan , viết tắt của “not a number”, là một giá trị dấu phẩy động cụ thể trong Python.

Bạn có thể nhận được một nan giá trị với bất kỳ chức năng nào sau đây:

  • float('nan')
  • math.nan
  • numpy.nan

Lục địa tương ứng với Nga trong dfnan :

>>> df.loc['RUS', 'CONT']

Ví dụ này sử dụng .loc[] để nhận dữ liệu với tên hàng và cột được chỉ định.

Khi bạn lưu DataFrame của mình vào tệp CSV, các chuỗi trống ('' ) sẽ đại diện cho dữ liệu bị thiếu. Bạn có thể thấy điều này cả trong tệp data.csv của mình và trong chuỗi s . Nếu bạn muốn thay đổi hành vi này, hãy sử dụng tham số tùy chọn na_rep :

>>> df.to_csv('new-data.csv', na_rep='(missing)')

Mã này tạo ra tệp new-data.csv trong đó các giá trị bị thiếu không còn là chuỗi trống. Bạn có thể mở rộng khối mã bên dưới để xem tệp này trông như thế nào:


Now, the string '(missing)' in the file corresponds to the nan values from df .

When Pandas reads files, it considers the empty string ('' ) and a few others as missing values by default:

  • 'nan'
  • '-nan'
  • 'NA'
  • 'N/A'
  • 'NaN'
  • 'null'

If you don’t want this behavior, then you can pass keep_default_na=False to the Pandas read_csv() hàm số. To specify other labels for missing values, use the parameter na_values :

>>> pd.read_csv('new-data.csv', index_col=0, na_values='(missing)')
        COUNTRY      POP      AREA       GDP       CONT     IND_DAY
CHN       China  1398.72   9596.96  12234.78       Asia         NaN
IND       India  1351.16   3287.26   2575.67       Asia  1947-08-15
USA          US   329.74   9833.52  19485.39  N.America  1776-07-04
IDN   Indonesia   268.07   1910.93   1015.54       Asia  1945-08-17
BRA      Brazil   210.32   8515.77   2055.51  S.America  1822-09-07
PAK    Pakistan   205.71    881.91    302.14       Asia  1947-08-14
NGA     Nigeria   200.96    923.77    375.77     Africa  1960-10-01
BGD  Bangladesh   167.09    147.57    245.63       Asia  1971-03-26
RUS      Russia   146.79  17098.25   1530.75        NaN  1992-06-12
MEX      Mexico   126.58   1964.38   1158.23  N.America  1810-09-16
JPN       Japan   126.22    377.97   4872.42       Asia         NaN
DEU     Germany    83.02    357.11   3693.20     Europe         NaN
FRA      France    67.02    640.68   2582.49     Europe  1789-07-14
GBR          UK    66.44    242.50   2631.23     Europe         NaN
ITA       Italy    60.36    301.34   1943.84     Europe         NaN
ARG   Argentina    44.94   2780.40    637.49  S.America  1816-07-09
DZA     Algeria    43.38   2381.74    167.56     Africa  1962-07-05
CAN      Canada    37.59   9984.67   1647.12  N.America  1867-07-01
AUS   Australia    25.47   7692.02   1408.68    Oceania         NaN
KAZ  Kazakhstan    18.53   2724.90    159.41       Asia  1991-12-16

Here, you’ve marked the string '(missing)' as a new missing data label, and Pandas replaced it with nan when it read the file.

When you load data from a file, Pandas assigns the data types to the values of each column by default. You can check these types with .dtypes :

>>> df = pd.read_csv('data.csv', index_col=0)
>>> df.dtypes
COUNTRY     object
POP        float64
AREA       float64
GDP        float64
CONT        object
IND_DAY     object
dtype: object

The columns with strings and dates ('COUNTRY' , 'CONT' , and 'IND_DAY' ) have the data type object . Meanwhile, the numeric columns contain 64-bit floating-point numbers (float64 ).

You can use the parameter dtype to specify the desired data types and parse_dates to force use of datetimes:

>>> dtypes = {'POP': 'float32', 'AREA': 'float32', 'GDP': 'float32'}
>>> df = pd.read_csv('data.csv', index_col=0, dtype=dtypes,
...                  parse_dates=['IND_DAY'])
>>> df.dtypes
COUNTRY            object
POP               float32
AREA              float32
GDP               float32
CONT               object
IND_DAY    datetime64[ns]
dtype: object
>>> df['IND_DAY']
CHN          NaT
IND   1947-08-15
USA   1776-07-04
IDN   1945-08-17
BRA   1822-09-07
PAK   1947-08-14
NGA   1960-10-01
BGD   1971-03-26
RUS   1992-06-12
MEX   1810-09-16
JPN          NaT
DEU          NaT
FRA   1789-07-14
GBR          NaT
ITA          NaT
ARG   1816-07-09
DZA   1962-07-05
CAN   1867-07-01
AUS          NaT
KAZ   1991-12-16
Name: IND_DAY, dtype: datetime64[ns]

Now, you have 32-bit floating-point numbers (float32 ) as specified with dtype . These differ slightly from the original 64-bit numbers because of smaller precision . The values in the last column are considered as dates and have the data type datetime64 . That’s why the NaN values in this column are replaced with NaT .

Now that you have real dates, you can save them in the format you like:

>>> df = pd.read_csv('data.csv', index_col=0, parse_dates=['IND_DAY'])
>>> df.to_csv('formatted-data.csv', date_format='%B %d, %Y')

Here, you’ve specified the parameter date_format to be '%B %d, %Y' . You can expand the code block below to see the resulting file:

IND,India,1351.16,3287.26,2575.67,Asia,"August 15, 1947"
USA,US,329.74,9833.52,19485.39,N.America,"July 04, 1776"
IDN,Indonesia,268.07,1910.93,1015.54,Asia,"August 17, 1945"
BRA,Brazil,210.32,8515.77,2055.51,S.America,"September 07, 1822"
PAK,Pakistan,205.71,881.91,302.14,Asia,"August 14, 1947"
NGA,Nigeria,200.96,923.77,375.77,Africa,"October 01, 1960"
BGD,Bangladesh,167.09,147.57,245.63,Asia,"March 26, 1971"
RUS,Russia,146.79,17098.25,1530.75,,"June 12, 1992"
MEX,Mexico,126.58,1964.38,1158.23,N.America,"September 16, 1810"
FRA,France,67.02,640.68,2582.49,Europe,"July 14, 1789"
ARG,Argentina,44.94,2780.4,637.49,S.America,"July 09, 1816"
DZA,Algeria,43.38,2381.74,167.56,Africa,"July 05, 1962"
CAN,Canada,37.59,9984.67,1647.12,N.America,"July 01, 1867"
KAZ,Kazakhstan,18.53,2724.9,159.41,Asia,"December 16, 1991"

The format of the dates is different now. The format '%B %d, %Y' means the date will first display the full name of the month, then the day followed by a comma, and finally the full year.

There are several other optional parameters that you can use with .to_csv() :

  • sep denotes a values separator.
  • decimal indicates a decimal separator.
  • encoding sets the file encoding.
  • header specifies whether you want to write column labels in the file.

Here’s how you would pass arguments for sep and header :

>>> s = df.to_csv(sep=';', header=False)
>>> print(s)

The data is separated with a semicolon (';' ) because you’ve specified sep=';' . Also, since you passed header=False , you see your data without the header row of column names.

The Pandas read_csv() function has many additional options for managing missing data, working with dates and times, quoting, encoding, handling errors, and more. For instance, if you have a file with one data column and want to get a Series object instead of a DataFrame , then you can pass squeeze=True to read_csv() . You’ll learn later on about data compression and decompression, as well as how to skip rows and columns.

JSON Files

JSON stands for JavaScript object notation. JSON files are plaintext files used for data interchange, and humans can read them easily. They follow the ISO/IEC 21778:2017 and ECMA-404 standards and use the .json sự mở rộng. Python and Pandas work well with JSON files, as Python’s json library offers built-in support for them.

You can save the data from your DataFrame to a JSON file with .to_json() . Start by creating a DataFrame object again. Use the dictionary data that holds the data about countries and then apply .to_json() :

>>> df = pd.DataFrame(data=data).T
>>> df.to_json('data-columns.json')

This code produces the file data-columns.json . You can expand the code block below to see how this file should look:


data-columns.json has one large dictionary with the column labels as keys and the corresponding inner dictionaries as values.

You can get a different file structure if you pass an argument for the optional parameter orient :

>>> df.to_json('data-index.json', orient='index')

The orient parameter defaults to 'columns' . Here, you’ve set it to index .

You should get a new file data-index.json . You can expand the code block below to see the changes:


data-index.json also has one large dictionary, but this time the row labels are the keys, and the inner dictionaries are the values.

There are few more options for orient . One of them is 'records' :

>>> df.to_json('data-records.json', orient='records')

This code should yield the file data-records.json . You can expand the code block below to see the content:


data-records.json holds a list with one dictionary for each row. The row labels are not written.

You can get another interesting file structure with orient='split' :

>>> df.to_json('data-split.json', orient='split')

The resulting file is data-split.json . You can expand the code block below to see how this file should look:


data-split.json contains one dictionary that holds the following lists:

  • The names of the columns
  • The labels of the rows
  • The inner lists (two-dimensional sequence) that hold data values

If you don’t provide the value for the optional parameter path_or_buf that defines the file path, then .to_json() will return a JSON string instead of writing the results to a file. This behavior is consistent with .to_csv() .

There are other optional parameters you can use. For instance, you can set index=False to forgo saving row labels. You can manipulate precision with double_precision , and dates with date_format and date_unit . These last two parameters are particularly important when you have time series among your data:

>>> df = pd.DataFrame(data=data).T
>>> df['IND_DAY'] = pd.to_datetime(df['IND_DAY'])
>>> df.dtypes
COUNTRY            object
POP                object
AREA               object
GDP                object
CONT               object
IND_DAY    datetime64[ns]
dtype: object

>>> df.to_json('data-time.json')

In this example, you’ve created the DataFrame from the dictionary data and used to_datetime() to convert the values in the last column to datetime64 . You can expand the code block below to see the resulting file:


In this file, you have large integers instead of dates for the independence days. That’s because the default value of the optional parameter date_format is 'epoch' whenever orient isn’t 'table' . This default behavior expresses dates as an epoch in milliseconds relative to midnight on January 1, 1970.

However, if you pass date_format='iso' , then you’ll get the dates in the ISO 8601 format. In addition, date_unit decides the units of time:

>>> df = pd.DataFrame(data=data).T
>>> df['IND_DAY'] = pd.to_datetime(df['IND_DAY'])
>>> df.to_json('new-data-time.json', date_format='iso', date_unit='s')

This code produces the following JSON file:


The dates in the resulting file are in the ISO 8601 format.

You can load the data from a JSON file with read_json() :

>>> df = pd.read_json('data-index.json', orient='index',
...                   convert_dates=['IND_DAY'])

The parameter convert_dates has a similar purpose as parse_dates when you use it to read CSV files. The optional parameter orient is very important because it specifies how Pandas understands the structure of the file.

There are other optional parameters you can use as well:

  • Set the encoding with encoding .
  • Manipulate dates with convert_dates and keep_default_dates .
  • Impact precision with dtype and precise_float .
  • Decode numeric data directly to NumPy arrays with numpy=True .

Note that you might lose the order of rows and columns when using the JSON format to store your data.

HTML Files

An HTML is a plaintext file that uses hypertext markup language to help browsers render web pages. The extensions for HTML files are .html and .htm . You’ll need to install an HTML parser library like lxml or html5lib to be able to work with HTML files:

$pip install lxml html5lib

You can also use Conda to install the same packages:

$ conda install lxml html5lib

Once you have these libraries, you can save the contents of your DataFrame as an HTML file with .to_html() :

df = pd.DataFrame(data=data).T

This code generates a file data.html . You can expand the code block below to see how this file should look:

<table border="1" class="dataframe">
    <tr style="text-align: right;">

This file shows the DataFrame contents nicely. However, notice that you haven’t obtained an entire web page. You’ve just output the data that corresponds to df in the HTML format.

.to_html() won’t create a file if you don’t provide the optional parameter buf , which denotes the buffer to write to. If you leave this parameter out, then your code will return a string as it did with .to_csv() and .to_json() .

Here are some other optional parameters:

  • header determines whether to save the column names.
  • index determines whether to save the row labels.
  • classes assigns cascading style sheet (CSS) classes.
  • render_links specifies whether to convert URLs to HTML links.
  • table_id assigns the CSS id to the table tag.
  • escape decides whether to convert the characters < , > , and & to HTML-safe strings.

You use parameters like these to specify different aspects of the resulting files or strings.

You can create a DataFrame object from a suitable HTML file using read_html() , which will return a DataFrame instance or a list of them:

>>> df = pd.read_html('data.html', index_col=0, parse_dates=['IND_DAY'])

This is very similar to what you did when reading CSV files. You also have parameters that help you work with dates, missing values, precision, encoding, HTML parsers, and more.

Excel Files

You’ve already learned how to read and write Excel files with Pandas. However, there are a few more options worth considering. For one, when you use .to_excel() , you can specify the name of the target worksheet with the optional parameter sheet_name :

>>> df = pd.DataFrame(data=data).T
>>> df.to_excel('data.xlsx', sheet_name='COUNTRIES')

Here, you create a file data.xlsx with a worksheet called COUNTRIES that stores the data. The string 'data.xlsx' is the argument for the parameter excel_writer that defines the name of the Excel file or its path.

The optional parameters startrow and startcol both default to 0 and indicate the upper left-most cell where the data should start being written:

>>> df.to_excel('data-shifted.xlsx', sheet_name='COUNTRIES',
...             startrow=2, startcol=4)

Here, you specify that the table should start in the third row and the fifth column. You also used zero-based indexing, so the third row is denoted by 2 and the fifth column by 4 .

Now the resulting worksheet looks like this:

As you can see, the table starts in the third row 2 and the fifth column E .

.read_excel() also has the optional parameter sheet_name that specifies which worksheets to read when loading data. It can take on one of the following values:

  • The zero-based index of the worksheet
  • The name of the worksheet
  • The list of indices or names to read multiple sheets
  • The value None to read all sheets

Here’s how you would use this parameter in your code:

>>> df = pd.read_excel('data.xlsx', sheet_name=0, index_col=0,
...                    parse_dates=['IND_DAY'])
>>> df = pd.read_excel('data.xlsx', sheet_name='COUNTRIES', index_col=0,
...                    parse_dates=['IND_DAY'])

Both statements above create the same DataFrame because the sheet_name parameters have the same values. In both cases, sheet_name=0 and sheet_name='COUNTRIES' refer to the same worksheet. The argument parse_dates=['IND_DAY'] tells Pandas to try to consider the values in this column as dates or times.

There are other optional parameters you can use with .read_excel() and .to_excel() to determine the Excel engine, the encoding, the way to handle missing values and infinities, the method for writing column names and row labels, and so on.

SQL Files

Pandas IO tools can also read and write databases. In this next example, you’ll write your data to a database called data.db . To get started, you’ll need the SQLAlchemy package. To learn more about it, you can read the official ORM tutorial. You’ll also need the database driver. Python has a built-in driver for SQLite.

You can install SQLAlchemy with pip:

$ pip install sqlalchemy

You can also install it with Conda:

$ conda install sqlalchemy

Once you have SQLAlchemy installed, import create_engine() and create a database engine:

>>> from sqlalchemy import create_engine
>>> engine = create_engine('sqlite:///data.db', echo=False)

Now that you have everything set up, the next step is to create a DataFrame vật. It’s convenient to specify the data types and apply .to_sql() .

>>> dtypes = {'POP': 'float64', 'AREA': 'float64', 'GDP': 'float64',
...           'IND_DAY': 'datetime64'}
>>> df = pd.DataFrame(data=data).T.astype(dtype=dtypes)
>>> df.dtypes
COUNTRY            object
POP               float64
AREA              float64
GDP               float64
CONT               object
IND_DAY    datetime64[ns]
dtype: object

.astype() is a very convenient method you can use to set multiple data types at once.

Once you’ve created your DataFrame , you can save it to the database with .to_sql() :

>>> df.to_sql('data.db', con=engine, index_label='ID')

The parameter con is used to specify the database connection or engine that you want to use. The optional parameter index_label specifies how to call the database column with the row labels. You’ll often see it take on the value ID , Id , or id .

You should get the database data.db with a single table that looks like this:

The first column contains the row labels. To omit writing them into the database, pass index=False to .to_sql() . The other columns correspond to the columns of the DataFrame .

There are a few more optional parameters. For example, you can use schema to specify the database schema and dtype to determine the types of the database columns. You can also use if_exists , which says what to do if a database with the same name and path already exists:

  • if_exists='fail' raises a ValueError and is the default.
  • if_exists='replace' drops the table and inserts new values.
  • if_exists='append' inserts new values into the table.

You can load the data from the database with read_sql() :

>>> df = pd.read_sql('data.db', con=engine, index_col='ID')
>>> df
        COUNTRY      POP      AREA       GDP       CONT    IND_DAY
CHN       China  1398.72   9596.96  12234.78       Asia        NaT
IND       India  1351.16   3287.26   2575.67       Asia 1947-08-15
USA          US   329.74   9833.52  19485.39  N.America 1776-07-04
IDN   Indonesia   268.07   1910.93   1015.54       Asia 1945-08-17
BRA      Brazil   210.32   8515.77   2055.51  S.America 1822-09-07
PAK    Pakistan   205.71    881.91    302.14       Asia 1947-08-14
NGA     Nigeria   200.96    923.77    375.77     Africa 1960-10-01
BGD  Bangladesh   167.09    147.57    245.63       Asia 1971-03-26
RUS      Russia   146.79  17098.25   1530.75       None 1992-06-12
MEX      Mexico   126.58   1964.38   1158.23  N.America 1810-09-16
JPN       Japan   126.22    377.97   4872.42       Asia        NaT
DEU     Germany    83.02    357.11   3693.20     Europe        NaT
FRA      France    67.02    640.68   2582.49     Europe 1789-07-14
GBR          UK    66.44    242.50   2631.23     Europe        NaT
ITA       Italy    60.36    301.34   1943.84     Europe        NaT
ARG   Argentina    44.94   2780.40    637.49  S.America 1816-07-09
DZA     Algeria    43.38   2381.74    167.56     Africa 1962-07-05
CAN      Canada    37.59   9984.67   1647.12  N.America 1867-07-01
AUS   Australia    25.47   7692.02   1408.68    Oceania        NaT
KAZ  Kazakhstan    18.53   2724.90    159.41       Asia 1991-12-16

The parameter index_col specifies the name of the column with the row labels. Note that this inserts an extra row after the header that starts with ID . You can fix this behavior with the following line of code:

>>> = None
>>> df
        COUNTRY      POP      AREA       GDP       CONT    IND_DAY
CHN       China  1398.72   9596.96  12234.78       Asia        NaT
IND       India  1351.16   3287.26   2575.67       Asia 1947-08-15
USA          US   329.74   9833.52  19485.39  N.America 1776-07-04
IDN   Indonesia   268.07   1910.93   1015.54       Asia 1945-08-17
BRA      Brazil   210.32   8515.77   2055.51  S.America 1822-09-07
PAK    Pakistan   205.71    881.91    302.14       Asia 1947-08-14
NGA     Nigeria   200.96    923.77    375.77     Africa 1960-10-01
BGD  Bangladesh   167.09    147.57    245.63       Asia 1971-03-26
RUS      Russia   146.79  17098.25   1530.75       None 1992-06-12
MEX      Mexico   126.58   1964.38   1158.23  N.America 1810-09-16
JPN       Japan   126.22    377.97   4872.42       Asia        NaT
DEU     Germany    83.02    357.11   3693.20     Europe        NaT
FRA      France    67.02    640.68   2582.49     Europe 1789-07-14
GBR          UK    66.44    242.50   2631.23     Europe        NaT
ITA       Italy    60.36    301.34   1943.84     Europe        NaT
ARG   Argentina    44.94   2780.40    637.49  S.America 1816-07-09
DZA     Algeria    43.38   2381.74    167.56     Africa 1962-07-05
CAN      Canada    37.59   9984.67   1647.12  N.America 1867-07-01
AUS   Australia    25.47   7692.02   1408.68    Oceania        NaT
KAZ  Kazakhstan    18.53   2724.90    159.41       Asia 1991-12-16

Now you have the same DataFrame object as before.

Note that the continent for Russia is now None instead of nan . If you want to fill the missing values with nan , then you can use .fillna() :

>>> df.fillna(value=float('nan'), inplace=True)

.fillna() replaces all missing values with whatever you pass to value . Here, you passed float('nan') , which says to fill all missing values with nan .

Also note that you didn’t have to pass parse_dates=['IND_DAY'] to read_sql() . That’s because your database was able to detect that the last column contains dates. However, you can pass parse_dates if you’d like. You’ll get the same results.

There are other functions that you can use to read databases, like read_sql_table() and read_sql_query() . Feel free to try them out!

Pickle Files

Pickling is the act of converting Python objects into byte streams. Unpickling is the inverse process. Python pickle files are the binary files that keep the data and hierarchy of Python objects. They usually have the extension .pickle or .pkl .

You can save your DataFrame in a pickle file with .to_pickle() :

>>> dtypes = {'POP': 'float64', 'AREA': 'float64', 'GDP': 'float64',
...           'IND_DAY': 'datetime64'}
>>> df = pd.DataFrame(data=data).T.astype(dtype=dtypes)
>>> df.to_pickle('data.pickle')

Like you did with databases, it can be convenient first to specify the data types. Then, you create a file data.pickle to contain your data. You could also pass an integer value to the optional parameter protocol , which specifies the protocol of the pickler.

You can get the data from a pickle file with read_pickle() :

>>> df = pd.read_pickle('data.pickle')
>>> df
        COUNTRY      POP      AREA       GDP       CONT    IND_DAY
CHN       China  1398.72   9596.96  12234.78       Asia        NaT
IND       India  1351.16   3287.26   2575.67       Asia 1947-08-15
USA          US   329.74   9833.52  19485.39  N.America 1776-07-04
IDN   Indonesia   268.07   1910.93   1015.54       Asia 1945-08-17
BRA      Brazil   210.32   8515.77   2055.51  S.America 1822-09-07
PAK    Pakistan   205.71    881.91    302.14       Asia 1947-08-14
NGA     Nigeria   200.96    923.77    375.77     Africa 1960-10-01
BGD  Bangladesh   167.09    147.57    245.63       Asia 1971-03-26
RUS      Russia   146.79  17098.25   1530.75        NaN 1992-06-12
MEX      Mexico   126.58   1964.38   1158.23  N.America 1810-09-16
JPN       Japan   126.22    377.97   4872.42       Asia        NaT
DEU     Germany    83.02    357.11   3693.20     Europe        NaT
FRA      France    67.02    640.68   2582.49     Europe 1789-07-14
GBR          UK    66.44    242.50   2631.23     Europe        NaT
ITA       Italy    60.36    301.34   1943.84     Europe        NaT
ARG   Argentina    44.94   2780.40    637.49  S.America 1816-07-09
DZA     Algeria    43.38   2381.74    167.56     Africa 1962-07-05
CAN      Canada    37.59   9984.67   1647.12  N.America 1867-07-01
AUS   Australia    25.47   7692.02   1408.68    Oceania        NaT
KAZ  Kazakhstan    18.53   2724.90    159.41       Asia 1991-12-16

read_pickle() returns the DataFrame with the stored data. You can also check the data types:

>>> df.dtypes
COUNTRY            object
POP               float64
AREA              float64
GDP               float64
CONT               object
IND_DAY    datetime64[ns]
dtype: object

These are the same ones that you specified before using .to_pickle() .

As a word of caution, you should always beware of loading pickles from untrusted sources. This can be dangerous! When you unpickle an untrustworthy file, it could execute arbitrary code on your machine, gain remote access to your computer, or otherwise exploit your device in other ways.

Working With Big Data

If your files are too large for saving or processing, then there are several approaches you can take to reduce the required disk space:

  • Compress your files
  • Choose only the columns you want
  • Omit the rows you don’t need
  • Force the use of less precise data types
  • Split the data into chunks

You’ll take a look at each of these techniques in turn.

Compress and Decompress Files

You can create an archive file like you would a regular one, with the addition of a suffix that corresponds to the desired compression type:

  • '.gz'
  • '.bz2'
  • '.zip'
  • '.xz'

Pandas can deduce the compression type by itself:

>>> df = pd.DataFrame(data=data).T
>>> df.to_csv('')

Here, you create a compressed .csv file as an archive. The size of the regular .csv file is 1048 bytes, while the compressed file only has 766 bytes.

You can open this compressed file as usual with the Pandas read_csv() function:

>>> df = pd.read_csv('', index_col=0,
...                  parse_dates=['IND_DAY'])
>>> df
        COUNTRY      POP      AREA       GDP       CONT    IND_DAY
CHN       China  1398.72   9596.96  12234.78       Asia        NaT
IND       India  1351.16   3287.26   2575.67       Asia 1947-08-15
USA          US   329.74   9833.52  19485.39  N.America 1776-07-04
IDN   Indonesia   268.07   1910.93   1015.54       Asia 1945-08-17
BRA      Brazil   210.32   8515.77   2055.51  S.America 1822-09-07
PAK    Pakistan   205.71    881.91    302.14       Asia 1947-08-14
NGA     Nigeria   200.96    923.77    375.77     Africa 1960-10-01
BGD  Bangladesh   167.09    147.57    245.63       Asia 1971-03-26
RUS      Russia   146.79  17098.25   1530.75        NaN 1992-06-12
MEX      Mexico   126.58   1964.38   1158.23  N.America 1810-09-16
JPN       Japan   126.22    377.97   4872.42       Asia        NaT
DEU     Germany    83.02    357.11   3693.20     Europe        NaT
FRA      France    67.02    640.68   2582.49     Europe 1789-07-14
GBR          UK    66.44    242.50   2631.23     Europe        NaT
ITA       Italy    60.36    301.34   1943.84     Europe        NaT
ARG   Argentina    44.94   2780.40    637.49  S.America 1816-07-09
DZA     Algeria    43.38   2381.74    167.56     Africa 1962-07-05
CAN      Canada    37.59   9984.67   1647.12  N.America 1867-07-01
AUS   Australia    25.47   7692.02   1408.68    Oceania        NaT
KAZ  Kazakhstan    18.53   2724.90    159.41       Asia 1991-12-16

read_csv() decompresses the file before reading it into a DataFrame .

You can specify the type of compression with the optional parameter compression , which can take on any of the following values:

  • 'infer'
  • 'gzip'
  • 'bz2'
  • 'zip'
  • 'xz'
  • None

The default value compression='infer' indicates that Pandas should deduce the compression type from the file extension.

Here’s how you would compress a pickle file:

>>> df = pd.DataFrame(data=data).T
>>> df.to_pickle('data.pickle.compress', compression='gzip')

You should get the file data.pickle.compress that you can later decompress and read:

>>> df = pd.read_pickle('data.pickle.compress', compression='gzip')

df again corresponds to the DataFrame with the same data as before.

You can give the other compression methods a try, as well. If you’re using pickle files, then keep in mind that the .zip format supports reading only.

Choose Columns

The Pandas read_csv() and read_excel() functions have the optional parameter usecols that you can use to specify the columns you want to load from the file. You can pass the list of column names as the corresponding argument:

>>> df = pd.read_csv('data.csv', usecols=['COUNTRY', 'AREA'])
>>> df
       COUNTRY      AREA
0        China   9596.96
1        India   3287.26
2           US   9833.52
3    Indonesia   1910.93
4       Brazil   8515.77
5     Pakistan    881.91
6      Nigeria    923.77
7   Bangladesh    147.57
8       Russia  17098.25
9       Mexico   1964.38
10       Japan    377.97
11     Germany    357.11
12      France    640.68
13          UK    242.50
14       Italy    301.34
15   Argentina   2780.40
16     Algeria   2381.74
17      Canada   9984.67
18   Australia   7692.02
19  Kazakhstan   2724.90

Now you have a DataFrame that contains less data than before. Here, there are only the names of the countries and their areas.

Instead of the column names, you can also pass their indices:

>>> df = pd.read_csv('data.csv',index_col=0, usecols=[0, 1, 3])
>>> df
        COUNTRY      AREA
CHN       China   9596.96
IND       India   3287.26
USA          US   9833.52
IDN   Indonesia   1910.93
BRA      Brazil   8515.77
PAK    Pakistan    881.91
NGA     Nigeria    923.77
BGD  Bangladesh    147.57
RUS      Russia  17098.25
MEX      Mexico   1964.38
JPN       Japan    377.97
DEU     Germany    357.11
FRA      France    640.68
GBR          UK    242.50
ITA       Italy    301.34
ARG   Argentina   2780.40
DZA     Algeria   2381.74
CAN      Canada   9984.67
AUS   Australia   7692.02
KAZ  Kazakhstan   2724.90

Expand the code block below to compare these results with the file 'data.csv' :


You can see the following columns:

  • The column at index 0 contains the row labels.
  • The column at index 1 contains the country names.
  • The column at index 3 contains the areas.

Simlarly, read_sql() has the optional parameter columns that takes a list of column names to read:

>>> df = pd.read_sql('data.db', con=engine, index_col='ID',
...                  columns=['COUNTRY', 'AREA'])
>>> = None
>>> df
        COUNTRY      AREA
CHN       China   9596.96
IND       India   3287.26
USA          US   9833.52
IDN   Indonesia   1910.93
BRA      Brazil   8515.77
PAK    Pakistan    881.91
NGA     Nigeria    923.77
BGD  Bangladesh    147.57
RUS      Russia  17098.25
MEX      Mexico   1964.38
JPN       Japan    377.97
DEU     Germany    357.11
FRA      France    640.68
GBR          UK    242.50
ITA       Italy    301.34
ARG   Argentina   2780.40
DZA     Algeria   2381.74
CAN      Canada   9984.67
AUS   Australia   7692.02
KAZ  Kazakhstan   2724.90

Again, the DataFrame only contains the columns with the names of the countries and areas. If columns is None or omitted, then all of the columns will be read, as you saw before. The default behavior is columns=None .

Omit Rows

When you test an algorithm for data processing or machine learning, you often don’t need the entire dataset. It’s convenient to load only a subset of the data to speed up the process. The Pandas read_csv() and read_excel() functions have some optional parameters that allow you to select which rows you want to load:

  • skiprows : either the number of rows to skip at the beginning of the file if it’s an integer, or the zero-based indices of the rows to skip if it’s a list-like object
  • skipfooter : the number of rows to skip at the end of the file
  • nrows : the number of rows to read

Here’s how you would skip rows with odd zero-based indices, keeping the even ones:

>>> df = pd.read_csv('data.csv', index_col=0, skiprows=range(1, 20, 2))
>>> df
        COUNTRY      POP     AREA      GDP       CONT     IND_DAY
IND       India  1351.16  3287.26  2575.67       Asia  1947-08-15
IDN   Indonesia   268.07  1910.93  1015.54       Asia  1945-08-17
PAK    Pakistan   205.71   881.91   302.14       Asia  1947-08-14
BGD  Bangladesh   167.09   147.57   245.63       Asia  1971-03-26
MEX      Mexico   126.58  1964.38  1158.23  N.America  1810-09-16
DEU     Germany    83.02   357.11  3693.20     Europe         NaN
GBR          UK    66.44   242.50  2631.23     Europe         NaN
ARG   Argentina    44.94  2780.40   637.49  S.America  1816-07-09
CAN      Canada    37.59  9984.67  1647.12  N.America  1867-07-01
KAZ  Kazakhstan    18.53  2724.90   159.41       Asia  1991-12-16

In this example, skiprows is range(1, 20, 2) and corresponds to the values 1 , 3 , …, 19 . The instances of the Python built-in class range behave like sequences. The first row of the file data.csv is the header row. It has the index 0 , so Pandas loads it in. The second row with index 1 corresponds to the label CHN , and Pandas skips it. The third row with the index 2 and label IND is loaded, and so on.

If you want to choose rows randomly, then skiprows can be a list or NumPy array with pseudo-random numbers, obtained either with pure Python or with NumPy.

Force Less Precise Data Types

If you’re okay with less precise data types, then you can potentially save a significant amount of memory! First, get the data types with .dtypes again:

>>> df = pd.read_csv('data.csv', index_col=0, parse_dates=['IND_DAY'])
>>> df.dtypes
COUNTRY            object
POP               float64
AREA              float64
GDP               float64
CONT               object
IND_DAY    datetime64[ns]
dtype: object

The columns with the floating-point numbers are 64-bit floats. Each number of this type float64 consumes 64 bits or 8 bytes. Each column has 20 numbers and requires 160 bytes. You can verify this with .memory_usage() :

>>> df.memory_usage()
Index      160
COUNTRY    160
POP        160
AREA       160
GDP        160
CONT       160
IND_DAY    160
dtype: int64

.memory_usage() returns an instance of Series with the memory usage of each column in bytes. You can conveniently combine it with .loc[] and .sum() to get the memory for a group of columns:

>>> df.loc[:, ['POP', 'AREA', 'GDP']].memory_usage(index=False).sum()

This example shows how you can combine the numeric columns 'POP' , 'AREA' , and 'GDP' to get their total memory requirement. The argument index=False excludes data for row labels from the resulting Series vật. For these three columns, you’ll need 480 bytes.

You can also extract the data values in the form of a NumPy array with .to_numpy() or .values . Then, use the .nbytes attribute to get the total bytes consumed by the items of the array:

>>> df.loc[:, ['POP', 'AREA', 'GDP']].to_numpy().nbytes

The result is the same 480 bytes. So, how do you save memory?

In this case, you can specify that your numeric columns 'POP' , 'AREA' , and 'GDP' should have the type float32 . Use the optional parameter dtype to do this:

>>> dtypes = {'POP': 'float32', 'AREA': 'float32', 'GDP': 'float32'}
>>> df = pd.read_csv('data.csv', index_col=0, dtype=dtypes,
...                  parse_dates=['IND_DAY'])

The dictionary dtypes specifies the desired data types for each column. It’s passed to the Pandas read_csv() function as the argument that corresponds to the parameter dtype .

Now you can verify that each numeric column needs 80 bytes, or 4 bytes per item:

>>> df.dtypes
COUNTRY            object
POP               float32
AREA              float32
GDP               float32
CONT               object
IND_DAY    datetime64[ns]
dtype: object
>>> df.memory_usage()
Index      160
COUNTRY    160
POP         80
AREA        80
GDP         80
CONT       160
IND_DAY    160
dtype: int64
>>> df.loc[:, ['POP', 'AREA', 'GDP']].memory_usage(index=False).sum()
>>> df.loc[:, ['POP', 'AREA', 'GDP']].to_numpy().nbytes

Each value is a floating-point number of 32 bits or 4 bytes. The three numeric columns contain 20 items each. In total, you’ll need 240 bytes of memory when you work with the type float32 . This is half the size of the 480 bytes you’d need to work with float64 .

In addition to saving memory, you can significantly reduce the time required to process data by using float32 instead of float64 in some cases.

Use Chunks to Iterate Through Files

Another way to deal with very large datasets is to split the data into smaller chunks and process one chunk at a time. If you use read_csv() , read_json() or read_sql() , then you can specify the optional parameter chunksize :

>>> data_chunk = pd.read_csv('data.csv', index_col=0, chunksize=8)
>>> type(data_chunk)
<class ''>
>>> hasattr(data_chunk, '__iter__')
>>> hasattr(data_chunk, '__next__')

chunksize defaults to None and can take on an integer value that indicates the number of items in a single chunk. When chunksize is an integer, read_csv() returns an iterable that you can use in a for loop to get and process only a fragment of the dataset in each iteration:

>>> for df_chunk in pd.read_csv('data.csv', index_col=0, chunksize=8):
...     print(df_chunk, end='\n\n')
...     print('memory:', df_chunk.memory_usage().sum(), 'bytes',
...           end='\n\n\n')
        COUNTRY      POP     AREA       GDP       CONT     IND_DAY
CHN       China  1398.72  9596.96  12234.78       Asia         NaN
IND       India  1351.16  3287.26   2575.67       Asia  1947-08-15
USA          US   329.74  9833.52  19485.39  N.America  1776-07-04
IDN   Indonesia   268.07  1910.93   1015.54       Asia  1945-08-17
BRA      Brazil   210.32  8515.77   2055.51  S.America  1822-09-07
PAK    Pakistan   205.71   881.91    302.14       Asia  1947-08-14
NGA     Nigeria   200.96   923.77    375.77     Africa  1960-10-01
BGD  Bangladesh   167.09   147.57    245.63       Asia  1971-03-26

memory: 448 bytes

       COUNTRY     POP      AREA      GDP       CONT     IND_DAY
RUS     Russia  146.79  17098.25  1530.75        NaN  1992-06-12
MEX     Mexico  126.58   1964.38  1158.23  N.America  1810-09-16
JPN      Japan  126.22    377.97  4872.42       Asia         NaN
DEU    Germany   83.02    357.11  3693.20     Europe         NaN
FRA     France   67.02    640.68  2582.49     Europe  1789-07-14
GBR         UK   66.44    242.50  2631.23     Europe         NaN
ITA      Italy   60.36    301.34  1943.84     Europe         NaN
ARG  Argentina   44.94   2780.40   637.49  S.America  1816-07-09

memory: 448 bytes

        COUNTRY    POP     AREA      GDP       CONT     IND_DAY
DZA     Algeria  43.38  2381.74   167.56     Africa  1962-07-05
CAN      Canada  37.59  9984.67  1647.12  N.America  1867-07-01
AUS   Australia  25.47  7692.02  1408.68    Oceania         NaN
KAZ  Kazakhstan  18.53  2724.90   159.41       Asia  1991-12-16

memory: 224 bytes

In this example, the chunksize is 8 . The first iteration of the for loop returns a DataFrame with the first eight rows of the dataset only. The second iteration returns another DataFrame with the next eight rows. The third and last iteration returns the remaining four rows.

Lưu ý: You can also pass iterator=True to force the Pandas read_csv() function to return an iterator object instead of a DataFrame đối tượng.

In each iteration, you get and process the DataFrame with the number of rows equal to chunksize . It’s possible to have fewer rows than the value of chunksize in the last iteration. You can use this functionality to control the amount of memory required to process data and keep that amount reasonably small.

Kết luận

You now know how to save the data and labels from Pandas DataFrame objects to different kinds of files. You also know how to load your data from files and create DataFrame objects.

You’ve used the Pandas read_csv() and .to_csv() methods to read and write CSV files. You also used similar methods to read and write Excel, JSON, HTML, SQL, and pickle files. These functions are very convenient and widely used. They allow you to save or load your data in a single function or method call.

You’ve also learned how to save time, memory, and disk space when working with large data files:

  • Compress or decompress files
  • Choose the rows and columns you want to load
  • Use less precise data types
  • Split data into chunks and process them one by one

You’ve mastered a significant step in the machine learning and data science process! If you have any questions or comments, then please put them in the comments section below.

  1. Database
  3. Mysql
  5. Oracle
  7. Sqlserver
  9. PostgreSQL
  11. Access
  13. SQLite
  15. MariaDB
  1. Kết nối PowerShell với

  2. Flask theo ví dụ - Thiết lập Postgres, SQLAlchemy và Alembic

  3. Cách tạo một bảng từ một bảng khác trong SQL

  4. Toán tử so sánh là gì?

  5. Cách tránh chèn các bản ghi trùng lặp trong truy vấn SQL INSERT (5 cách dễ dàng)