#**Thư viện Pandas**


#**Mục tiêu**: Giúp sinh viên kinh tế và ngôn ngữ hiểu cách sử dụng Pandas để xử lý, phân tích, và trực quan hóa dữ liệu.



## 1. Giới Thiệu Pandas

#Pandas là một thư viện mã nguồn mở trong Python, được thiết kế để hỗ trợ phân tích dữ liệu và làm việc với dữ liệu dạng bảng (DataFrame). Pandas giúp bạn xử lý và phân tích dữ liệu một cách hiệu quả, đặc biệt là với các dữ liệu dạng bảng như bảng tính Excel hay cơ sở dữ liệu SQL.

#DataFrame là cấu trúc dữ liệu chính của Pandas, có thể hiểu như một bảng dữ liệu 2 chiều, với các hàng và cột. Mỗi cột trong DataFrame là một Series, tương ứng với một loại dữ liệu cụ thể.




- Giới thiệu và Cài đặt Pandas

In [20]:
# Cài đặt Pandas nếu chưa có
!pip install pandas





In [21]:
# Import thư viện Pandas
import pandas as pd

#import numpy as np


#### 2. Cấu trúc dữ liệu cơ bản: Series và DataFrame


In [22]:
#  Tạo một Series từ danh sách
data_1 = [100, 200, 300, 400, 500]
series = pd.Series(data_1)
print(series)

# Tạo một DataFrame từ dictionary
data_2 = {
    'Year': [2018, 2019, 2020, 2021],
    'GDP': [2.9, 3.1, 3.3, 3.5]
}
df = pd.DataFrame(data_2)
print(df)


0    100
1    200
2    300
3    400
4    500
dtype: int64
   Year  GDP
0  2018  2.9
1  2019  3.1
2  2020  3.3
3  2021  3.5


#### 3. Thao tác với Series

In [26]:
# Truy cập phần tử trong Series
print("Element at index 2:", series[4])

# Tính tổng các giá trị trong Series
print("Sum of Series:", series.sum())
# Tìm min, max
print(f'Max value: {series.max()}')
print(f'Min value: {series.min()}')
# tìm mean (GTTB)
print(f'Mean value: {series.mean()}')

Element at index 2: 500
Sum of Series: 1500
Max value: 500
Min value: 100
Mean value: 300.0



#### 4. Thao tác với DataFrame



In [31]:
# Thêm cột mới vào DataFrame
df['Growth'] = df['GDP'].pct_change() * 100
print(df)

# Lọc dữ liệu: Các năm có tăng trưởng GDP > 2%
filtered_df = df[df['Growth'] < 6.5]
print(filtered_df)


   Year  GDP    Growth
0  2018  2.9       NaN
1  2019  3.1  6.896552
2  2020  3.3  6.451613
3  2021  3.5  6.060606
   Year  GDP    Growth
2  2020  3.3  6.451613
3  2021  3.5  6.060606



- Chọn một cột hoặc nhiều cột cụ thể:


In [33]:

# Chọn một cột
gdp_column = df['GDP']
print(gdp_column)

# Chọn nhiều cột
selected_columns = df[['Year', 'GDP']]
print(selected_columns)



0    2.9
1    3.1
2    3.3
3    3.5
Name: GDP, dtype: float64
   Year  GDP
0  2018  2.9
1  2019  3.1
2  2020  3.3
3  2021  3.5


- Xử Lý Dữ Liệu Thiếu (Missing Data)

Dữ liệu thiếu là một vấn đề phổ biến trong các bộ dữ liệu thực tế. Pandas cung cấp các phương pháp để xử lý dữ liệu thiếu, như loại bỏ hoặc thay thế các giá trị thiếu.

Kiểm tra dữ liệu thiếu:

In [34]:
print(df.isnull().sum())


Year      0
GDP       0
Growth    1
dtype: int64


- Thay thế giá trị thiếu bằng giá trị khác (ví dụ: trung bình của cột):


In [35]:
df_filled = df.fillna(df.mean())
print(df_filled)

   Year  GDP    Growth
0  2018  2.9  6.469590
1  2019  3.1  6.896552
2  2020  3.3  6.451613
3  2021  3.5  6.060606


#### **5. Các bước cơ bản khi xử lý file CSV với Pandas**

Dưới đây là các bước thông dụng khi xử lý file CSV với Pandas:

1. **Import thư viện Pandas**.
2. **Đọc file CSV** và tải dữ liệu vào DataFrame.
3. **Khám phá dữ liệu**: Xem qua các thông tin cơ bản về dữ liệu.
4. **Xử lý dữ liệu**: Làm sạch và biến đổi dữ liệu.
5. **Thao tác với dữ liệu**: Tính toán các giá trị cần thiết hoặc phân tích dữ liệu.

---

### **Ví dụ cụ thể: Phân tích dữ liệu doanh thu của cửa hàng**

Giả sử bạn có một file CSV chứa dữ liệu về doanh thu của một cửa hàng theo từng tháng, bao gồm các thông tin sau:
- **Month**: Tháng trong năm.
- **Revenue**: Doanh thu theo từng tháng (USD).
- **Cost**: Chi phí tương ứng (USD).


Link tải: https://drive.google.com/file/d/1_ncy8_cfKz_Qnc_TdlB0nHE2pH1GnGUn/view?usp=sharing

#### **Bước 1: Import thư viện và đọc file CSV**

Trước tiên, bạn cần import thư viện Pandas và đọc file CSV vào DataFrame.



In [36]:
import pandas as pd


In [37]:
from google.colab import drive
drive.mount('/content/drive')


Mounted at /content/drive


In [39]:
file_path = '/content/drive/MyDrive/DSP101/Shared/revenue_data.csv'

In [48]:
# Đọc file CSV
df = pd.read_csv(file_path)

# Hiển thị 5 dòng đầu tiên
df.head(1000)



Unnamed: 0,Month,Revenue,Cost
0,January,5000,3000
1,February,6000,3200
2,March,5500,3100
3,April,6200,3500
4,May,7000,4000
5,June,8000,4500
6,July,7500,4200
7,August,8500,4800
8,September,7900,4300
9,October,8100,4400


In [46]:
# Hiển thị nhưng bỏ đi 2 dòng cuối cùng
df.head(-2)

Unnamed: 0,Month,Revenue,Cost
0,January,5000,3000
1,February,6000,3200
2,March,5500,3100
3,April,6200,3500
4,May,7000,4000
5,June,8000,4500
6,July,7500,4200
7,August,8500,4800
8,September,7900,4300
9,October,8100,4400


In [47]:
# Hiển thị thông tin của dataframe
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12 entries, 0 to 11
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Month    12 non-null     object
 1   Revenue  12 non-null     int64 
 2   Cost     12 non-null     int64 
dtypes: int64(2), object(1)
memory usage: 416.0+ bytes


## CÁCH 2



In [51]:

#file_path2 should point directly to the CSV file using a correct download link from Google Drive. This typically involves replacing "/view?usp=sharing" in the URL with "/uc?export=download&id=" followed by the file ID.

#URL= 'https://drive.google.com/file/d/1_ncy8_cfKz_Qnc_TdlB0nHE2pH1GnGUn/view?usp=sharing'

file_path_1 ="https://drive.google.com/uc?export=download&id=1_ncy8_cfKz_Qnc_TdlB0nHE2pH1GnGUn"

#https://drive.google.com/open?id=1_ncy8_cfKz_Qnc_TdlB0nHE2pH1GnGUn&usp=drive_fs
file_path2 = 'https://drive.google.com/uc?export=download&id=1_ncy8_cfKz_Qnc_TdlB0nHE2pH1GnGUn&usp=drive_fs'

In [53]:
# Đọc file CSV
df1 = pd.read_csv(file_path_1)

# Hiển thị 9 dòng đầu tiên
df2.head(9)

Unnamed: 0,Month,Revenue,Cost
0,January,5000,3000
1,February,6000,3200
2,March,5500,3100
3,April,6200,3500
4,May,7000,4000
5,June,8000,4500
6,July,7500,4200
7,August,8500,4800
8,September,7900,4300


In [54]:

# Đọc file CSV
df2 = pd.read_csv(file_path2)

# Hiển thị 9 dòng đầu tiên
df2.head(9)

Unnamed: 0,Month,Revenue,Cost
0,January,5000,3000
1,February,6000,3200
2,March,5500,3100
3,April,6200,3500
4,May,7000,4000
5,June,8000,4500
6,July,7500,4200
7,August,8500,4800
8,September,7900,4300




#### **Bước 2: Khám phá dữ liệu**
Bạn có thể kiểm tra thông tin tổng quan về dữ liệu, bao gồm kích thước, kiểu dữ liệu, và các giá trị bị thiếu.

In [55]:

# Xem thông tin tổng quan của DataFrame
df.info()
print('+++++++++++++++++++++++++')
# Kiểm tra số lượng dòng và cột
print(f"DataFrame có {df.shape[0]} dòng và {df.shape[1]} cột.")

# Kiểm tra các giá trị bị thiếu
print(df.isnull().sum())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12 entries, 0 to 11
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Month    12 non-null     object
 1   Revenue  12 non-null     int64 
 2   Cost     12 non-null     int64 
dtypes: int64(2), object(1)
memory usage: 416.0+ bytes
+++++++++++++++++++++++++
DataFrame có 12 dòng và 3 cột.
Month      0
Revenue    0
Cost       0
dtype: int64




#### **Bước 3: Xử lý dữ liệu**
- Điền các giá trị bị thiếu.
- Thêm cột mới dựa trên các tính toán từ các cột hiện tại.

**Ví dụ**: Nếu cột `Profit` chưa có dữ liệu, bạn có thể tính lợi nhuận như sau:


In [56]:
# Thêm cột Profit bằng cách tính Revenue - Cost
df['Profit'] = df['Revenue'] - df['Cost']

# Kiểm tra lại dữ liệu sau khi thêm cột
df.head(14)



Unnamed: 0,Month,Revenue,Cost,Profit
0,January,5000,3000,2000
1,February,6000,3200,2800
2,March,5500,3100,2400
3,April,6200,3500,2700
4,May,7000,4000,3000
5,June,8000,4500,3500
6,July,7500,4200,3300
7,August,8500,4800,3700
8,September,7900,4300,3600
9,October,8100,4400,3700



#### **Bước 4: Thực hiện các thao tác phân tích**

- Tính **tổng doanh thu**, **tổng chi phí** và **tổng lợi nhuận** của cửa hàng trong năm.


In [57]:

# Tổng doanh thu, chi phí và lợi nhuận
total_revenue = df['Revenue'].sum()
total_cost = df['Cost'].sum()
total_profit = df['Profit'].sum()

print(f"Tổng doanh thu: {total_revenue} USD")
print(f"Tổng chi phí: {total_cost} USD")
print(f"Tổng lợi nhuận: {total_profit} USD")


Tổng doanh thu: 87700 USD
Tổng chi phí: 48600 USD
Tổng lợi nhuận: 39100 USD




- Tìm **tháng có lợi nhuận cao nhất**.


In [59]:
# Tháng có lợi nhuận cao nhất
max_profit_month = df.loc[df['Profit'].idxmax(), 'Month']
print(f"Tháng có lợi nhuận cao nhất là: {max_profit_month}")



Tháng có lợi nhuận cao nhất là: November



- Tính **lợi nhuận trung bình** theo từng tháng.

In [60]:

# Lợi nhuận trung bình
average_profit = df['Profit'].mean()
print(f"Lợi nhuận trung bình theo tháng là: {average_profit} USD")



Lợi nhuận trung bình theo tháng là: 3258.3333333333335 USD



#### **Bước 5: Lưu kết quả phân tích ra file CSV mới**

Sau khi hoàn thành các phân tích, bạn có thể lưu kết quả vào file CSV mới để chia sẻ hoặc lưu trữ.


In [61]:
# Lưu DataFrame đã được xử lý vào file CSV mới
# Vị trí lưu file trong Google Drive
saved_file_path = '/content/drive/My Drive/DSP101/Shared/processed_revenue_data.csv'
df.to_csv(saved_file_path, index=False)




---

### **Bài tập thực hành cho sinh viên Kinh tế**

#### **Yêu cầu:**
1. Đọc file CSV `personal_expenses_data.csv` (lưu trong Goole Drive) chứa dữ liệu về chi tiêu của một cá nhân trong năm (các cột: `Month`, `Income`, `Expenses`, `Savings`).
Link tải file: https://drive.google.com/file/d/1_h1OB2cg7-BC4U7vh3t2ijRqSfUG2mbV/view?usp=sharing

2. Thực hiện các thao tác sau:
   - Tính toán tổng thu nhập, chi tiêu, và tiết kiệm trong năm.
   - Tìm tháng có mức tiết kiệm cao nhất và thấp nhất.
   - Thêm cột mới tính phần trăm tiết kiệm so với thu nhập (`Savings Percentage`).
3. Lưu kết quả vào file CSV mới.

---



### **6.Phân tích ngôn ngữ với Pandas**

Pandas là một thư viện mạnh mẽ trong Python, được sử dụng phổ biến để xử lý và phân tích dữ liệu, bao gồm cả dữ liệu văn bản trong các ứng dụng về phân tích ngôn ngữ. Trong ngữ cảnh phân tích ngôn ngữ, Pandas có thể được sử dụng để:

1. **Tiền xử lý văn bản**: Làm sạch và chuẩn hóa dữ liệu văn bản.
2. **Phân tích tần suất**: Đếm từ, ký tự, câu hoặc các yếu tố khác trong văn bản.
3. **Thống kê ngôn ngữ**: Tạo ra các bảng thống kê về từ vựng, câu, v.v.
4. **Trích xuất thông tin**: Lấy thông tin quan trọng từ văn bản như từ khóa, cụm từ, v.v.

Dưới đây là ví dụ về việc sử dụng Pandas để phân tích một tập dữ liệu văn bản.

---

### **Ví dụ: Phân tích ngôn ngữ cơ bản với Pandas**

Giả sử bạn có một tập dữ liệu CSV chứa các câu văn bản và bạn muốn phân tích tần suất xuất hiện của các từ trong đó.

#### **Bước 1: Import Pandas và đọc file CSV**

In [66]:
!pip install pandas



In [67]:
import pandas as pd

from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [125]:
file_path_3 = '/content/drive/MyDrive/DSP101/Shared/data_text.csv'
#https://drive.google.com/file/d/1-AapunKcyhMV1-qbuIi7UMGyzH6HKMB6/view?usp=sharing

# Đọc file CSV chứa dữ liệu văn bản
df = pd.read_csv(file_path_3)

# Hiển thị 5 dòng đầu tiên
df.head(100)


Unnamed: 0,Khach_hang,thai_do
0,A,Tôi hài lòng chất lượng ổn!!!
1,B,tốt
2,C,tạm ổn!!!
3,D,tốt
4,E,hài lòng
5,F,ok
6,G,hài lòng
7,H,tốt
8,I,RẤT TỐT
9,J,HÀI LÒNG




#### **Bước 2: Làm sạch văn bản**

- Chuyển văn bản về chữ thường (lowercase).
- Loại bỏ các ký tự đặc biệt hoặc dấu câu không cần thiết.


In [126]:

# Làm sạch dữ liệu văn bản
df['thai_do_moi'] = df['thai_do'].str.lower()  # Chuyển về chữ thường
df['thai_do_2'] = df['thai_do'].str.replace('[^\w\s]', '', regex=True)  # Loại bỏ dấu câu

# Hiển thị dữ liệu đã làm sạch
df.head(100)


Unnamed: 0,Khach_hang,thai_do,thai_do_moi,thai_do_2
0,A,Tôi hài lòng chất lượng ổn!!!,tôi hài lòng chất lượng ổn!!!,Tôi hài lòng chất lượng ổn
1,B,tốt,tốt,tốt
2,C,tạm ổn!!!,tạm ổn!!!,tạm ổn
3,D,tốt,tốt,tốt
4,E,hài lòng,hài lòng,hài lòng
5,F,ok,ok,ok
6,G,hài lòng,hài lòng,hài lòng
7,H,tốt,tốt,tốt
8,I,RẤT TỐT,rất tốt,RẤT TỐT
9,J,HÀI LÒNG,hài lòng,HÀI LÒNG




#### **Bước 3: Tách từ và phân tích tần suất từ vựng**

- Sử dụng hàm `str.split()` để tách các từ trong văn bản.
- Sử dụng `explode()` để tách từ trong từng dòng dữ liệu ra thành các hàng riêng biệt.

In [128]:

# Tách từ
df['words'] = df['thai_do_moi'].str.split()

# Tạo DataFrame mới chứa mỗi từ trong một dòng
df_words = df.explode('words')

# Đếm tần suất từ
word_counts = df_words['words'].value_counts()

# Hiển thị 10 từ xuất hiện nhiều nhất
word_counts.head(10)


Unnamed: 0_level_0,count
words,Unnamed: 1_level_1
hài,5
lòng,5
tốt,4
ổn!!!,2
tôi,1
chất,1
lượng,1
tạm,1
ok,1
rất,1




#### **Bước 4: Phân tích cụm từ**

Bạn cũng có thể phân tích các cụm từ (bigrams) trong văn bản:

In [129]:

from sklearn.feature_extraction.text import CountVectorizer

# Sử dụng CountVectorizer để tạo bigrams
vectorizer = CountVectorizer(ngram_range=(2, 2))
X = vectorizer.fit_transform(df['thai_do_moi'])

# Lấy các bigrams và tần suất xuất hiện
bigrams = vectorizer.get_feature_names_out()
bigram_counts = X.toarray().sum(axis=0)

# Tạo DataFrame chứa bigrams và tần suất
df_bigrams = pd.DataFrame({'bigram': bigrams, 'count': bigram_counts})

# Hiển thị 10 cụm từ phổ biến nhất
df_bigrams.sort_values(by='count', ascending=False).head(10)


Unnamed: 0,bigram,count
1,hài lòng,5
0,chất lượng,1
2,lòng chất,1
3,lượng ổn,1
4,rất tốt,1
5,tôi hài,1
6,tạm ổn,1




#### **Bước 5: Lưu kết quả phân tích**

Sau khi phân tích, bạn có thể lưu kết quả vào file CSV để sử dụng trong các bước tiếp theo hoặc báo cáo.

In [130]:

# Lưu kết quả tần suất từ
word_counts.to_csv('word_counts.csv')

# Lưu kết quả tần suất bigram
df_bigrams.to_csv('bigram_counts.csv', index=False)


---

### **Ứng dụng cụ thể cho sinh viên kinh tế**

1. **Phân tích cảm xúc**: Với dữ liệu đánh giá sản phẩm, bạn có thể phân tích cảm xúc (tích cực, tiêu cực) dựa trên các từ khóa hoặc cụm từ thường xuyên xuất hiện.
2. **Phân tích khảo sát khách hàng**: Nếu có dữ liệu khảo sát, bạn có thể sử dụng Pandas để phân tích các câu trả lời mở, tìm ra các xu hướng trong phản hồi của khách hàng.
3. **Phân tích báo cáo tài chính**: Phân tích các báo cáo tài chính dạng văn bản để trích xuất thông tin như xu hướng thị trường, dự báo kinh tế, v.v.

Pandas không chỉ giúp xử lý dữ liệu số mà còn rất mạnh mẽ trong việc xử lý dữ liệu văn bản, đặc biệt là trong các bài toán phân tích ngôn ngữ.

In [None]:
# Giả sử có một DataFrame với dữ liệu văn bản
data = {
    'Text': ["Economics is the study of how people use resources.",
             "Language is a system of communication used by people."]
}
text_df = pd.DataFrame(data)

# Tách từ trong văn bản
text_df['Words'] = text_df['Text'].str.split()
print(text_df)

# Đếm tần suất từ
word_count = text_df['Words'].apply(len)
print("Word count per sentence:", word_count)



### 6.  Phân tích dữ liệu kinh tế với Pandas

In [None]:

# Import dữ liệu từ file CSV
url = 'https://example.com/gdp_data.csv'  # Thay bằng link thực tế
gdp_data = pd.read_csv(url)

# Xem thông tin tổng quát
print(gdp_data.head())
print(gdp_data.info())
print(gdp_data.describe())

# Tính toán trung bình GDP
average_gdp = gdp_data['GDP'].mean()
print("Average GDP:", average_gdp)




#### 7. Trực quan hóa dữ liệu với Pandas


In [None]:
# Trực quan hóa GDP qua các năm
df.plot(x='Year', y='GDP', kind='line', title='GDP Over Years')

# Trực quan hóa tần suất từ
word_count.plot(kind='bar', title='Word Count per Sentence')


### Bài Tập Thực Hành:


1. Tạo một DataFrame từ một file CSV:
- Import dữ liệu từ file CSV
-  hiển thị thông tin tổng quát về dữ liệu.
2. Lọc và chọn lọc dữ liệu:
-Lọc các hàng theo một điều kiện cụ thể, như GDP lớn hơn 3.0, và chọn các cột 'Year' và 'GDP'.
3. Xử lý dữ liệu thiếu:
Kiểm tra các giá trị thiếu trong DataFrame và thay thế chúng bằng giá trị trung bình của cột.
4. Làm việc với dữ liệu chuỗi thời gian:
Chuyển đổi cột ngày tháng trong DataFrame thành dạng datetime.
Thực hiện phân tích theo năm hoặc tháng và hiển thị kết quả.

Dưới đây là các file CSV mà bạn có thể tải về:

1. [Dữ liệu doanh thu cửa hàng - revenue_data.csv](sandbox:/mnt/data/revenue_data.csv)
2. [Dữ liệu chi tiêu cá nhân - personal_expenses_data.csv](sandbox:/mnt/data/personal_expenses_data.csv)