# **Data và các kỹ thuật thu thập, xử lý dữ liệu trước khi sử dụng trong Data Science**

#### **Mục tiêu**
Sau khi hoàn thành bài giảng này, sinh viên sẽ:
- Hiểu rõ về dữ liệu và vai trò của nó trong khoa học dữ liệu.
- Biết cách thu thập dữ liệu từ các nguồn khác nhau.
- Nắm vững các kỹ thuật xử lý dữ liệu (tiền xử lý) trước khi sử dụng cho các nhiệm vụ Data Science.
- Thực hành xử lý dữ liệu trên Google Colab.

---

### **1. Giới thiệu về Dữ liệu (Data)**

- **Dữ liệu** là nguồn tài nguyên quan trọng trong mọi dự án về Data Science. Nó bao gồm các tập hợp thông tin được thu thập và phân tích để đưa ra những hiểu biết có ý nghĩa.
- Dữ liệu có thể có nhiều dạng khác nhau như **dữ liệu có cấu trúc** (bảng, SQL), **dữ liệu phi cấu trúc** (văn bản, hình ảnh) hoặc **dữ liệu bán cấu trúc** (JSON, XML).

### **2. Các phương pháp thu thập dữ liệu**

- **Web Scraping**: Lấy dữ liệu từ các trang web.
- **API**: Sử dụng API để thu thập dữ liệu từ các dịch vụ hoặc nền tảng.
- **Nhập tay**: Người dùng tự nhập dữ liệu từ các khảo sát hoặc biểu mẫu.
- **Cơ sở dữ liệu**: Lấy dữ liệu từ các hệ thống cơ sở dữ liệu.

Ví dụ:

```python
# Web Scraping với BeautifulSoup
import requests
from bs4 import BeautifulSoup

# Lấy trang web
url = "https://example.com"
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')

# Lấy dữ liệu từ trang web
print(soup.title.string)
```

### **3. Tiền xử lý dữ liệu**

Trước khi sử dụng dữ liệu cho các nhiệm vụ Data Science, cần phải thực hiện các bước xử lý dữ liệu để đảm bảo chất lượng và độ chính xác của phân tích.

- **Làm sạch dữ liệu**:
  - Loại bỏ các giá trị bị thiếu.
  - Xử lý các giá trị ngoại lệ.
  - Chuẩn hóa định dạng dữ liệu.

- **Biến đổi dữ liệu**:
  - Chuyển đổi dữ liệu dạng chuỗi thành số.
  - Scale dữ liệu để chuẩn hóa giá trị (MinMaxScaler, StandardScaler).

- **Tách và trộn dữ liệu**:
  - Chia nhỏ dữ liệu thành các tập train/test.
  - Tạo ra các biến số mới dựa trên dữ liệu hiện có.

#### **Ví dụ minh họa trên Google Colab**

##### **Bước 1: Import thư viện và nạp dữ liệu**

```python
import pandas as pd
import numpy as np

# Nạp dữ liệu từ URL
url = "https://example-dataset.csv"
df = pd.read_csv(url)

# Hiển thị vài dòng dữ liệu đầu tiên
df.head()
```

##### **Bước 2: Xử lý dữ liệu bị thiếu (Missing Data)**

```python
# Kiểm tra dữ liệu bị thiếu
print(df.isnull().sum())

# Điền giá trị bị thiếu bằng trung bình của cột
df.fillna(df.mean(), inplace=True)

# Loại bỏ các dòng có giá trị bị thiếu
df.dropna(inplace=True)
```

##### **Bước 3: Chuẩn hóa và chuẩn bị dữ liệu**

```python
from sklearn.preprocessing import StandardScaler

# Chuẩn hóa dữ liệu
scaler = StandardScaler()
df_scaled = scaler.fit_transform(df.select_dtypes(include=[np.number]))

# Chuyển lại thành DataFrame
df_scaled = pd.DataFrame(df_scaled, columns=df.select_dtypes(include=[np.number]).columns)

# Hiển thị dữ liệu đã chuẩn hóa
df_scaled.head()
```

##### **Bước 4: Phân chia dữ liệu thành train/test**

```python
from sklearn.model_selection import train_test_split

# Chia dữ liệu thành tập huấn luyện và kiểm tra
X = df_scaled.drop('target_column', axis=1)
y = df_scaled['target_column']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Kích thước tập huấn luyện: {X_train.shape}")
print(f"Kích thước tập kiểm tra: {X_test.shape}")
```

---

### **4. Các kỹ thuật nâng cao trong tiền xử lý dữ liệu**

- **Xử lý dữ liệu phi cấu trúc**: Văn bản, hình ảnh và âm thanh cần được biến đổi thành dạng có thể phân tích.
- **Encoding dữ liệu phân loại**: Sử dụng **Label Encoding** hoặc **One-Hot Encoding** để biến đổi các biến dạng phân loại thành dạng số.
- **Feature Engineering**: Tạo ra các đặc trưng mới từ dữ liệu hiện có để cải thiện mô hình.

#### **Ví dụ nâng cao**

```python
# One-Hot Encoding cho biến phân loại
df_encoded = pd.get_dummies(df, columns=['categorical_column'])

# Feature Engineering: Tạo một cột mới từ hai cột khác
df['new_feature'] = df['column1'] * df['column2']

df.head()
```

---

### **Tóm tắt và kết luận**
- Dữ liệu cần được thu thập và xử lý cẩn thận trước khi đưa vào phân tích.
- Việc làm sạch, chuẩn hóa, và xử lý dữ liệu là bước quan trọng để đảm bảo các mô hình Data Science hoạt động hiệu quả và chính xác.

#### **Bài tập về nhà**
- Tìm một tập dữ liệu mới từ Kaggle hoặc một nguồn khác, thực hiện các bước thu thập và tiền xử lý dữ liệu trên Google Colab.