Thầy cô kiến thức thâm sâu
Học sinh chăm chỉ bước đầu thành công.

BÀI 28 - THỰC HÀNH TRẢI NGHIỆM TRÍCH RÚT THÔNG TIN VÀ TRI THỨC (KNTT - CS)

Bài 28 - Thực hành trải nghiệm trích rút thông tin và tri thức (kntt)
 Đây là bài soạn lý thuyết tin học 12 - sách Kết nối tri thức. Bài học này thuộc định hướng Khoa học máy tính (CS). Quý Thầy Cô và các em học sinh truy cập để làm tài liệu tham khảo nhé. Chúc Thầy Cô dạy tốt, chúc các em học sinh học giỏi.
Yêu cầu: Phân tích mối quan hệ giữa các nhóm khách hàng với xếp hạng khả năng tín dụng.
 Dữ liệu sử dụng trong bài học được trích rút từ nguồn dữ liệu nêu trong trang web của Cộng đồng Khoa học dữ liệu và Học máy Kaggle. Đây là dữ liệu xếp hạng khả năng tín dụng khách hàng của một đơn vị cho vay tài chính, gồm các cột Mã định danh, Số tuổi, Thu nhập năm (tính theo USD) và khả năng tín dụng (Hình 28.1). Dưới đây, em sẽ được hướng dẫn thực hiện vài thao tác xử lí và phân tích dữ liệu, với một số công cụ của Excel Data Analysis (Microsoft Office 365). Thông qua đó, em có được trải nghiệm bước đầu về việc trích rút thông tin và tri thức hữu ích từ dữ liệu.
Yêu cầu: Bổ sung phân loại dữ liệu từ dữ liệu đã có.
Hướng dẫn: Chuẩn bị dữ liệu gồm nhiều công đoạn khác nhau, là một trong những giai đoạn mất nhiều thời gian và công sức nhất của quy trình khoa học dữ liệu. Tuy nhiên, trong nhiệm vụ này, ta sẽ chỉ thực hiện việc bổ sung thêm cột mới trong bảng dữ liệu đã có. Nói chung, việc thay đổi các cột dữ liệu (cột nào thêm vào, cột nào bỏ đi,…) cần được cân nhắc trước khi bắt đầu giai đoạn Chuẩn bị dữ liệu, xuất phát từ yêu cầu phân tích dữ liệu. Ví dụ, từ yêu cầu phân tích dữ liệu của Nhiệm vụ chung đã nêu ở trên, nhằm phân tích khả năng tín dụng theo độ tuổi hoặc theo mức thu nhập, ta sẽ cần bổ sung các cột Nhóm tuổiMức thu nhập dựa trên số liệu các cột Số tuổiThu nhập năm.
a) Tải dữ liệu vào Power Query
Bước 1. Tải dữ liệu từ trang hanhtrangso.nxbgd.vn và lưu với tên VD_KHDL.
Bước 2. Mở tệp VD_KHDL trong Excel.
Bước 3. Chọn vùng dữ liệu muốn xử lí: chọn Data → Get Data → From Table/Range hoặc Data → From Table tùy theo phiên bản Excel trên từng máy tính cụ thể.
b) Tiền xử lí dữ liệu
Bước 1. Tạo cột Mức thu nhập từ cột Thu nhập năm:
Nháy chuột chọn cột Thu nhập năm;
Trên thanh công cụ, chọn Add Column → Conditional Column (Hình 28.2).
Phân mức thu nhập thành các nhóm: Thấp: <= $25.000; Trung bình: ($25.000 - 50.000]; Khá: ($50.000 - 75.000]; Cao: >= $75.000. Nháy OK để hoàn thành việc phân mức (Hình 28.3).
Bước 2. Thực hiện các thao tác tương tự Bước 1 đối với cột Số tuổi để tạo cột Nhóm tuổi: < 21; 21 – 30; 31 – 40; 41 – 50; > 50.
 Kết quả nhận được là bảng dữ liệu như Hình 28.4.
Bước 3. Lưu dữ liệu đã qua tiền xử lí: Home → Close to hoặc Home → Close/Load to tùy theo cài đặt cụ thể của các phiên bản Excel. Dữ liệu sao xử lí sẽ được lưu thành một Sheet mới. Có thể đổi tên Sheet đó, ví dụ thành “Done Query” cho dễ nhớ để sử dụng sau này.
Bước 4. Có thể thực hiện việc đổi tên bảng dữ liệu đã qua xử lí thành “Processed_Data” để thuận tiện cho việc lập bảng tổng hợp bằng PivotTable sau này:
Nháy chuột vào ô bất kì trong bảng dữ liệu đã qua tiền xử lí.
Trên thanh công cụ, chọn Table Design.
Di chuyển chuột đến Table Name và đổi tên bảng theo yêu cầu (Hình 28.5).
Lưu ý: Sau khi đã lưu kết quả tiền xử lí dữ liệu, nếu muốn tiếp tục thực hiện thêm những thao tác khác với các cột dữ liệu, thì chỉ cần hiện bảng chọn như Hình 28.5, chọn Query → Edit.
c) Tạo trình tự sắp xếp dữ liệu mong muốn
 Cột Khả năng tín dụng có ba hạng mục: Kém, Trung bình, Tốt. Theo trình tự mặc định của bảng chữ cái, khi sắp xếp, dữ liệu cột này sẽ được xếp theo thứ tự Kém - Tốt - Trung bình. Để thay đổi trình tự sắp xếp dữ liệu này theo mong muốn, ví dụ theo trình tự Kém - Trung bình - Tốt, ta cần thực hiện các bước sau:
Bước 1. File → Options → Advanced
Bước 2. Di chuột xuống mục General → Edit Custom List
Bước 3. Tạo danh sách mới: NEW LIST → Add (xem Hình 28.6).
 Làm tương tự bước trên với cột Nhóm tuổi và cột Mức thu nhập để bổ sung các danh sách sắp xếp thứ tự tương ứng: < 21, 21 – 30, 31 – 40, 41 – 50, > 50 và Cao, Khá, Trung bình, Thấp. Yêu cầu: Tổng hợp Khả năng tín dụng theo Mức thu nhập
Hướng dẫn: Sử dụng PivotTable (Bảng tổng hợp) trong Excel để tổng hợp dữ liệu.
a) Khởi tạo bảng PivotTable
Bước 1. Nháy chuột vào ô bất kì trong bảng Processed_Data đã qua tiền xử lí.
Bước 2. Trên thanh công cụ, chọn Insert → PivotTable:
Chọn New wordsheet.
Nháy OK.
b) Tạo bảng tổng hợp Khả năng tín dụng theo Mức thu nhập
Bước 1. Tạo bảng tổng hợp để tính số lượng mỗi hạn mức tín dụng theo từng nhóm thu nhập bằng cách kéo thả các cột vào vùng Columns, RowsValues tương ứng (Hình 28.7). Trong đó, Rows là tiêu chí được sử dụng để tổng hợp dữ liệu có trong Columns.
Bước 2. Thực hiện việc kéo thả các cột dữ liệu vào các nguồn Columns, RowsValues tương ứng và quan sát sự thay đổi kết quả trên màn hình để chọn bảng tổng hợp phù hợp với mong muốn (ví dụ như hình 28.8, trong đó Grand Total là kết quả tổng cộng theo hàng/cột dữ liệu tương ứng).
c) Điều chỉnh việc hiển thị kết quả thống kê
Nhận xét: Có thể thấy, số lượng khách hàng ở mỗi nhóm thu nhập có sự khác biệt quá lớn, việc so sánh các giá trị này giữa các mức tín dụng với nhau không hợp lí. Vì vậy, ta sẽ điều chỉnh bảng tổng hợp trong Hình 28.8 để tính toán tỉ lệ phần trăm tương ứng thay cho số lượng khách hàng tuyệt đối:
Bước 1. Nháy nút phải chuột vào hàng PivotTable đã tạo ra (Hình 28.8).
Bước 2. Trong thực đơn xổ xuống, chọn Show Values As → % of Row Total ta nhận được bảng tổng hợp mới (ví dụ như hình 28.9, trong đó tỉ lệ % tính theo tổng của mỗi hàng tương ứng của bảng).
Yêu cầu: Tạo biểu đồ mô tả dữ liệu tổng hợp do PivotTable tạo ra.
Hướng dẫn: Sử dụng PivotChart trong Excel, một công cụ liên kết với PivotTable để thực hiện nhiệm vụ này.
 Tạo biểu đồ tổng hợp khả năng tín dụng theo nhóm thu nhập:
Bước 1. Nháy chuột vào vị trí bất kì trong bảng tổng hợp do PivotTable tạo ra (Hình 28.9).
Bước 2. Trên thanh công cụ, chọn Insert → PivotChart → Columns → OK. Ta nhận được biểu diễn dữ liệu nêu trên bằng biểu đồ cột (xem hình 28.10).
Lưu ý: Hình 28.10 là biểu đồ kết quả được bổ sung thêm nhãn dữ liệu, tên các mức thu nhập, tiêu đề cột ở mỗi trục biểu đồ,… để dễ dàng đọc số liệu qua biểu đồ. Việc bổ sung này được thực hiện tương tự như khi lập biểu đồ trong Excel.
Yêu cầu: Quan sát kết quả tổng hợp và biểu diễn dữ liệu để rút ra các kết luận về tính chất/mối quan hệ/xu hướng dữ liệu (nếu có) dựa trên mục tiêu phân tích dữ liệu đặt ra.
Hướng dẫn: Việc phân tích kết quả tổng hợp dữ liệu là một phần của quá trình phân tích dữ liệu. Công việc này trên thực tế là một việc trích rút các thông tin và tri thức hữu ích có ý nghĩa để trả lời các câu hỏi xuất phát từ mục tiêu phân tích dữ liệu.
a) Trả lời câu hỏi: Khả năng tín dụng nào có xu hướng ổn định nhất trong các nhóm thu nhập
Trả lời: Căn cứ bảng tổng hợp ngoài biểu đồ tương ứng ở Hình 28.9 và Hình 28.10 có thể dễ dàng nhận thấy, khả năng tín dụng Trung bình ổn định nhất trong tất cả các nhóm thu nhập và chiếm trên 50% tổng số khách hàng của từng nhóm.
b) Hãy cho biết:
Nhóm thu nhập nào có tỉ lệ phần trăm khách hàng có khả năng tín dụng mức Tốt cao nhất?
Nhóm thu nhập nào có tỉ lệ phần trăm khách hàng có khả năng tín dụng mức Kém cao nhất?
Nhóm thu nhập nào có số lượng khách hàng có khả năng tín dụng Tốt gần gấp đôi số khách hàng có khả năng tín dụng Kém? Nhóm thu nhập nào có khả năng tín dụng mức Kém cao hơn mức Tốt?
Lưu ý: Kết quả phân tích dữ liệu có thể trở thành tiền đề cho một nghiên cứu tiếp theo. Ví dụ, trong nhóm khách hàng có mức thu nhập loại Khá, số có khả năng tín dụng mức Kém lớn gần gấp ba số có khả năng tín dụng mức Tốt - điều này có thể gợi ý cho một việc thực hiện một cuộc điều tra xã hội nhằm tìm hiểu nguyên nhân của thực tế này.
CÙNG CHUYÊN MỤC:

PHẦN I. KIẾN THỨC CỐT LÕI CHUNG CHO CẢ HAI ĐỊNH HƯỚNG (CS) VÀ (ICT) - 21 bài.
CHỦ ĐỀ 1. MÁY TÍNH VÀ XÃ HỘI TRI THỨC
CHỦ ĐỀ 2. MẠNG MÁY TÍNH VÀ INTERNET
CHỦ ĐỀ 3. ĐẠO ĐỨC, PHÁP LUẬT VÀ VĂN HÓA TRONG MÔI TRƯỜNG SỐ
CHỦ ĐỀ 4. GIẢI QUYẾT VẤN ĐỀ VỚI SỰ TRỢ GIÚP CỦA MÁY TÍNH
CHỦ ĐỀ 5. HƯỚNG NGHIỆP VỚI TIN HỌC

PHẦN II. ĐỊNH HƯỚNG KHOA HỌC MÁY TÍNH (CS) - 9 bài.
CHỦ ĐỀ 6. MẠNG MÁY TÍNH VÀ INTERNET
CHỦ ĐỀ 7. GIẢI QUYẾT VẤN ĐỀ VỚI SỰ TRỢ GIÚP CỦA MÁY TÍNH

PHẦN III. ĐỊNH HƯỚNG TIN HỌC ỨNG DỤNG (ICT) - 7 bài.
CHỦ ĐỀ 6. MÁY TÍNH VÀ XÃ HỘI TRI THỨC
CHỦ ĐỀ 7. ỨNG DỤNG TIN HỌC

CÁC CHUYÊN MỤC LIÊN QUAN:
☎ TIN HỌC 10-KẾT NỐI TRI THỨC
☎ TIN HỌC 11-KẾT NỐI TRI THỨC
☎ TIN HỌC 12-KẾT NỐI TRI THỨC

Tổng số lượt xem

Chăm chỉ chiến thắng tài năng
khi tài năng không chịu chăm chỉ.

- Tim Notke -

Bản quyền
Liên hệ
Chat Zalo
Chat Facebook