Thầy cô kiến thức thâm sâu
Học sinh chăm chỉ bước đầu thành công.

BÀI 26 - LÀM QUEN VỚI KHOA HỌC DỮ LIỆU (KNTT - CS)

Bài 26 - Làm quen với khoa học dữ liệu (kntt)
 Đây là bài soạn lý thuyết tin học 12 - sách Kết nối tri thức. Bài học này thuộc định hướng Khoa học máy tính (CS). Quý Thầy Cô và các em học sinh truy cập để làm tài liệu tham khảo nhé. Chúc Thầy Cô dạy tốt, chúc các em học sinh học giỏi.
 Khoa học dữ liệu là một lĩnh vực liên ngành, sử dụng các phương pháp khoa học, quy trình, thuật toán để khám phá tri thức từ dữ liệu, kết hợp những tri thức đó với tri thức chuyên ngành làm cơ sở cho những quyết định.
 Nói một cách cụ thể hơn, Khoa học dữ liệu sử dụng các phương pháp và công cụ của: khoa học máy tính, toán học và thống kê kết hợp với tri thức chuyên ngành để giúp tổ chức, cá nhân hiểu rõ hơn về dữ liệu mình sở hữu và tận dụng tri thức này để đưa ra những quyết định phù hợp (Hình 26.1).
 Trong đó:
Khoa học máy tính cung cấp các công cụ và kĩ thuật để xử lí, phân tích và khai phá dữ liệu. Các ngôn ngữ và thư viện lập trình cũng như Học máy cùng với khả năng xử lí dữ liệu có quy mô và độ phức tạp khác nhau, đóng vai trò quan trọng trong việc phân tích, khai phá dữ liệu và xây dựng các mô hình dự đoán.
Toán học và thống kê cung cấp cơ sở cho các phương pháp phân tích và khai phá dữ liệu. Các thuật toán thống kê và toán học giúp kiểm tra giả thuyết, tính toán phân phối xác suất, xác định sự tương quan giữa các biến trong dữ liệu,…
Tri thức chuyên ngành là tri thức của từng lĩnh vực, ví dụ kinh doanh, y tế, khoa học xã hội,… có vai trò quan trọng để hiểu ngữ cảnh và ý nghĩa của dữ liệu. Nó giúp các nhà khoa học dữ liệu đánh giá được chất lượng và độ chính xác của dữ liệu, diễn giải được kết quả phân tích và khai phá dữ liệu theo cách có ý nghĩa phù hợp với lĩnh vực ứng dụng để đưa ra quyết định đúng đắn.
 Mục tiêu chính của Khoa học dữ liệu là phân tích và khai phá dữ liệu để có được tri thức, vận dụng tri thức đó để giải quyết vấn đề và đưa ra các quyết định phù hợp. Các mục tiêu cụ thể của Khoa học dữ liệu có thể được nêu ngắn gọn như sau:
Tổ chức và quản lí dữ liệu tập trung vào việc xây dựng, duy trì hệ thống tổ chức dữ liệu một cách khoa học để đảm bảo tính toàn vẹn, sẵn sàng và quản lí hiệu quả các nguồn dữ liệu. Đây là nhiệm vụ rất quan trọng để tạo ra cơ sở hạ tầng dữ liệu mạnh mẽ và linh hoạt, hỗ trợ quá trình phân tích và ra quyết định trong lĩnh vực Khoa học dữ liệu.
Phân tích dữ liệu nhằm hiểu rõ về nội dung, cấu trúc dữ liệu, xác định các đặc điểm quan trọng, nhận dạng nhóm và xu hướng trong dữ liệu. Việc này giúp tạo ra cái nhìn toàn diện về dữ liệu và hỗ trợ quá trình ra quyết định.
Trực quan hóa dữ liệu nhằm biểu hiện dữ liệu một cách trực quan, dễ hiểu bằng các sơ đồ, biểu đồ hay hình ảnh, giúp người dùng có được cái nhìn tổng quan về dữ liệu. Ví dụ, nhìn biểu đồ trong Hình 26.2 có thể dễ dàng suy ra được nhiệt độ và biên độ nhiệt cũng như tổng lượng mưa trung bình năm,...
Tối ưu hóa quyết định nhằm cải thiện quyết định dựa trên dữ liệu, bao gồm việc sử dụng các thuật toán tối ưu hóa để đưa ra quyết định tốt nhất dựa trên các ràng buộc và mục tiêu. Ví dụ, tối ưu hóa quy trình sản xuất để tối ưu hóa hiệu quả của dây chuyền sản xuất hay sản lượng, chất lượng sản phẩm,...
Khám phá tri thức để tìm ra các mối quan hệ ẩn chứa trong dữ liệu, xác định nguyên nhân và kết quả, tạo ra tri thức mới từ dữ liệu. Đây cũng là mục tiêu cụ thể cao nhất của Khoa học dữ liệu. Ví dụ, trong nghiên cứu dược phẩm, người ta có thể sử dụng dữ liệu bệnh nhân để tìm hiểu mối quan hệ giữa một loại thuốc và các phản ứng phụ, giúp họ hiểu rõ hơn về tác dụng của loại thuốc này đối với sức khỏe của bệnh nhân. Nhiều trang web thương mại điện tử sử dụng dữ liệu lịch sử mua sắm của người dùng để dự đoán và đề xuất sản phẩm mà họ có thể quan tâm,...
 Tất cả các mục tiêu cụ thể nêu trên góp phần vào việc tận dụng dữ liệu để đưa ra những quyết định thông minh, cải thiện hoạt động của tổ chức hoặc doanh nghiệp.
 Sự phát triển trong thời gian gần đây của Khoa học dữ liệu cũng như AI và Học máy không tách rời với sự ra đời và phát triển của dữ liệu lớn. Thuật ngữ dữ liệu lớn, trong ngữ cảnh thông thường, được dùng để chỉ một tập dữ liệu rất lớn và phức tạp mà các công cụ xử lí dữ liệu truyền thống không xử lí được. Dữ liệu lớn thường được đặc trưng bởi “năm chữ V” (5V): khối lượng (Volume), vận tốc (Velocity) và sự đa dạng (Variety), giá trị (Value) và tính xác thực (Veracity). Trong đó, khối lượng đề cập đến kích thước lớn của các cặp dữ liệu đó; vận tốc đề cập đến tốc độ mà dữ liệu đó được tạo ra và cần được phân tích; sự đa dạng đề cập đến nhiều loại dữ liệu khác nhau, có thể ở dạng văn bản, âm thanh, video hoặc các dạng khác; giá trị đề cập đến tính hữu ích của dữ liệu và tính xác thực đề cập đến sự cần thiết phải đảm bảo tính xác thực của dữ liệu do dữ liệu lớn thường có nhiều nhiễu/sai số hoặc không chính xác trong dữ liệu.
 Không thể tận dụng một cách hiệu quả dữ liệu lớn nếu không tự động hóa quy trình xử lí, phân tích và khai phá. Khoa học dữ liệu cùng với AI và Học máy cung cấp các quy trình như vậy. Nói cách khác, việc phân tích và khám phá các nghi thức hữu ích từ dữ liệu lớn có thể được coi là thành tựu và lợi ích chung lớn nhất mà Khoa học dữ liệu đem lại.
 Hình 26.3 cho cái nhìn trực quan về mối quan hệ giữa các lĩnh vực AI, Học máy và khoa học dữ liệu. Có thể thấy đó là mối quan hệ gắn bó và tương hỗ lẫn nhau giữa các lĩnh vực đang phát triển hết sức mạnh mẽ. Chính vì thế, nhiều thành tựu được coi là thành tựu chung của cả ba lĩnh vực; không ít ứng dụng thực tế được mô tả trong các tài liệu khác nhau như là ứng dụng của AI, của Học máy hay của Khoa học dữ liệu tùy theo bối cảnh mà chúng được nhắc tới.
 Dưới đây sẽ đề cập khái quát một số thành tựu cụ thể của Khoa học dữ liệu:
Đổi mới quá trình ra quyết định - ra quyết định dựa trên dữ liệu góp phần tăng hiệu quả công việc: Các tổ chức và cá nhân có thể đưa ra những quyết định sáng suốt và chính xác hơn nhờ việc sử dụng dữ liệu để cung cấp thông tin cho quá trình ra quyết định. Thông qua việc phân tích và khai phá dữ liệu thu thập được, Khoa học dữ liệu có thể đưa ra những dự báo và phân tích xu hướng phát triển, từ đó giúp tổ chức, doanh nghiệp sớm chuẩn bị, sẵn sàng thích nghi với những thay đổi và đưa ra các quyết định kinh doanh phù hợp. Bằng cách sử dụng thuật toán học máy để phân tích và khai phá dữ liệu lớn về các giao dịch, ngân hàng và tổ chức tài chính có thể xác định những mẫu và điểm bất thường, từ đó xác định hoạt động gian lận, giúp ngăn ngừa tổn thất và cải thiện tính bảo mật tổng thể của hệ thống tài chính. Một ví dụ khác đó là Khoa học dữ liệu có khả năng hỗ trợ phân bổ tài nguyên hợp lí nhờ phân tích dữ liệu sử dụng tài nguyên, giúp các tổ chức tối ưu hóa việc phân bổ tài nguyên, giảm các nguy cơ lãng phí.
Tự động hóa và thúc đẩy quá trình đổi mới sáng tạo: Các mô hình Học máy trong Khoa học dữ liệu có thể giúp tự động hóa những tác vụ lặp đi lặp lại và tốn thời gian, cho phép con người tập trung vào những công việc phức tạp và sáng tạo hơn. Ví dụ chúng có thể giúp tự động hóa nhiều quy trình và công việc trong các lĩnh vực sản xuất, hậu cần (logistic), dịch vụ khách hàng, quản lí tài chính, giúp tiết kiệm thời gian và chi phí, tăng tính hiệu quả và độ chính xác. Đồng thời, do các công cụ và nền tảng Khoa học dữ liệu ngày càng trở nên dễ tiếp cận hơn, các tổ chức thuộc mọi lĩnh vực đều có thể vận dụng và hưởng lợi nhờ những khả năng của Khoa học dữ liệu. Vì thế, có thể nói Khoa học dữ liệu góp phần thúc đẩy quá trình đổi mới sáng tạo, tạo ra nhiều cơ hội mới cho các lĩnh vực khác nhau.
Cá nhân hóa các dịch vụ, cải thiện trải nghiệm khách hàng: Khoa học dữ liệu có thể hỗ trợ việc cung cấp các dịch vụ được cá nhân hóa, dựa trên việc phân tích các dữ liệu được thường xuyên cập nhật về khách hàng, giúp các doanh nghiệp có được những thông tin đầy đủ hơn về nhu cầu, sở thích và hành vi của họ. Điều này giúp các doanh nghiệp đưa ra những giải pháp cải thiện trải nghiệm khách hàng, góp phần gia tăng doanh số. Các hệ khuyến nghị (còn được gọi là các hệ tư vấn) định hướng cá nhân hóa, được phát triển và ứng dụng rộng rãi để giới thiệu những sản phẩm hoặc nội dung mà khách hàng có thể quan tâm, đang là một trong các giải pháp kinh doanh hiệu quả. Trong lĩnh vực y tế, y học cá nhân hóa cũng là một trong những thành tựu đáng lưu ý của Khoa học dữ liệu. Tiếp cận sử dụng Khoa học dữ liệu và Học máy, thông qua việc phân tích và khai thác các bộ dữ liệu lớn về thông tin di truyền và y tế liên quan, cho phép đưa ra phác đồ điều trị phù hợp với từng bệnh nhân, giúp nâng cao hiệu quả và kết quả chăm sóc sức khỏe cộng đồng.
CÙNG CHUYÊN MỤC:

PHẦN I. KIẾN THỨC CỐT LÕI CHUNG CHO CẢ HAI ĐỊNH HƯỚNG (CS) VÀ (ICT) - 21 bài.
CHỦ ĐỀ 1. MÁY TÍNH VÀ XÃ HỘI TRI THỨC
CHỦ ĐỀ 2. MẠNG MÁY TÍNH VÀ INTERNET
CHỦ ĐỀ 3. ĐẠO ĐỨC, PHÁP LUẬT VÀ VĂN HÓA TRONG MÔI TRƯỜNG SỐ
CHỦ ĐỀ 4. GIẢI QUYẾT VẤN ĐỀ VỚI SỰ TRỢ GIÚP CỦA MÁY TÍNH
CHỦ ĐỀ 5. HƯỚNG NGHIỆP VỚI TIN HỌC

PHẦN II. ĐỊNH HƯỚNG KHOA HỌC MÁY TÍNH (CS) - 9 bài.
CHỦ ĐỀ 6. MẠNG MÁY TÍNH VÀ INTERNET
CHỦ ĐỀ 7. GIẢI QUYẾT VẤN ĐỀ VỚI SỰ TRỢ GIÚP CỦA MÁY TÍNH

PHẦN III. ĐỊNH HƯỚNG TIN HỌC ỨNG DỤNG (ICT) - 7 bài.
CHỦ ĐỀ 6. MÁY TÍNH VÀ XÃ HỘI TRI THỨC
CHỦ ĐỀ 7. ỨNG DỤNG TIN HỌC

CÁC CHUYÊN MỤC LIÊN QUAN:
☎ TIN HỌC 10-KẾT NỐI TRI THỨC
☎ TIN HỌC 11-KẾT NỐI TRI THỨC
☎ TIN HỌC 12-KẾT NỐI TRI THỨC

Tổng số lượt xem

Chăm chỉ chiến thắng tài năng
khi tài năng không chịu chăm chỉ.

- Tim Notke -

Bản quyền
Liên hệ
Chat Zalo
Chat Facebook