TÓM TẮT NỘI DUNG:
1. Phân loại và biểu diễn thông tin trong máy tính
2. Biểu diễn dữ liệu văn bản
a) Bảng mã ASCII
b) Bảng mã Unicode và tiếng Việt trong Unicode
c) Số hoá văn bản
1. Phân loại và biểu diễn thông tin trong máy tính
2. Biểu diễn dữ liệu văn bản
a) Bảng mã ASCII
b) Bảng mã Unicode và tiếng Việt trong Unicode
c) Số hoá văn bản
1. PHÂN LOẠI VÀ BIỂU DIỄN THÔNG TIN TRONG MÁY TÍNH
Khi đưa vào máy tính thông tin được chuyển thành dữ liệu. Dữ liệu trên máy cũng cần được phân loại cho phù hợp với các phép xử lí trong máy tính.
Ví dụ: đối với các dữ liệu là số có thể tính toán và so sánh. Còn đối với các dữ liệu dạng văn bản thì có thể tách, ghép, so sánh.
Việc mã hóa thông tin thành dữ liệu nhị phân được gọi là biểu diễn thông tin. Biểu diễn thông tin là bước đầu để có thể đưa thông tin vào máy tính.
2. BIỂU DIỄN DỮ LIỆU VĂN BẢN
Việc đưa văn bản vào máy tính như thế nào không chỉ phụ thuộc vào kiểu dữ liệu là kí tự, xâu kí tự hay tệp văn bản mà còn phụ thuộc vào các kí tự ấy được mã hóa như thế nào? Cách mã hóa được quy định trong bảng kí tự.
a) Bảng mã ASCII
- Là bảng mã được dùng phổ biến nhất trong tin học - “bảng mã chuẩn của Mĩ để trao đổi thông tin”.
- Ban đầu bảng mã này dùng các mã 7 bit, với 128 (27) mã khác nhau nên chỉ thể hiện được đúng 128 kí tự.
- Bảng mã ASCII mở rộng (8 bit), cho phép mã hoá 256 kí tự, trong đó giữ nguyên 128 kí tự cũ. 128 vị trí được thêm vào trong bảng mã 8 bit so với bảng mã 7 bit được gọi là phần mở rộng của bảng mã ASCII.
- Trong bảng này, muốn lấy mã nhị phân của một kí tự thì chỉ cần ghép 4 bit ở chỉ số hàng với 4 bit ở chỉ số cột tương ứng với kí tự.
- Ví dụ mã nhị phân của "A" (có số thứ tự là 65) là 01000001.
b) Bảng mã Unicode và tiếng Việt trong Unicode
- Unicode thực tế là một bộ tiêu chuẩn biểu diễn kí tự văn bản trong máy tính, cho phép biểu diễn kí tự thuộc nhiều ngôn ngữ khác nhau trên thế giới.
- Các kí tự Unicode có thể mã hóa nhờ một số hệ thống định dạng chuyển đổi (tiếng anh là UTF), trong đó phổ biến nhất là UTF-8 (UTF 8 bit). UTF-8 là hệ thống mã hóa kí tự với độ dài khác nhau (từ 1 tới 5 byte) dành cho Unicode.
=> Như vậy, hiểu một cách ngắn gọn, các bảng mã ASCII và Unicode quy định cách biểu diễn kí tự.
c) Số hóa văn bản
+ Tệp văn bản là định dạng lưu trữ ở bộ nhớ ngoài. Việc số hóa văn bản được thực hiện bằng các phần mềm soạn thảo văn bản như Word (của Microsoft) hay writer (của Open Office).
+ Gần đây người ta có thể nhập văn bản bằng nhận dạng tiếng nói.
Khi đưa vào máy tính thông tin được chuyển thành dữ liệu. Dữ liệu trên máy cũng cần được phân loại cho phù hợp với các phép xử lí trong máy tính.
Ví dụ: đối với các dữ liệu là số có thể tính toán và so sánh. Còn đối với các dữ liệu dạng văn bản thì có thể tách, ghép, so sánh.
Việc mã hóa thông tin thành dữ liệu nhị phân được gọi là biểu diễn thông tin. Biểu diễn thông tin là bước đầu để có thể đưa thông tin vào máy tính.
2. BIỂU DIỄN DỮ LIỆU VĂN BẢN
Việc đưa văn bản vào máy tính như thế nào không chỉ phụ thuộc vào kiểu dữ liệu là kí tự, xâu kí tự hay tệp văn bản mà còn phụ thuộc vào các kí tự ấy được mã hóa như thế nào? Cách mã hóa được quy định trong bảng kí tự.
a) Bảng mã ASCII
- Là bảng mã được dùng phổ biến nhất trong tin học - “bảng mã chuẩn của Mĩ để trao đổi thông tin”.
- Ban đầu bảng mã này dùng các mã 7 bit, với 128 (27) mã khác nhau nên chỉ thể hiện được đúng 128 kí tự.
- Bảng mã ASCII mở rộng (8 bit), cho phép mã hoá 256 kí tự, trong đó giữ nguyên 128 kí tự cũ. 128 vị trí được thêm vào trong bảng mã 8 bit so với bảng mã 7 bit được gọi là phần mở rộng của bảng mã ASCII.
- Trong bảng này, muốn lấy mã nhị phân của một kí tự thì chỉ cần ghép 4 bit ở chỉ số hàng với 4 bit ở chỉ số cột tương ứng với kí tự.
- Ví dụ mã nhị phân của "A" (có số thứ tự là 65) là 01000001.
b) Bảng mã Unicode và tiếng Việt trong Unicode
- Unicode thực tế là một bộ tiêu chuẩn biểu diễn kí tự văn bản trong máy tính, cho phép biểu diễn kí tự thuộc nhiều ngôn ngữ khác nhau trên thế giới.
- Các kí tự Unicode có thể mã hóa nhờ một số hệ thống định dạng chuyển đổi (tiếng anh là UTF), trong đó phổ biến nhất là UTF-8 (UTF 8 bit). UTF-8 là hệ thống mã hóa kí tự với độ dài khác nhau (từ 1 tới 5 byte) dành cho Unicode.
=> Như vậy, hiểu một cách ngắn gọn, các bảng mã ASCII và Unicode quy định cách biểu diễn kí tự.
c) Số hóa văn bản
+ Tệp văn bản là định dạng lưu trữ ở bộ nhớ ngoài. Việc số hóa văn bản được thực hiện bằng các phần mềm soạn thảo văn bản như Word (của Microsoft) hay writer (của Open Office).
+ Gần đây người ta có thể nhập văn bản bằng nhận dạng tiếng nói.
--- The end! ---
CÙNG CHUYÊN MỤC:
Chủ đề 1.MÁY TÍNH VÀ XÃ HỘI TRI THỨC
Bài 1. Thông tin và xử lí thông tin
Bài 2. Vai trò của thiết bị thông minh và tin học đối với xã hội
Bài 3. Một số kiểu dữ liệu và dữ liệu văn bản
Bài 4. Hệ nhị phân và dữ liệu số nguyên
Bài 5. Dữ liệu lôgic
Bài 6. Dữ liệu âm thanh và hình ảnh
Bài 7. Thực hành sử dụng thiết bị thông dụng
Chủ đề 2.Bài 2. Vai trò của thiết bị thông minh và tin học đối với xã hội
Bài 3. Một số kiểu dữ liệu và dữ liệu văn bản
Bài 4. Hệ nhị phân và dữ liệu số nguyên
Bài 5. Dữ liệu lôgic
Bài 6. Dữ liệu âm thanh và hình ảnh
Bài 7. Thực hành sử dụng thiết bị thông dụng
MẠNG MÁY TÍNH VÀ INTERNET
Bài 8. Mạng máy tính trong cuộc sống hiện đại
Bài 9. An toàn trên không gian mạng
Bài 10. Thực hành khai thác tài nguyên trên Internet
Chủ đề 3.Bài 9. An toàn trên không gian mạng
Bài 10. Thực hành khai thác tài nguyên trên Internet
ĐẠO ĐỨC, PHÁP LUẬT VÀ VĂN HÓA TRONG MÔI TRƯỜNG SỐ
Chủ đề 4.
ỨNG DỤNG TIN HỌC
Bài 12. Phần mềm thiết kế đồ hoạ
Bài 13. Bổ sung đối tượng đồ hoạ
Bài 14. Làm việc với đối tượng đường và văn bản
Bài 15. Hoàn thiện hình ảnh đồ hoạ
Chủ đề 5.Bài 13. Bổ sung đối tượng đồ hoạ
Bài 14. Làm việc với đối tượng đường và văn bản
Bài 15. Hoàn thiện hình ảnh đồ hoạ
GIẢI QUYẾT VẤN ĐỀ VỚI SỰ TRỢ GIÚP CỦA MÁY TÍNH
Bài 16. Ngôn ngữ lập trình bậc cao và Python
Bài 17. Biến và lệnh gán
Bài 18. Các lệnh vào ra đơn giản
Bài 19. Câu lệnh điều kiện if
Bài 20. Câu lệnh lặp for
Bài 21. Câu lệnh lặp while
Bài 22. Kiểu dữ liệu danh sách
Bài 23. Một số lệnh làm việc với dữ liệu danh sách
Bài 24. Xâu kí tự
Bài 25. Một số lệnh làm việc với xâu kí tự
Bài 26. Hàm trong Python
Bài 27. Tham số của hàm
Bài 28. Phạm vi của biến
Bài 29. Nhận biết lỗi chương trình
Bài 30. Kiểm thử và gỡ lỗi chương trình
Bài 31. Thực hành viết chương trình đơn giản
Bài 32. Ôn tập lập trình Python
Chủ đề 6.Bài 17. Biến và lệnh gán
Bài 18. Các lệnh vào ra đơn giản
Bài 19. Câu lệnh điều kiện if
Bài 20. Câu lệnh lặp for
Bài 21. Câu lệnh lặp while
Bài 22. Kiểu dữ liệu danh sách
Bài 23. Một số lệnh làm việc với dữ liệu danh sách
Bài 24. Xâu kí tự
Bài 25. Một số lệnh làm việc với xâu kí tự
Bài 26. Hàm trong Python
Bài 27. Tham số của hàm
Bài 28. Phạm vi của biến
Bài 29. Nhận biết lỗi chương trình
Bài 30. Kiểm thử và gỡ lỗi chương trình
Bài 31. Thực hành viết chương trình đơn giản
Bài 32. Ôn tập lập trình Python
HƯỚNG NGHIỆP VỚI TIN HỌC
CÁC CHUYÊN MỤC LIÊN QUAN: