Bài 3. Giới thiệu về khoa học dữ liệu (Tiếp theo)

H24
Hướng dẫn giải Thảo luận (1)

Dữ liệu giao dịch của một công ty thương mại điện tử:

Mỗi ngày, công ty có thể ghi lại hàng triệu giao dịch, bao gồm thông tin về khách hàng, sản phẩm, giá cả, thời gian giao dịch, phương thức thanh toán, v.v.

Trả lời bởi Nguyễn Việt Dũng
H24
Hướng dẫn giải Thảo luận (1)

Việc áp dụng kiến thức trong môn Toán, như phân tích và xử lí dữ liệu thống kê, vào giải quyết các vấn đề thực tế là một ví dụ rõ ràng về việc áp dụng tri thức. Điều này thể hiện việc sử dụng kiến thức học thuật và kỹ năng tính toán để hiểu, phân tích và giải quyết các vấn đề cụ thể trong thế giới thực. Do đó, việc giải quyết các vấn đề thực tế bằng phân tích và xử lí dữ liệu thống kê không chỉ là một cách tiếp cận hữu ích mà còn là một ví dụ điển hình về phát hiện và áp dụng tri thức.

Trả lời bởi Nguyễn Việt Dũng
H24
Hướng dẫn giải Thảo luận (1)

a) Sai. Dữ liệu lớn thường có nhiều dạng khác nhau, bao gồm dữ liệu có cấu trúc, dữ liệu bán cấu trúc và dữ liệu phi cấu trúc. Ý nghĩa của dữ liệu lớn không phải lúc nào cũng rõ ràng và cần được phân tích để hiểu rõ hơn.

b) Đúng. Phân tích dữ liệu nhằm rút ra các thông tin hữu ích còn tiềm ẩn từ dữ liệu. Phân tích dữ liệu có thể sử dụng các kỹ thuật thống kê, toán học và khoa học máy tính để xử lý và phân tích dữ liệu.
c) Sai. Khai phá dữ liệu không nhằm mục đích tìm ra dữ liệu mới. Khai phá dữ liệu sử dụng các kỹ thuật học máy để tìm ra các mẫu và xu hướng ẩn trong dữ liệu.

d) Đúng. Học máy thúc đẩy việc phát triển những phương pháp mới để khai phá dữ liệu. Học máy cung cấp các thuật toán mạnh mẽ để xử lý và phân tích dữ liệu lớn, giúp tìm ra các mẫu và xu hướng ẩn mà con người khó có thể phát hiện.

Trả lời bởi Nguyễn Việt Dũng
H24
Hướng dẫn giải Thảo luận (1)

Ví dụ về "Giá trị" (Value) của dữ liệu lớn:

Ngành ngân hàng: Ngân hàng có thể phân tích dữ liệu giao dịch của khách hàng để xác định các mẫu gian lận. Việc phát hiện gian lận có thể giúp ngân hàng tiết kiệm hàng triệu USD mỗi năm.

Trả lời bởi Nguyễn Việt Dũng
H24
Hướng dẫn giải Thảo luận (1)

1. Khối lượng (Volume)

- Dữ liệu lớn có kích thước khổng lồ, thường tính bằng terabyte, petabyte hoặc exabyte.
- Ví dụ: dữ liệu giao dịch của một công ty thương mại điện tử, dữ liệu y tế của một bệnh viện, v.v.
2. Tốc độ (Velocity)

- Dữ liệu lớn được tạo ra và cập nhật liên tục, gần như theo thời gian thực.
- Ví dụ: dữ liệu từ mạng xã hội, dữ liệu giao dịch chứng khoán, v.v.
3. Đa dạng (Variety)

- Dữ liệu lớn bao gồm nhiều loại dữ liệu khác nhau, như dữ liệu có cấu trúc, dữ liệu bán cấu trúc và dữ liệu phi cấu trúc.
- Ví dụ: dữ liệu văn bản, dữ liệu hình ảnh, dữ liệu video, v.v.
4. Tính xác thực (Veracity)

- Dữ liệu lớn có thể chứa các lỗi và thiếu chính xác.
- Việc đảm bảo tính chính xác của dữ liệu là một thách thức lớn.
5. Giá trị (Value)

- Dữ liệu lớn có tiềm năng mang lại giá trị to lớn cho nhiều lĩnh vực khác nhau.
- Việc phân tích và khai thác dữ liệu hiệu quả có thể giúp doanh nghiệp tăng doanh thu, giảm chi phí, cải thiện hiệu quả hoạt động và đưa ra quyết định sáng suốt.

Trả lời bởi Nguyễn Việt Dũng
H24
Hướng dẫn giải Thảo luận (1)

Máy tính đóng vai trò quan trọng trong khoa học dữ liệu vì những lý do sau:

- Khả năng xử lý dữ liệu khổng lồ
- Khả năng thực hiện các phép tính phức tạp
- Khả năng tự động hóa các quy trình
- Khả năng trực quan hóa dữ liệu
- Khả năng truy cập và lưu trữ dữ liệu

Trả lời bởi Nguyễn Việt Dũng
H24
Hướng dẫn giải Thảo luận (1)

Ưu điểm của thuật toán song song:

- Tăng tốc độ: Xử lý dữ liệu nhanh hơn bằng cách thực hiện nhiều nhiệm vụ cùng lúc trên nhiều bộ xử lý.
- Khả năng mở rộng: Dễ dàng mở rộng để xử lý lượng dữ liệu lớn hơn bằng cách sử dụng thêm nhiều bộ xử lý.
- Hiệu quả sử dụng tài nguyên: Tận dụng tối đa tài nguyên phần cứng sẵn có, giúp tăng hiệu quả sử dụng.
- Tính linh hoạt: Áp dụng cho nhiều bài toán khác nhau, từ khoa học tính toán đến ứng dụng web.

Trả lời bởi Nguyễn Việt Dũng