Tóm tắt sách Dữ Liệu Lớn Big Data với 8 Câu hỏi lớn Download PDF miễn phí

 Nghe tóm tắt nội dung:


1. Định nghĩa và Nguồn gốc của Dữ liệu Lớn:

·       Không có định nghĩa chính xác: Văn bản nhấn mạnh rằng không có một định nghĩa cụ thể nào cho "dữ liệu lớn" (Big Data).

·       Vượt quá khả năng xử lý: Ý tưởng ban đầu xuất phát từ việc lượng thông tin tăng lên quá lớn, vượt quá khả năng xử lý của các máy tính hiện có, đòi hỏi các kỹ sư phải cải tiến công cụ để phân tích được toàn bộ thông tin.

·       "Ban đầu ý tưởng là dung lượng thông tin đã tăng quá lớn tới mức số lượng cần khảo sát không còn vừa vào bộ nhớ các máy tính dùng để xử lý, do vậy các kỹ sư cần cải tạo các công cụ họ dùng để có thể phân tích được tất cả thông tin."

·       Sự ra đời của công nghệ mới: Điều này dẫn đến sự ra đời của các công nghệ xử lý dữ liệu mới như MapReduce của Google và Hadoop (nguồn mở). Các công nghệ này cho phép quản lý khối lượng dữ liệu lớn hơn mà không cần đưa vào các cấu trúc cơ sở dữ liệu cổ điển.

·       Vai trò của các công ty Internet: Các công ty Internet, với khả năng thu thập lượng lớn dữ liệu và động cơ kinh tế mạnh mẽ, đã trở thành những người sử dụng hàng đầu các công nghệ xử lý dữ liệu hiện đại.

2. Sự Phát triển và Ứng dụng của Dữ liệu Lớn:

·       Cách mạng thông tin: Dữ liệu lớn đánh dấu một cuộc cách mạng thông tin sâu rộng, ảnh hưởng đến mọi lĩnh vực của xã hội, từ thiên văn học, giải mã gen người, đến tài chính.

·       "Để đánh giá mức độ một cuộc cách mạng thông tin đã tiến triển tới đâu, ta hãy xem xét các xu hướng xuyên suốt các lĩnh vực của xã hội."

·       Ví dụ trong thiên văn học: SDSS thu thập dữ liệu trong vài tuần đầu tiên nhiều hơn toàn bộ lịch sử ngành thiên văn trước đó. LSST dự kiến thu thập lượng dữ liệu tương đương mỗi năm ngày.

·       Ví dụ trong giải mã gen: Việc giải mã gen người từ 10 năm mất một thập kỷ, nay một thiết bị có thể xác định trình tự số lượng DNA tương đương chỉ trong một ngày.

·       Ví dụ trong tài chính: Khoảng 7 tỷ cổ phiếu được mua bán mỗi ngày trên thị trường chứng khoán Mỹ, 2/3 trong số đó được giao dịch bằng thuật toán máy tính.

·       Ứng dụng hàng ngày: Dữ liệu lớn hiện diện trong cuộc sống hàng ngày, ví dụ như bộ lọc thư rác, trang web hẹn hò, tính năng tự động sửa lỗi trên điện thoại thông minh.

·       "Mặc dù mới chỉ đang ở buổi bình minh của dữ liệu lớn, chúng ta dựa vào nó hàng ngày."

·       Tiềm năng cải tổ toàn diện: Dữ liệu lớn có khả năng cải tổ mọi thứ từ doanh nghiệp, khoa học, chăm sóc sức khỏe, chính phủ, giáo dục, kinh tế, nhân văn và mọi khía cạnh khác của xã hội.

3. Sự Thay Đổi trong Cách Tiếp Cận Dữ Liệu:

·       Từ "ít" đến "nhiều": Sự thay đổi từ việc chỉ sử dụng một mẫu dữ liệu nhỏ sang việc sử dụng "tất cả" dữ liệu.

·       "Vấn đề là ở chỗ: Sử dụng tất cả dữ liệu, hay chỉ một chút ít?"

·       Vai trò của sự ngẫu nhiên: Jerzy Neyman chứng minh rằng việc xây dựng một mẫu đại diện có mục đích dẫn đến sai sót lớn. Chìa khóa là sử dụng sự ngẫu nhiên để chọn thành phần đưa vào mẫu.

·       Chấp nhận sự hỗn độn: Thay vì cố gắng ngăn chặn lỗi, việc chấp nhận lỗi và sự hỗn độn (ví dụ trong việc thu thập dữ liệu từ Internet) có thể hiệu quả hơn.

·       "Mô hình đơn giản và rất nhiều dữ liệu thắng thế những mô hình phức tạp hơn nhưng dựa trên ít dữ liệu hơn"

·       Ví dụ về hệ thống dịch thuật của Google: Hoạt động tốt nhờ sử dụng lượng dữ liệu lớn hơn nhiều, bao gồm cả dữ liệu "thượng vàng hạ cám" từ Internet.

4. Tầm Quan Trọng của Đo Lường và Phân Tích:

·       Đo lường và hiểu biết: Đo lường là để hiểu biết, và hiểu biết là quyền lực.

·       "Đo lường là để hiểu biết", Lord Kelvin đã phát biểu như vậy. Nó đã trở thành một cơ sở của quyền lực. "Hiểu biết là quyền lực", Francis Bacon nhận định."

·       Phân tích tương quan: Phân tích mối tương quan, mặc dù đã có từ lâu, trở nên hữu dụng hơn với dữ liệu lớn. Chúng ta có thể đặt dữ liệu lớn vào phân tích tương quan để tìm ra các phương tiện đo lường tốt nhất.

·       "Thay cho việc tiếp cận dựa-trên-giả-thuyết, chúng ta có thể sử dụng cách tiếp cận dựa-trên-dữ-liệu."

5. Cảnh Giác Với Các Cạm Bẫy:

·       Quan hệ nhân quả sai lầm: Cần tránh "nhìn ra" những quan hệ nhân quả tưởng tượng, vì não bộ thường "lười" suy nghĩ chậm rãi và có phương pháp.

·       "Cha mẹ thường nói với con cái của họ rằng chúng mắc bệnh cúm vì không đội mũ hoặc mang găng tay trong thời tiết lạnh. Tuy nhiên, không hề có quan hệ nhân quả trực tiếp giữa đội mũ, mang găng và mắc bệnh cúm."

·       Sự hỗn độn trong dữ liệu: Sự không thống nhất định dạng, dữ liệu sai sót, và việc trích xuất/xử lý dữ liệu có thể gây ra sự hỗn độn.

·       Sự đánh đổi giữa chính xác và tần số: Đôi khi cần hy sinh tính chính xác của mỗi điểm dữ liệu cho chiều rộng, hoặc từ bỏ sự chính xác cho tần số.

6. Giá trị của Dữ liệu Lớn và Các Ứng Dụng Thực Tế:

·       Tính "không-cạnh-tranh" của dữ liệu: Giá trị của dữ liệu không giảm đi khi sử dụng, có thể được xử lý lại nhiều lần cho nhiều mục đích khác nhau.

·       "Không giống như những thứ vật chất - ví dụ thực phẩm chúng ta ăn, một cây nến cháy - giá trị của dữ liệu không giảm đi khi nó được sử dụng."

·       Ví dụ về IBM và xe hơi điện: IBM hợp tác với các công ty điện lực và sản xuất xe hơi để thu thập dữ liệu, dự đoán thời gian và địa điểm xe điện sẽ nạp điện, từ đó đưa ra các quyết định về cơ sở hạ tầng và giá cả.

·       Giá trị ẩn của dữ liệu: Giá trị thực sự của dữ liệu giống như một tảng băng trôi, phần lớn giá trị bị ẩn bên dưới bề mặt.

7. Quyền Riêng Tư và Các Rủi Ro:

·       Các ví dụ lịch sử đáng sợ: Dữ liệu từng được sử dụng để phục vụ các mục đích tàn bạo, như bắt giữ người Mỹ gốc Nhật trong Thế chiến II, hoặc trong cuộc diệt chủng người Do Thái của Đức Quốc xã.

·       "Năm 1943 Cục Thống Kê Dân Số Hoa Kỳ bàn giao các địa chỉ khu phố (nhưng không có tên đường và số nhà, để giữ cái luận điểm bịa đặt về bảo vệ sự riêng tư) của những người Mỹ gốc Nhật nhằm dễ bắt giữ họ hơn."

·       Mục đích thứ cấp: Giá trị của thông tin không còn chỉ nằm ở mục đích chính của nó, mà ở những ứng dụng thứ cấp, làm suy yếu vai trò trung tâm của cá nhân trong luật bảo vệ quyền riêng tư.

·       Vô danh hóa không hiệu quả: Các phương pháp vô danh hóa dữ liệu không còn hiệu quả trong nhiều trường hợp, vì dữ liệu lớn giúp tái xác định danh tính.

8. Các Cơ Hội và Thách Thức:

·       Sự trỗi dậy của các "trung gian dữ liệu": Các công ty như Inrix thu thập dữ liệu từ nhiều nguồn để tạo ra sản phẩm có giá trị hơn so với từng công ty riêng lẻ có thể đạt được.

·       "Quy mô không có khối lượng": Các đối tác nhỏ có thể tận hưởng "quy mô không có khối lượng", có sự hiện diện ảo lớn mà không cần tài nguyên vật lý đắt đỏ.

·       Cần có các chuyên gia: Cần có các chuyên gia thống kê, quản lý cơ sở dữ liệu và chuyên gia "dạy máy tính học" để trích xuất trí tuệ từ dữ liệu.

·       Tầm quan trọng của ý tưởng: Quan trọng nhất vẫn là những ý tưởng độc đáo về cách khai thác dữ liệu để mở khóa các loại hình mới của giá trị.

9. Bài học kinh nghiệm từ phân tích thành phố New York:

·       Dữ liệu hóa mọi thứ: Các nhà phân tích đã có thể đạt được những thành tựu, bởi vì rất nhiều đặc tính của thành phố đã được dữ liệu hóa (tuy không phải một cách nhất quán), cho phép họ xử lý được thông tin.

10. Các thông điệp chính:

·       Thế giới này cần hướng tới những gì hiệu quả hơn, nhanh hơn thay vì lúc nào cũng đi tìm quan hệ nhân quả.

·       Thế giới dữ liệu lớn không chỉ dựa vào những con số mà cần kết hợp với ý kiến chủ quan của con người.

 8 Câu hỏi chính:

  • Câu hỏi 1: Dữ liệu lớn (Big Data) được định nghĩa như thế nào?
  • Trả lời: Không có một định nghĩa chính xác và duy nhất cho dữ liệu lớn. Ban đầu, khái niệm này xuất hiện khi lượng thông tin tăng lên quá lớn, vượt quá khả năng xử lý của các máy tính thông thường. Điều này thúc đẩy sự ra đời của các công nghệ xử lý dữ liệu mới như MapReduce và Hadoop, cho phép quản lý và phân tích lượng dữ liệu khổng lồ mà không cần cấu trúc dữ liệu phức tạp như các cơ sở dữ liệu truyền thống. Điểm quan trọng là tập trung vào chính dữ liệu và cách chúng ta sử dụng nó.
  • Câu hỏi 2: Cách mạng dữ liệu đã thay đổi các lĩnh vực khác nhau như thế nào?
  • Trả lời: Cuộc cách mạng dữ liệu đã có tác động sâu sắc đến nhiều lĩnh vực. Ví dụ, trong thiên văn học, các trạm quan sát hiện đại thu thập lượng dữ liệu lớn hơn nhiều so với toàn bộ lịch sử ngành thiên văn trước đó. Trong sinh học, việc giải mã gen người đã trở nên nhanh chóng hơn đáng kể nhờ vào công nghệ mới. Trong tài chính, các thuật toán máy tính dựa trên dữ liệu lớn được sử dụng để giao dịch cổ phiếu. Dữ liệu lớn đang cải tổ mọi thứ, từ doanh nghiệp, khoa học đến chăm sóc sức khỏe, chính phủ, giáo dục, kinh tế, và nhiều khía cạnh khác của xã hội.
  • Câu hỏi 3: Sự chuyển đổi từ thông tin analog sang thông tin kỹ thuật số đã diễn ra như thế nào?
  • Trả lời: Đến năm 2000, chỉ một phần tư thông tin lưu trữ của thế giới được số hóa, phần còn lại vẫn ở dạng analog. Tuy nhiên, thông tin kỹ thuật số phát triển rất nhanh chóng, tăng gấp đôi cứ sau hơn ba năm. Đến năm 2013, lượng thông tin lưu trữ trên thế giới ước tính khoảng 1.200 exabyte, trong đó chưa đến 2% là phi kỹ thuật số. Sự chuyển đổi này cho thấy sự thay đổi đáng kể trong cách chúng ta lưu trữ và xử lý thông tin.
  • Câu hỏi 4: Tại sao "sự hỗn độn" lại quan trọng trong việc xử lý dữ liệu lớn?
  • Trả lời: Trong dữ liệu lớn, chấp nhận "sự hỗn độn" (tức là sai sót, không nhất quán) có thể hiệu quả hơn so với việc cố gắng ngăn chặn nó. Việc sử dụng một lượng lớn dữ liệu, bao gồm cả dữ liệu chất lượng thấp, có thể mang lại kết quả tốt hơn so với việc chỉ sử dụng dữ liệu chất lượng cao nhưng với số lượng ít. Ví dụ, hệ thống dịch thuật của Google hoạt động tốt vì nó sử dụng một lượng lớn dữ liệu "thượng vàng hạ cám" từ Internet. Nguyên tắc "mô hình đơn giản và nhiều dữ liệu thắng thế những mô hình phức tạp hơn nhưng dựa trên ít dữ liệu hơn" là rất quan trọng.
  • Câu hỏi 5: Mối tương quan (correlation) và quan hệ nhân quả (causation) khác nhau như thế nào trong bối cảnh dữ liệu lớn?
  • Trả lời: Phân tích mối tương quan là một công cụ thống kê quan trọng, nhưng trước dữ liệu lớn, tính hữu dụng của nó bị hạn chế. Trong thời đại dữ liệu lớn, chúng ta không cần thiết phải có một giả thuyết chuyên môn để bắt đầu hiểu thế giới. Thay vào đó, chúng ta có thể đặt dữ liệu lớn vào phân tích tương quan để tìm ra các mối quan hệ. Tuy nhiên, cần cẩn trọng với việc nhầm lẫn giữa tương quan và quan hệ nhân quả. Mặc dù mối tương quan có thể giúp chúng ta dự đoán và đưa ra quyết định, nhưng nó không nhất thiết chỉ ra mối quan hệ nhân quả thực sự.
  • Câu hỏi 6: "Dữ liệu hóa" là gì và nó đang thay đổi cuộc sống của chúng ta như thế nào?
  • Trả lời: "Dữ liệu hóa" là quá trình chuyển đổi thông tin dạng tương tự thành dạng số để máy tính có thể xử lý được. Việc này không chỉ giới hạn ở việc số hóa văn bản, hình ảnh, video và âm nhạc, mà còn mở rộng đến việc thu thập và phân tích dữ liệu về các khía cạnh khác nhau của cuộc sống, từ giấc ngủ, hoạt động thể chất đến thói quen tiêu dùng. Dữ liệu hóa vị trí theo thời gian cũng được áp dụng cho con người, mở ra các ứng dụng mới trong các lĩnh vực như giao thông, quảng cáo và chăm sóc sức khỏe.
  • Câu hỏi 7: Giá trị của dữ liệu nằm ở đâu và làm thế nào để khai thác nó một cách hiệu quả?
  • Trả lời: Giá trị của dữ liệu không giảm đi khi nó được sử dụng; nó có thể được xử lý lại và xử lý lại nữa. Dữ liệu có thể được sử dụng nhiều lần cho cùng một mục đích, hoặc được khai thác cho nhiều mục đích khác nhau. Để khai thác giá trị của dữ liệu, cần có sự kết hợp của ba yếu tố: dữ liệu, kỹ năng (chuyên môn về phân tích dữ liệu) và tư duy dữ liệu lớn (ý tưởng độc đáo về cách khai thác dữ liệu). Các nhà trung gian dữ liệu cũng đóng vai trò quan trọng trong việc thu thập, tập hợp và sáng tạo với dữ liệu từ nhiều nguồn khác nhau.
  • Câu hỏi 8: Những nguy cơ tiềm ẩn nào liên quan đến dữ liệu lớn và làm thế nào để bảo vệ quyền riêng tư?
  • Trả lời: Dữ liệu lớn mang đến những nguy cơ liên quan đến quyền riêng tư, dự đoán sai và bị lừa gạt về ý nghĩa của dữ liệu. Việc thu thập và xử lý dữ liệu cá nhân có thể dẫn đến các hành vi phân biệt đối xử hoặc xâm phạm quyền riêng tư. Ngay cả việc vô danh hóa dữ liệu cũng không hoàn toàn hiệu quả, vì danh tính cá nhân có thể được tiết lộ thông qua việc so sánh dữ liệu với các nguồn khác. Để bảo vệ quyền riêng tư, cần có các biện pháp kỹ thuật và pháp lý, cũng như sự thay đổi trong sở thích của người tiêu dùng và sự ra đời của các công ty mới tập hợp và quản lý dữ liệu cá nhân một cách minh bạch và có trách nhiệm
Download sách miễn phí tại đây:





Post a Comment

Mới hơn Cũ hơn