Nghe tóm tắt nội dung:
1. Định nghĩa và Nguồn gốc của Dữ liệu Lớn:
·
Không có định nghĩa chính xác: Văn bản nhấn mạnh rằng
không có một định nghĩa cụ thể nào cho "dữ liệu lớn" (Big Data).
·
Vượt quá khả năng xử lý: Ý tưởng ban đầu xuất
phát từ việc lượng thông tin tăng lên quá lớn, vượt quá khả năng xử lý của các
máy tính hiện có, đòi hỏi các kỹ sư phải cải tiến công cụ để phân tích được toàn
bộ thông tin.
·
"Ban đầu ý tưởng là dung lượng thông tin đã tăng quá
lớn tới mức số lượng cần khảo sát không còn vừa vào bộ nhớ các máy tính dùng để
xử lý, do vậy các kỹ sư cần cải tạo các công cụ họ dùng để có thể phân tích
được tất cả thông tin."
·
Sự ra đời của công nghệ mới: Điều này dẫn đến sự ra
đời của các công nghệ xử lý dữ liệu mới như MapReduce của Google và Hadoop
(nguồn mở). Các công nghệ này cho phép quản lý khối lượng dữ liệu lớn hơn mà
không cần đưa vào các cấu trúc cơ sở dữ liệu cổ điển.
·
Vai trò của các công ty Internet: Các công ty Internet,
với khả năng thu thập lượng lớn dữ liệu và động cơ kinh tế mạnh mẽ, đã trở
thành những người sử dụng hàng đầu các công nghệ xử lý dữ liệu hiện đại.
2. Sự Phát triển và Ứng dụng của Dữ liệu
Lớn:
·
Cách mạng thông tin: Dữ liệu lớn đánh dấu một cuộc cách mạng
thông tin sâu rộng, ảnh hưởng đến mọi lĩnh vực của xã hội, từ thiên văn học,
giải mã gen người, đến tài chính.
·
"Để đánh giá mức độ một cuộc cách mạng thông tin đã
tiến triển tới đâu, ta hãy xem xét các xu hướng xuyên suốt các lĩnh vực của xã
hội."
·
Ví dụ trong thiên văn học: SDSS thu thập dữ liệu
trong vài tuần đầu tiên nhiều hơn toàn bộ lịch sử ngành thiên văn trước đó.
LSST dự kiến thu thập lượng dữ liệu tương đương mỗi năm ngày.
·
Ví dụ trong giải mã gen: Việc giải mã gen người
từ 10 năm mất một thập kỷ, nay một thiết bị có thể xác định trình tự số lượng
DNA tương đương chỉ trong một ngày.
·
Ví dụ trong tài chính: Khoảng 7 tỷ cổ phiếu được mua bán mỗi ngày
trên thị trường chứng khoán Mỹ, 2/3 trong số đó được giao dịch bằng thuật toán
máy tính.
·
Ứng dụng hàng ngày: Dữ liệu lớn hiện diện trong cuộc sống hàng
ngày, ví dụ như bộ lọc thư rác, trang web hẹn hò, tính năng tự động sửa lỗi
trên điện thoại thông minh.
·
"Mặc dù mới chỉ đang ở buổi bình minh của dữ liệu
lớn, chúng ta dựa vào nó hàng ngày."
·
Tiềm năng cải tổ toàn diện: Dữ liệu lớn có khả năng
cải tổ mọi thứ từ doanh nghiệp, khoa học, chăm sóc sức khỏe, chính phủ, giáo
dục, kinh tế, nhân văn và mọi khía cạnh khác của xã hội.
3. Sự Thay Đổi trong Cách Tiếp Cận Dữ Liệu:
·
Từ "ít" đến "nhiều": Sự thay đổi từ việc chỉ
sử dụng một mẫu dữ liệu nhỏ sang việc sử dụng "tất cả" dữ liệu.
·
"Vấn đề là ở chỗ: Sử dụng tất cả dữ liệu, hay chỉ
một chút ít?"
·
Vai trò của sự ngẫu nhiên: Jerzy Neyman chứng minh
rằng việc xây dựng một mẫu đại diện có mục đích dẫn đến sai sót lớn. Chìa khóa
là sử dụng sự ngẫu nhiên để chọn thành phần đưa vào mẫu.
·
Chấp nhận sự hỗn độn: Thay vì cố gắng ngăn chặn lỗi, việc chấp
nhận lỗi và sự hỗn độn (ví dụ trong việc thu thập dữ liệu từ Internet) có thể
hiệu quả hơn.
·
"Mô hình đơn giản và rất nhiều dữ liệu thắng thế
những mô hình phức tạp hơn nhưng dựa trên ít dữ liệu hơn"
·
Ví dụ về hệ thống dịch thuật của Google: Hoạt động tốt nhờ sử
dụng lượng dữ liệu lớn hơn nhiều, bao gồm cả dữ liệu "thượng vàng hạ
cám" từ Internet.
4. Tầm Quan Trọng của Đo Lường và Phân
Tích:
·
Đo lường và hiểu biết: Đo lường là để hiểu biết, và hiểu biết là
quyền lực.
·
"Đo lường là để hiểu biết", Lord Kelvin đã phát
biểu như vậy. Nó đã trở thành một cơ sở của quyền lực. "Hiểu biết là quyền
lực", Francis Bacon nhận định."
·
Phân tích tương quan: Phân tích mối tương quan, mặc dù đã có từ
lâu, trở nên hữu dụng hơn với dữ liệu lớn. Chúng ta có thể đặt dữ liệu lớn vào
phân tích tương quan để tìm ra các phương tiện đo lường tốt nhất.
·
"Thay cho việc tiếp cận dựa-trên-giả-thuyết, chúng
ta có thể sử dụng cách tiếp cận dựa-trên-dữ-liệu."
5. Cảnh Giác Với Các Cạm Bẫy:
·
Quan hệ nhân quả sai lầm: Cần tránh "nhìn
ra" những quan hệ nhân quả tưởng tượng, vì não bộ thường "lười"
suy nghĩ chậm rãi và có phương pháp.
·
"Cha mẹ thường nói với con cái của họ rằng chúng mắc
bệnh cúm vì không đội mũ hoặc mang găng tay trong thời tiết lạnh. Tuy nhiên,
không hề có quan hệ nhân quả trực tiếp giữa đội mũ, mang găng và mắc bệnh
cúm."
·
Sự hỗn độn trong dữ liệu: Sự không thống nhất định
dạng, dữ liệu sai sót, và việc trích xuất/xử lý dữ liệu có thể gây ra sự hỗn
độn.
·
Sự đánh đổi giữa chính xác và tần số: Đôi khi cần hy sinh tính
chính xác của mỗi điểm dữ liệu cho chiều rộng, hoặc từ bỏ sự chính xác cho tần
số.
6. Giá trị của Dữ liệu Lớn và Các Ứng Dụng
Thực Tế:
·
Tính "không-cạnh-tranh" của dữ liệu: Giá trị của dữ liệu
không giảm đi khi sử dụng, có thể được xử lý lại nhiều lần cho nhiều mục đích
khác nhau.
·
"Không giống như những thứ vật chất - ví dụ thực
phẩm chúng ta ăn, một cây nến cháy - giá trị của dữ liệu không giảm đi khi nó
được sử dụng."
·
Ví dụ về IBM và xe hơi điện: IBM hợp tác với các công
ty điện lực và sản xuất xe hơi để thu thập dữ liệu, dự đoán thời gian và địa
điểm xe điện sẽ nạp điện, từ đó đưa ra các quyết định về cơ sở hạ tầng và giá
cả.
·
Giá trị ẩn của dữ liệu: Giá trị thực sự của dữ liệu giống như một
tảng băng trôi, phần lớn giá trị bị ẩn bên dưới bề mặt.
7. Quyền Riêng Tư và Các Rủi Ro:
·
Các ví dụ lịch sử đáng sợ: Dữ liệu từng được sử
dụng để phục vụ các mục đích tàn bạo, như bắt giữ người Mỹ gốc Nhật trong Thế
chiến II, hoặc trong cuộc diệt chủng người Do Thái của Đức Quốc xã.
·
"Năm 1943 Cục Thống Kê Dân Số Hoa Kỳ bàn giao các
địa chỉ khu phố (nhưng không có tên đường và số nhà, để giữ cái luận điểm bịa
đặt về bảo vệ sự riêng tư) của những người Mỹ gốc Nhật nhằm dễ bắt giữ họ
hơn."
·
Mục đích thứ cấp: Giá trị của thông tin không còn chỉ nằm ở
mục đích chính của nó, mà ở những ứng dụng thứ cấp, làm suy yếu vai trò trung
tâm của cá nhân trong luật bảo vệ quyền riêng tư.
·
Vô danh hóa không hiệu quả: Các phương pháp vô danh
hóa dữ liệu không còn hiệu quả trong nhiều trường hợp, vì dữ liệu lớn giúp tái
xác định danh tính.
8. Các Cơ Hội và Thách Thức:
·
Sự trỗi dậy của các "trung gian dữ liệu": Các công ty như Inrix
thu thập dữ liệu từ nhiều nguồn để tạo ra sản phẩm có giá trị hơn so với từng
công ty riêng lẻ có thể đạt được.
·
"Quy mô không có khối lượng": Các đối tác nhỏ có thể
tận hưởng "quy mô không có khối lượng", có sự hiện diện ảo lớn mà
không cần tài nguyên vật lý đắt đỏ.
·
Cần có các chuyên gia: Cần có các chuyên gia thống kê, quản lý cơ
sở dữ liệu và chuyên gia "dạy máy tính học" để trích xuất trí tuệ từ
dữ liệu.
·
Tầm quan trọng của ý tưởng: Quan trọng nhất vẫn là
những ý tưởng độc đáo về cách khai thác dữ liệu để mở khóa các loại hình mới
của giá trị.
9. Bài học kinh nghiệm từ phân tích thành
phố New York:
·
Dữ liệu hóa mọi thứ: Các nhà phân tích đã có thể đạt được những
thành tựu, bởi vì rất nhiều đặc tính của thành phố đã được dữ liệu hóa (tuy
không phải một cách nhất quán), cho phép họ xử lý được thông tin.
10. Các thông điệp chính:
·
Thế
giới này cần hướng tới những gì hiệu quả hơn, nhanh hơn thay vì lúc nào cũng đi
tìm quan hệ nhân quả.
·
Thế
giới dữ liệu lớn không chỉ dựa vào những con số mà cần kết hợp với ý kiến chủ
quan của con người.
8 Câu hỏi chính:
- Câu hỏi 1: Dữ liệu lớn (Big Data) được định nghĩa như thế nào?
- Trả lời: Không có một định nghĩa chính xác và duy nhất cho
dữ liệu lớn. Ban đầu, khái niệm này xuất hiện khi lượng thông tin tăng lên
quá lớn, vượt quá khả năng xử lý của các máy tính thông thường. Điều này
thúc đẩy sự ra đời của các công nghệ xử lý dữ liệu mới như MapReduce và
Hadoop, cho phép quản lý và phân tích lượng dữ liệu khổng lồ mà không cần
cấu trúc dữ liệu phức tạp như các cơ sở dữ liệu truyền thống. Điểm quan
trọng là tập trung vào chính dữ liệu và cách chúng ta sử dụng nó.
- Câu hỏi 2: Cách mạng dữ liệu đã thay đổi các lĩnh vực khác
nhau như thế nào?
- Trả lời: Cuộc cách mạng dữ liệu đã có tác động sâu sắc đến
nhiều lĩnh vực. Ví dụ, trong thiên văn học, các trạm quan sát hiện đại thu
thập lượng dữ liệu lớn hơn nhiều so với toàn bộ lịch sử ngành thiên văn
trước đó. Trong sinh học, việc giải mã gen người đã trở nên nhanh chóng
hơn đáng kể nhờ vào công nghệ mới. Trong tài chính, các thuật toán máy
tính dựa trên dữ liệu lớn được sử dụng để giao dịch cổ phiếu. Dữ liệu lớn
đang cải tổ mọi thứ, từ doanh nghiệp, khoa học đến chăm sóc sức khỏe,
chính phủ, giáo dục, kinh tế, và nhiều khía cạnh khác của xã hội.
- Câu hỏi 3: Sự chuyển đổi từ thông tin analog sang thông tin kỹ
thuật số đã diễn ra như thế nào?
- Trả lời: Đến năm 2000, chỉ một phần tư thông tin lưu trữ của
thế giới được số hóa, phần còn lại vẫn ở dạng analog. Tuy nhiên, thông tin
kỹ thuật số phát triển rất nhanh chóng, tăng gấp đôi cứ sau hơn ba năm.
Đến năm 2013, lượng thông tin lưu trữ trên thế giới ước tính khoảng 1.200
exabyte, trong đó chưa đến 2% là phi kỹ thuật số. Sự chuyển đổi này cho
thấy sự thay đổi đáng kể trong cách chúng ta lưu trữ và xử lý thông tin.
- Câu hỏi 4: Tại sao "sự hỗn độn" lại quan trọng trong
việc xử lý dữ liệu lớn?
- Trả lời: Trong dữ liệu lớn, chấp nhận "sự hỗn độn"
(tức là sai sót, không nhất quán) có thể hiệu quả hơn so với việc cố gắng
ngăn chặn nó. Việc sử dụng một lượng lớn dữ liệu, bao gồm cả dữ liệu chất
lượng thấp, có thể mang lại kết quả tốt hơn so với việc chỉ sử dụng dữ
liệu chất lượng cao nhưng với số lượng ít. Ví dụ, hệ thống dịch thuật của
Google hoạt động tốt vì nó sử dụng một lượng lớn dữ liệu "thượng vàng
hạ cám" từ Internet. Nguyên tắc "mô hình đơn giản và nhiều dữ
liệu thắng thế những mô hình phức tạp hơn nhưng dựa trên ít dữ liệu
hơn" là rất quan trọng.
- Câu hỏi 5: Mối tương quan (correlation) và quan hệ nhân quả
(causation) khác nhau như thế nào trong bối cảnh dữ liệu lớn?
- Trả lời: Phân tích mối tương quan là một công cụ thống kê
quan trọng, nhưng trước dữ liệu lớn, tính hữu dụng của nó bị hạn chế.
Trong thời đại dữ liệu lớn, chúng ta không cần thiết phải có một giả
thuyết chuyên môn để bắt đầu hiểu thế giới. Thay vào đó, chúng ta có thể
đặt dữ liệu lớn vào phân tích tương quan để tìm ra các mối quan hệ. Tuy
nhiên, cần cẩn trọng với việc nhầm lẫn giữa tương quan và quan hệ nhân
quả. Mặc dù mối tương quan có thể giúp chúng ta dự đoán và đưa ra quyết
định, nhưng nó không nhất thiết chỉ ra mối quan hệ nhân quả thực sự.
- Câu hỏi 6: "Dữ liệu hóa" là gì và nó đang thay đổi
cuộc sống của chúng ta như thế nào?
- Trả lời: "Dữ liệu hóa" là quá trình chuyển đổi
thông tin dạng tương tự thành dạng số để máy tính có thể xử lý được. Việc
này không chỉ giới hạn ở việc số hóa văn bản, hình ảnh, video và âm nhạc,
mà còn mở rộng đến việc thu thập và phân tích dữ liệu về các khía cạnh
khác nhau của cuộc sống, từ giấc ngủ, hoạt động thể chất đến thói quen
tiêu dùng. Dữ liệu hóa vị trí theo thời gian cũng được áp dụng cho con
người, mở ra các ứng dụng mới trong các lĩnh vực như giao thông, quảng cáo
và chăm sóc sức khỏe.
- Câu hỏi 7: Giá trị của dữ liệu nằm ở đâu và làm thế nào để
khai thác nó một cách hiệu quả?
- Trả lời: Giá trị của dữ liệu không giảm đi khi nó được sử
dụng; nó có thể được xử lý lại và xử lý lại nữa. Dữ liệu có thể được sử
dụng nhiều lần cho cùng một mục đích, hoặc được khai thác cho nhiều mục
đích khác nhau. Để khai thác giá trị của dữ liệu, cần có sự kết hợp của ba
yếu tố: dữ liệu, kỹ năng (chuyên môn về phân tích dữ liệu) và tư duy dữ
liệu lớn (ý tưởng độc đáo về cách khai thác dữ liệu). Các nhà trung gian
dữ liệu cũng đóng vai trò quan trọng trong việc thu thập, tập hợp và sáng
tạo với dữ liệu từ nhiều nguồn khác nhau.
- Câu hỏi 8: Những nguy cơ tiềm ẩn nào liên quan đến dữ liệu lớn
và làm thế nào để bảo vệ quyền riêng tư?
- Trả lời: Dữ liệu lớn mang đến những nguy cơ liên quan đến quyền riêng tư, dự đoán sai và bị lừa gạt về ý nghĩa của dữ liệu. Việc thu thập và xử lý dữ liệu cá nhân có thể dẫn đến các hành vi phân biệt đối xử hoặc xâm phạm quyền riêng tư. Ngay cả việc vô danh hóa dữ liệu cũng không hoàn toàn hiệu quả, vì danh tính cá nhân có thể được tiết lộ thông qua việc so sánh dữ liệu với các nguồn khác. Để bảo vệ quyền riêng tư, cần có các biện pháp kỹ thuật và pháp lý, cũng như sự thay đổi trong sở thích của người tiêu dùng và sự ra đời của các công ty mới tập hợp và quản lý dữ liệu cá nhân một cách minh bạch và có trách nhiệm
Đăng nhận xét