"Dữ liệu lớn" ra đời cùng với sự tiến bộ của khoa học công nghệ cao, đặc biệt là công nghệ thông tin. (Ảnh minh họa) |
Theo đó, "Dữ liệu lớn" là một khái niệm quan trọng và rất được quan tâm trong mấy năm trở lại đây trong nhiều lĩnh vực của cuộc sống xã hội, từ chính trị, kinh tế đến văn hóa - xã hội. Hiểu một cách chung nhất, đây là thuật ngữ chỉ tập hợp dữ liệu lớn và phức tạp đến mức khó có thể xử lý bằng các công cụ hay ứng dụng quản trị và phân tích dữ liệu truyền thống. Mục đích xử lý các "Dữ liệu lớn" là để phục vụ cho nhu cầu phát triển của nhân loại.
Bối cảnh ra đời
"Dữ liệu lớn" liên quan đến ba bối cảnh chính.
Một là, "Dữ liệu lớn" tồn tại ngày càng nhiều quanh ta như một hiện thực khách quan trong mọi lĩnh vực hoạt động của con người, chủ yếu xuất phát từ các giao dịch thương mại, các mạng xã hội như Twitter, Facebook, các phương tiện lưu trữ số liệu xã hội như các máy móc thu/phát hay thiết bị cảm biến… Cùng với sự phát triển của cuộc sống xã hội hiện đại, tốc độ tri thức được tạo ra là rất lớn.
Hai là, "Dữ liệu lớn" ra đời cùng với sự tiến bộ của khoa học công nghệ cao, đặc biệt là công nghệ thông tin. Nếu như đến năm 2000, mới chỉ khoảng 1/4 tri thức của nhân loại được số hóa thì 15 năm sau, hầu hết tri thức của nhân loại đã được lưu trữ trong các phương tiện công nghệ thông tin hiện đại, tạo điều kiện dễ dàng cho việc xử lý và lưu trữ. Điều này rất khác với hoàn cảnh mấy chục năm trước, khi khả năng kiểm tra đối tượng trong nhiều tập hợp cần quan tâm là điều khó khả thi.
Ba là, việc xử lý "Dữ liệu lớn" gắn liền với nhu cầu giải quyết nhiều quan tâm của xã hội khi phương tiện truyền thống khác như xác suất, thống kê, phương pháp suy luận thông thường tỏ ra thiếu hiệu quả và không chính xác, kể cả khi đã sử dụng các lý thuyết hiện đại mà con người có thể nghĩ ra được cho đến nay. Có thể nói, việc ra đời ứng dụng "Dữ liệu lớn" đã làm thay đổi một cách cơ bản phương thức con người đánh giá tình hình và ra quyết định trong tổ chức đời sống xã hội.
Vai trò đầu tàu của Mỹ
Mỹ hiện là quốc gia đi đầu trong lĩnh vực này dựa vào sức mạnh to lớn trong sáng chế, công nghệ cũng như nhu cầu của nước này trong các hoạt động đối nội và đối ngoại. Ngày 29/3/2012, Văn phòng chính sách khoa học và công nghệ thuộc Văn phòng điều hành của Tổng thống Mỹ đã công bố 84 chương trình về "Dữ liệu lớn" thuộc sáu bộ của chính quyền liên bang. Những chương trình này đề cập thách thức và cơ hội của cuộc cách mạng "Dữ liệu lớn" và xem việc tìm lời giải cho vấn đề "Dữ liệu lớn" là trách nhiệm của các cơ quan Chính phủ cũng như của việc đổi mới và khám phá khoa học.
Một số cơ quan của Mỹ đã chi nhiều tiền cho việc xử lý "Dữ liệu lớn" là Bộ Quốc phòng (nhằm đánh giá các tình huống phức tạp để hỗ trợ tác chiến, thay thế cho những công việc tốn kém và chậm chạp do con người làm), Bộ Năng lượng (nhiều chương trình được xây dựng nhằm tạo ra khả năng dẫn đầu về các kỹ thuật quản lý, hiển thị và phân tích dữ liệu lớn), các cơ quan liên quan đến dự báo thời tiết...
Ngoài ra có nhiều chương trình ở các lĩnh vực khác như an ninh quốc gia (từ phân tích và dự báo các thảm họa thiên nhiên đến các vụ tấn công khủng bố), dịch vụ cho sức khoẻ con người (ngăn chặn và điều khiển dịch bệnh, chế tạo thuốc...), nghiên cứu không gian, nghiên cứu Trái đất...
Một ví dụ điển hình trong ứng dụng "Dữ liệu lớn" tại Mỹ là việc Tổng thống Barack Obama dùng công nghệ khai phá dữ liệu (data mining) để chiến thắng trong cuộc chạy đua với ứng cử viên Đảng Cộng hòa Mitt Romney vào Nhà Trắng năm 2012. Ông Obama đã sử dụng một đội ngũ gần 150 kỹ thuật viên từ đầu năm tranh cử để thu thập và tạo ra một cơ sở dữ liệu lớn chứa tiểu sử riêng của các cử tri tiềm năng từ nhiều nguồn mạng xã hội đa dạng (trong đó có 16 triệu người đăng ký Twitter của Obama - so với 500 nghìn người đăng ký với Romney). Trên cơ sở phân tích các nhu cầu của cử tri, đội quân của Obama đã đưa ra những hình thức vận động thích hợp với cử tri, góp phần đáng kể vào chiến thắng cuối cùng.
Tuy nhiên, tính nhạy cảm quanh thông tin cá nhân và an ninh là trở ngại trong việc ứng dụng "Dữ liệu lớn" tại Mỹ. Thêm một thách thức lớn khác đến từ vấn đề nhân sự. Người đủ kỹ năng để vận hành các ứng dụng "Dữ liệu lớn" hiện đang rất thiếu. Vào năm 2018, chỉ riêng Mỹ sẽ thiếu khoảng 140.000-190.000 người được đào tạo phân tích sâu và khoảng 1,5 triệu người có kỹ năng quản lý, định lượng để có thể phác thảo khung và đọc các phân tích hiệu quả, làm nền tảng đưa ra các quyết định.
Cơ hội cho Việt Nam
Việt Nam đang có nhu cầu rất lớn đối với việc tiếp cận và xử lý "Dữ liệu lớn". Thứ nhất, trong một nền kinh tế đang phát triển nhanh, việc áp dụng "Dữ liệu lớn" của Việt Nam là rất cần thiết. Thứ hai, Việt Nam cũng có nhu cầu cao trong việc xử lý "Dữ liệu lớn" để ứng phó với biến đổi khí hậu. Thứ ba, ứng dụng xử lý "Dữ liệu lớn" giúp cho Việt Nam giải quyết các bài toán quản lý hành chính, giao thông, phát triển dịch vụ…
Với hơn 36 triệu người dùng Internet, Việt Nam đứng trước một cơ hội vô cùng to lớn về việc khai thác "Dữ liệu lớn". Đặc biệt, giai đoạn 2014-2016, xu hướng mobile và lượng người dùng Internet 3G sẽ tiếp tục tăng mạnh. Các dịch vụ cung cấp nội dung trên nền mạng viễn thông (OTT) và truyền thông xã hội đóng góp hơn 80% phương thức giao tiếp online, video online và nội dung số mobile. Điều này góp phần đẩy mạnh xu hướng truyền thông đa phương tiện, đa màn hình sẽ bùng nổ với độ phủ sóng cao. Việt Nam sẽ là một kho dữ liệu vô cùng lớn cho việc ứng dụng "Dữ liệu lớn". Trong tương lai gần, Việt Nam có tiềm năng trở thành nhà cung cấp dịch vụ công nghệ thông tin, từ phát triển phần mềm phức tạp cho đến phân tích dữ liệu.
Đầu tư của các doanh nghiệp lớn trên thế giới cho "Dữ liệu lớn" hiện nay có thể lên đến 80-90% tổng đầu tư cho công nghệ thông tin. Tuy nhiên, ở Việt Nam, việc đầu tư và áp dụng còn quá ít ỏi và sơ sài.
Mặt khác, bản thân việc áp dụng "Dữ liệu lớn" nói chung và với Việt Nam nói riêng cũng tiếp tục đứng trước thách thức về khoa học. Dự báo của Gartner, công ty tư vấn và nghiên cứu công nghệ thông tin hàng đầu thế giới, cho rằng đến cuối năm 2015, có thể có khoảng 85% trong số các công ty lớn nhất của Mỹ thất bại trong việc khai thác "Dữ liệu lớn" do phương pháp và kỹ thuật chưa đáp ứng được nhu cầu sử dụng, trong khi đó lại chưa thể áp dụng được phương pháp mới thay thế.
Ngoài ra còn rất nhiều vấn đề công nghệ cần phải được giải quyết để khai thác hết "Dữ liệu lớn". Chẳng hạn, phải có những phương tiện để thu thập thật nhiều dữ liệu và phải có nơi để chứa chúng. Hạ tầng công nghệ thông tin của các trường đại học ở Việt Nam hiện nay hầu như không đủ mạnh để có thể lưu trữ các dữ liệu lớn. Hơn hết, việc tiếp cận dữ liệu cần phải được mở rộng.
Việc áp dụng công nghệ thông tin ở mức độ cao cũng đặt ra những áp lực cho Việt Nam từ các góc độ chi phí, khả năng kết nối, rủi ro khi gặp tai nạn hoặc tin tặc… Trong những ngày đầu năm 2015, chỉ riêng việc đường truyền Internet bị đứt đoạn đã khiến việc áp dụng công nghệ thông tin của nhiều doanh nghiệp trong và ngoài nước tại Việt Nam đứng trước những khó khăn lớn trong điều hành sản xuất, kinh doanh.
Việt Nam cũng cần một môi trường pháp lý đủ mạnh để điều chỉnh những vấn đề phát sinh từ việc áp dụng công nghệ "Dữ liệu lớn". Việc đi tắt đón đầu công nghệ như thế nào cho hiệu quả là một bài toán quan trọng đặt ra với Chính phủ và các doanh nghiệp Việt Nam trong lĩnh vực này.
Hoàng Bách