Database
 sql >> Cơ Sở Dữ Liệu >  >> RDS >> Database

Hiểu 3 đặc điểm chính của Dữ liệu lớn

Thực tế là các tổ chức phải đối mặt với những thách thức về Dữ liệu lớn là phổ biến hiện nay. Thuật ngữ Dữ liệu lớn đề cập đến việc sử dụng một tập hợp nhiều công nghệ, cả cũ và mới, để trích xuất một số thông tin có ý nghĩa từ một đống dữ liệu khổng lồ. Tập dữ liệu không chỉ lớn mà còn có những thách thức riêng trong việc thu thập, quản lý và xử lý chúng. Không giống như dữ liệu tồn tại trong cơ sở dữ liệu quan hệ có cấu trúc, định dạng dữ liệu lớn có thể được cấu trúc, bán cấu trúc đến phi cấu trúc hoặc được thu thập từ các nguồn khác nhau với các kích thước khác nhau. Bài viết này đi sâu vào các khía cạnh cơ bản của Dữ liệu lớn, các đặc điểm cơ bản của nó và cung cấp cho bạn gợi ý về các công cụ và kỹ thuật được sử dụng để xử lý nó.

Tổng quan

Thuật ngữ Dữ liệu lớn chỉ hiển thị về kích thước của dữ liệu. Điều này đúng theo một nghĩa nào đó, nhưng không đưa ra bức tranh toàn cảnh. Những thách thức liên quan đến nó không chỉ đơn thuần là về quy mô của nó. Trên thực tế, ý tưởng này phát triển để đặt tên cho một biển dữ liệu được thu thập từ nhiều nguồn, định dạng và kích thước khác nhau, đồng thời, rất khó để khai thác hoặc nhận được giá trị từ nó. Sự gia tăng của công nghệ mới nổi và việc sử dụng Internet ngày càng tăng đã tạo động lực cho khối lượng và sự chênh lệch. Khối lượng tiếp tục tăng lên với mọi trao đổi thông tin qua Internet hoặc thậm chí là các đối tượng IoT nhỏ mà chúng tôi sử dụng. Chỉ cần nhận một cuộc điện thoại hoặc bật camera quan sát có thể tạo ra một chuỗi dữ liệu. Ngày nay, hầu hết các thiết bị đều được kết nối trực tuyến. Bây giờ, nếu một tổ chức muốn thu thập thông tin đó trực tuyến, nó cần một quy trình xử lý đặc biệt vì dữ liệu được tạo ra sẽ rất lớn. Hơn nữa, có thể không có sự đồng nhất trong định dạng dữ liệu được thu thập. Điều này làm tăng thêm sự phức tạp khi chúng ta phải xử lý dữ liệu có cấu trúc, bán cấu trúc hoặc phi cấu trúc. Các công cụ mà chúng tôi sử dụng cho đến nay để sắp xếp dữ liệu không có khả năng xử lý nhiều loại và khối lượng như vậy. Do đó, chúng ta có thể nói rằng thuật ngữ Dữ liệu lớn thực sự áp dụng cho dữ liệu không thể được xử lý hoặc phân tích thông qua các công cụ và kỹ thuật truyền thống thường được sử dụng để xử lý dữ liệu có cấu trúc hoặc bán cấu trúc, chẳng hạn như sử dụng cơ sở dữ liệu quan hệ, XML, v.v.

Các tổ chức ngày nay có đầy đủ dữ liệu phi cấu trúc hoặc bán cấu trúc có sẵn ở định dạng thô. Những dữ liệu này có thể là vô số thông tin nếu được xử lý và giá trị được nhận ra từ nó. Nhưng, vấn đề là làm như thế nào. Các kỹ thuật và công cụ truyền thống, chẳng hạn như cơ sở dữ liệu quan hệ, không đủ khả năng để xử lý một khối lượng lớn dữ liệu đa dạng như vậy. Đây cũng là một vấn đề hai lưỡi đối với các tổ chức, bởi vì chỉ cắt nhỏ chúng sẽ đồng nghĩa với việc mất thông tin có giá trị — nếu có — và việc giữ lại chúng là một sự lãng phí tài nguyên. Do đó, một số công cụ và kỹ thuật được tìm kiếm để giải quyết vấn đề. Đôi khi, chúng ta khá chắc chắn về giá trị tiềm năng của nó và có thể gặt hái được một mỏ vàng thông tin, nhưng nếu không có các công cụ thích hợp, quá trình kinh doanh sẽ bị đánh thuế khá lớn khi thu được bất kỳ lợi ích nào từ nó. Dữ liệu ngày nay rất lớn và bùng nổ giống như bất kỳ thứ gì trong những năm gần đây; Nhân tiện, dường như không có gì ngăn cản được.

Bùng nổ thông tin

Dữ liệu lớn đang trở nên lớn hơn mỗi phút trong hầu hết mọi lĩnh vực, có thể là công nghệ, truyền thông, bán lẻ, dịch vụ tài chính, du lịch và mạng xã hội, chỉ là một vài trong số đó. Khối lượng xử lý dữ liệu mà chúng ta đang nói đến là sự xáo trộn tâm trí. Dưới đây là một số thông tin thống kê để cung cấp cho bạn ý tưởng:

  • Các kênh thời tiết nhận được 18.055.555 yêu cầu dự báo mỗi phút.
  • Người dùng Netflix phát 97.222 giờ video mỗi phút.
  • Người dùng Skype thực hiện 176.220 cuộc gọi mỗi phút.
  • Người dùng Instagram đăng 49.380 ảnh mỗi phút.

Những con số này đang tăng lên hàng năm, với số lượng người sử dụng Internet ngày càng tăng. Năm 2017, tỷ lệ sử dụng Internet lên tới 47% (3,8 tỷ người) dân số thế giới. Với số lượng thiết bị điện tử ngày càng tăng, dữ liệu đầu ra gần đúng của chúng tôi được ước tính là 2,5 tạ triệu byte mỗi ngày và đang tăng lên.

Thống kê của Google Tìm kiếm cho thấy 3,5 tỷ lượt tìm kiếm mỗi ngày, trung bình hơn 40.000 lượt tìm kiếm mỗi giây. Chúng ta cũng không nên bỏ lỡ rằng các công cụ tìm kiếm khác cũng đang thực hiện tìm kiếm. Báo cáo Thống kê Email, 2015-2019 của Radicati Group, Inc., cho thấy 2,9 tỷ người dùng e-mail vào năm 2019.

Trong một nỗ lực ước tính có bao nhiêu bức ảnh sẽ được chụp trong năm 2017:Nếu có 7,5 tỷ người trên thế giới vào năm 2017, với khoảng 5 tỷ người có điện thoại di động, thì một dự đoán có thể xảy ra là 80% trong số đó có camera tích hợp. Điều đó có nghĩa là có khoảng 4 tỷ người sử dụng máy ảnh của họ. Nếu họ chụp 10 bức ảnh mỗi ngày, tương đương 3.650 bức ảnh mỗi năm cho mỗi người, thì con số này sẽ tăng thêm khoảng 14 nghìn tỷ bức ảnh được chụp mỗi năm.

Do đó, khi chúng ta nói Dữ liệu lớn, về cơ bản nó đề cập đến dữ liệu hoặc tập hợp các bản ghi quá lớn để có thể phỏng đoán. Chúng được tạo ra thông qua các công cụ tìm kiếm, tin học kinh doanh, mạng xã hội, phương tiện truyền thông xã hội, hệ gen, khí tượng, dự báo thời tiết và nhiều nguồn khác. Điều này rõ ràng không thể được vận hành bằng cách sử dụng các công cụ và kỹ thuật quản lý cơ sở dữ liệu hiện có. Dữ liệu lớn mở ra một lĩnh vực đầy thách thức lớn về lưu trữ, nắm bắt, quản lý, bảo trì, phân tích, nghiên cứu, các công cụ mới để xử lý chúng và những thứ tương tự.

Đặc điểm của Dữ liệu lớn

Đối với tất cả những việc lớn, nếu chúng ta muốn quản lý chúng, chúng ta cần phải mô tả đặc điểm của chúng để tổ chức sự hiểu biết của chúng ta. Do đó, Dữ liệu lớn có thể được định nghĩa bằng một hoặc nhiều trong ba đặc điểm, ba đặc điểm V: khối lượng cao , cao đa dạng vận tốc cao . Những đặc điểm này đặt ra một số câu hỏi quan trọng không chỉ giúp chúng ta giải mã nó mà còn cung cấp cái nhìn sâu sắc về cách xử lý dữ liệu lớn, khác nhau ở tốc độ có thể quản lý được trong một khung thời gian hợp lý để chúng ta có thể tận dụng được giá trị của nó, hãy làm một số phân tích thời gian thực và nhanh chóng đưa ra phản hồi sau đó.

  • Âm lượng: Khối lượng đề cập đến kích thước tuyệt đối của dữ liệu luôn bùng nổ của thế giới máy tính. Nó đặt ra câu hỏi về số lượng dữ liệu.
  • Vận tốc: Vận tốc đề cập đến tốc độ xử lý. Nó đặt ra câu hỏi về tốc độ xử lý dữ liệu.
  • Đa dạng: Đa dạng đề cập đến các loại dữ liệu. Nó đặt ra câu hỏi về sự khác biệt giữa các định dạng dữ liệu.

Lưu ý rằng chúng tôi mô tả Dữ liệu lớn thành ba chữ V, chỉ để đơn giản hóa các nguyên lý cơ bản của nó. Rất có thể kích thước có thể tương đối nhỏ, nhưng quá đa dạng và phức tạp, hoặc nó có thể tương đối đơn giản nhưng có khối lượng dữ liệu khổng lồ. Do đó, ngoài ba chữ V này, chúng ta có thể dễ dàng thêm một chữ V khác, Veracity . Tính xác thực xác định độ chính xác của dữ liệu liên quan đến giá trị kinh doanh mà chúng tôi muốn trích xuất. Nếu không có tính xác thực, tổ chức không thể sử dụng các nguồn lực của mình để phân tích đống dữ liệu. Với độ chính xác hơn về ngữ cảnh của dữ liệu, càng có nhiều cơ hội nhận được thông tin có giá trị. Do đó, tính xác thực là một đặc điểm khác của Dữ liệu lớn. Các công ty tận dụng dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc từ e-mail, mạng xã hội, luồng văn bản, v.v. Tuy nhiên, trước khi phân tích, điều quan trọng là phải xác định số lượng và loại dữ liệu được xem xét sẽ ảnh hưởng đến kết quả kinh doanh.

Công cụ và Kỹ thuật

Trí tuệ nhân tạo (AI), IoT và phương tiện truyền thông xã hội đang thúc đẩy sự phức tạp của dữ liệu thông qua các hình thức và nguồn mới. Ví dụ, điều quan trọng là, trong thời gian thực, dữ liệu lớn đi qua cảm biến, thiết bị, mạng, giao dịch được ghi lại, quản lý và xử lý với độ trễ thấp. Dữ liệu lớn cho phép các nhà phân tích, nhà nghiên cứu và người dùng doanh nghiệp đưa ra quyết định sáng suốt hơn nhanh hơn, sử dụng dữ liệu lịch sử mà nếu không thì không thể đạt được. Người ta có thể sử dụng phân tích văn bản, học máy, phân tích dự đoán, khai thác dữ liệu và xử lý ngôn ngữ tự nhiên để rút ra thông tin chi tiết mới từ đống dữ liệu có sẵn.

Công nghệ đã phát triển để quản lý khối lượng dữ liệu khổng lồ, vốn trước đây rất tốn kém và phải có sự trợ giúp của siêu máy tính. Với sự xuất hiện của các phương tiện truyền thông xã hội như Facebook, các công cụ tìm kiếm như Google và Yahoo !, các dự án Dữ liệu lớn đã có động lực và phát triển như ngày nay. Công nghệ như MapReduce, Hadoop và Big Table đã được phát triển để đáp ứng nhu cầu ngày nay.

Các kho lưu trữ NoSQL cũng được đề cập liên quan đến Dữ liệu lớn. Nó là một cơ sở dữ liệu thay thế trái ngược với cơ sở dữ liệu quan hệ. Các cơ sở dữ liệu này không tổ chức các bản ghi trong các bảng hàng và cột như được tìm thấy trong cơ sở dữ liệu quan hệ thông thường. Có nhiều loại cơ sở dữ liệu NoSQL khác nhau, chẳng hạn như Cửa hàng nội dung, Cửa hàng tài liệu, Cửa hàng sự kiện, Đồ thị, Giá trị khóa, và các loại tương tự. Họ không sử dụng SQL cho các truy vấn và họ tuân theo một mô hình kiến ​​trúc khác. Chúng được phát hiện để hỗ trợ Phân tích Dữ liệu lớn một cách thuận lợi. Một số tên phổ biến là:Hbase, MongoDB, CouchDB và Neo4j. Ngoài họ ra, còn có nhiều người khác.

Kết luận

Dữ liệu lớn đã mở ra một cơ hội mới để thu thập dữ liệu và chiết xuất giá trị từ nó, mà nếu không thì sẽ gây lãng phí. Không thể nắm bắt, quản lý và xử lý Dữ liệu lớn với sự trợ giúp của các công cụ truyền thống như cơ sở dữ liệu quan hệ. Nền tảng Dữ liệu lớn cung cấp các công cụ và tài nguyên để rút ra thông tin chi tiết về lượng dữ liệu khổng lồ, đa dạng và nhanh chóng. Những đống dữ liệu này hiện có các phương tiện và bối cảnh khả thi để được sử dụng cho các mục đích khác nhau trong quá trình kinh doanh của một tổ chức. Do đó, để xác định chính xác loại dữ liệu chúng ta đang nói đến, chúng ta phải hiểu nó và các đặc điểm của nó là bước chính.


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Ghi nhật ký tối thiểu với CHÈN… CHỌN vào Bảng đống

  2. Toán tử SQL IN cho người mới bắt đầu

  3. Báo cáo cơ sở dữ liệu nguồn mở năm 2019:Cơ sở dữ liệu hàng đầu, Đám mây công cộng so với Tại chỗ, Tính bền vững của đa thức

  4. Cách không gọi các thủ tục lưu trữ được biên dịch tự nhiên của Hekaton

  5. Cách xếp hạng các hàng trong một phân vùng trong SQL