Tại sao Học Cassandra với Hadoop?

“Các công ty đang nhận ra rằng họ có thể khai thác thông tin kinh doanh có giá trị để cải thiện việc ra quyết định và đạt được lợi thế cạnh tranh. Các công cụ như Hadoop và Cassandra đang làm cho tất cả những điều này trở nên khả thi và nhờ đó, các kỹ năng NoSQL ở tất cả các cấp đều có nhu cầu cực kỳ cao ”. - Các nhà phân tích trên TechRepublic

Được phát triển như một dự án nội bộ tại Facebook để tăng sức mạnh cho tính năng tìm kiếm Hộp thư đến của họ, Cassandra là một Hệ thống quản lý cơ sở dữ liệu phân tán nguồn mở . Nó được phát hành dưới dạng dự án mã nguồn mở trên Google Code vào năm 2008 và sau đó đã trở thành dự án cấp cao nhất tại Apache Software Foundation kể từ năm 2010.

Cassandra là Điều LỚN tiếp theo:

Apache Cassandra được thiết kế để xử lý lượng dữ liệu khổng lồ (về Vận tốc, Khối lượng và Sự đa dạng) trên nhiều máy chủ hàng hóa đảm bảo tính khả dụng cao và không cung cấp SPOF (Điểm lỗi duy nhất).
Cassandra cũng cung cấp hỗ trợ mạnh mẽ cho các cụm bao gồm nhiều trung tâm dữ liệu. Sự vắng mặt của “Cấu trúc chủ-tớ”, giống như các kiến trúc truyền thống cho phép không có tác động lên hệ thống nếu một nút cụ thể gặp sự cố.
Các nhà nghiên cứu của Đại học Toronto thực hiện nghiên cứu trên hệ thống NoSQL tuyên bố rằng về khả năng mở rộng và thông lượng tối đa trên mỗi nút , Cassandra nổi lên như một người chiến thắng rõ ràng. Trọng tâm chính của NoSQL DBMS là đảm bảo Khả năng mở rộng , Hiệu suất và Tính sẵn sàng cao. Giống như Hầu hết các DBMS NoSQL, Cassandra có thể xử lý cả dữ liệu có cấu trúc và không có cấu trúc và hoạt động tốt đáng kể đối với các tham số trên.
Cassandra có thể hoạt động như cả Kho dữ liệu thời gian thực (“Hệ thống Bản ghi”) cho các ứng dụng giao dịch / trực tuyến và như một Cơ sở dữ liệu chuyên sâu về đọc cho hệ thống Business Intelligence. Đọc bài đăng trên blog của chúng tôi về các lợi thế khác nhau do Cassandra cung cấp để biết thêm thông tin.

Tại sao lại sử dụng Hadoop cùng với Cassandra?

Nói một cách dễ hiểu, để có:

Khối lượng công việc thống nhất
Tính khả dụng
Triển khai đơn giản hơn

Khi nói đến Hadoop, các doanh nghiệp không quan tâm đến cấu trúc lưu trữ cơ bản của Hadoop, mà là các phương pháp cung cấp hiệu quả về chi phí để phân tích và xử lý lượng lớn dữ liệu. Có thể đưa ra quyết định từ đầu ra của MapReduce, Hive, Pig, Mahout và các hoạt động khác là điều quan trọng nhất đối với các tổ chức này.

Các điểm chính cần nhớ:

Hệ thống tệp phân tán Hadoop (HDFS) là một trong nhiều thành phần và dự án khác nhau nằm trong hệ sinh thái Hadoop. Dự án Apache Hadoop xác định HDFS là hệ thống lưu trữ chính được các ứng dụng Hadoop sử dụng .HDFS có thể lưu trữ các tập dữ liệu phi cấu trúc phân tán lớn. Dữ liệu có thể được lưu trữ trực tiếp trong HDFS hoặc có thể được lưu trữ ở định dạng bán cấu trúc trong HBase, cho phép truy cập dữ liệu cấp bản ghi nhanh chóng và được mô phỏng theo hệ thống BigTable của Google. hệ thống quan hệ sử dụng mô hình dữ liệu BigTable nhưng sử dụng lược đồ Dynamo của Amazon để phân phối và phân nhóm dữ liệu.
Hadoop làm được nhiều điều tuyệt vời, các khả năng MapReduce cốt lõi của nó rất mạnh. Các chuyên gia trong ngành yêu thích Hive và thiết kế giống SQL của nó. Tuy nhiên, hệ thống tệp HDFS cực kỳ phức tạp để thiết lập, có một số lỗi duy nhất và - theo phản hồi từ các doanh nghiệp lớn chỉ là chưa sẵn sàng làm những gì họ muốn . Mặt khác, Cassandra cung cấp tất cả các khả năng của cấp thấp hơn của ngăn xếp Hadoop. Đồng thời, Cassandra cũng cung cấp khả năng ứng dụng thời gian thực có độ trễ thấp trong chính cơ sở hạ tầng đó.

Cassandra và Hadoop có thể làm việc cùng nhau như thế nào?

Một số nhà cung cấp đang cung cấp các lựa chọn thay thế cho HDFS. Một bài báo gần đây của tổ chức có tên GigaOM cung cấp tổng quan cấp cao về cách Hệ thống tệp Apache Cassandra có thể được sử dụng để thay thế HDFS, với các thay đổi lập trình tối thiểu cần có từ quan điểm phát triển và cách thu được một số lợi ích trong quá trình này. DataStax , một nhà cung cấp thương mại hàng đầu cho các bản phân phối của Cassandra đã kết hợp Cassandra với Hadoop và đặt tên là Brisk. Với Brisk, HDFS được thay thế bằng Hệ thống tệp Cassandra. Khám phá thêm về các khái niệm HDFS. Xem Khóa học dữ liệu lớn trực tuyến này , được tạo ra bởi các Chuyên gia làm việc trong ngành công nghiệp hàng đầu.

Lợi thế của Sự kết hợp Cassandra - Hadoop:

Người ta cũng có thể triển khai Cassandra với Hadoop trên cùng một cụm. Điều này có nghĩa là bạn có thể có được những điều tốt nhất của cả hai thế giới.
T dựa trên ime và thời gian thực đang chạy trong các ứng dụng của Cassandra (thời gian thực là sức mạnh của Cassandra) trong khi phân tích dựa trên lô và truy vấn không yêu cầu dấu thời gian có thể chạy trên Hadoop. Trong loại hệ sinh thái này, HDFS được thay thế bằng Cassandra và điều này là vô hình đối với nhà phát triển. Người ta có thể gán lại động, các nút giữa môi trường Cassandra và Hadoop nếu thích hợp.
Hệ thống Tệp Cassandra loại bỏ các điểm lỗi duy nhất được liên kết với HDFS, cụ thể là các điểm lỗi NameNode và Job Tracker được liên kết với HDFS.

Do đó, ý tưởng là kết hợp Cassandra, công ty tiên phong chính nó trong việc xử lý giao dịch theo thời gian thực với số lượng lớn , với Hadoop vượt trội về các giải pháp phân tích theo hướng hàng loạt hơn .

Cassandra và các Biggies:

Nhiều tổ chức trong toàn ngành đang áp dụng Cassandra để đạt được các mục tiêu kinh doanh khác nhau. Một số cái nổi bật là:

Netflix - Sử dụng Cassandra làm cơ sở dữ liệu back-end cho các dịch vụ phát trực tuyến của họ.
WebEx của Cisco - Sử dụng Cassandra để lưu trữ nguồn cấp dữ liệu và hoạt động của người dùng trong thời gian gần thực.
SoundCloud - Sử dụng Cassandra để lưu trữ trang tổng quan về người dùng của họ.
IBM - Đã thực hiện nghiên cứu trong việc xây dựng hệ thống email có thể mở rộng dựa trên Cassandra

Các Chức danh Liên quan đến Kỹ năng Hadoop và Cassandra:

Nghiên cứu của Simplyhired cho thấy nhu cầu việc làm của Cassandra cao do tỷ lệ chấp nhận cao trong ngành, đặc biệt là trong vài năm trở lại đây. Và tương lai có vẻ rất hứa hẹn.

Hãy xem một số chức danh công việc liên quan đến các kỹ năng Hadoop-Cassandra và mức lương của họ được đề cập trong Indeed.com:

Kiến trúc sư Dữ liệu: Vị trí này có mức lương trung bình là 107.000 đô la. Kiến trúc sư dữ liệu bắt buộc phải có một số kinh nghiệm trong việc tạo mô hình dữ liệu, lưu trữ dữ liệu, phân tích dữ liệu và di chuyển dữ liệu
Nhà Khoa học Dữ liệu: Họ thu thập dữ liệu, phân tích, trình bày dữ liệu một cách trực quan và sử dụng dữ liệu để đưa ra các dự đoán / dự báo. Mức lương trung bình cho một nhà khoa học dữ liệu là $ 104,000
Kỹ sư Hệ thống: Mức lương trung bình cho kỹ sư hệ thống là 89.000 đô la.
DBA: DBA kiếm được trung bình hơn 100.000 đô la.
Nhà phát triển Ứng dụng Phần mềm: Các nhà phát triển phần mềm có mức lương trung bình là 107.000 đô la và các nhà phát triển ứng dụng là 93.000 đô la. Những người có những kỹ năng này có thể kiếm được nhiều công việc tự do hoặc có thể thành lập công ty khởi nghiệp của riêng họ nếu họ có tinh thần kinh doanh.

Bài đăng có Liên quan:

Chọn cơ sở dữ liệu NoSQL phù hợp.

Làm cách nào để mở CQLSH của Cassandra được cài đặt trên Windows?