Database
 sql >> Cơ Sở Dữ Liệu >  >> RDS >> Database

Cơ sở dữ liệu Greenplum là gì? Giới thiệu về Cơ sở dữ liệu lớn

Cơ sở dữ liệu Greenplum là một cơ sở dữ liệu SQL xử lý song song (MPP) khổng lồ được xây dựng và dựa trên PostgreSQL. Nó có thể mở rộng quy mô theo khối lượng công việc dữ liệu ở mức nhiều petabyte mà không gặp vấn đề gì và nó cho phép truy cập vào một nhóm các máy chủ mạnh mẽ sẽ hoạt động cùng nhau trong một giao diện SQL duy nhất, nơi bạn có thể xem tất cả dữ liệu. Trong bài đăng trên blog này, chúng tôi giải thích Greenplum là gì và phân tích kiến ​​trúc Greenplum, các ưu điểm, các trường hợp sử dụng chính và cách bắt đầu.

Greenplum chính xác là gì?

Cơ sở dữ liệu Greenplum là cơ sở dữ liệu MPP mã nguồn mở, phần cứng bất khả tri dành cho phân tích, dựa trên PostgreSQL và được phát triển bởi Pivotal, người sau đó đã được VMware mua lại. Kiến trúc của nó được thiết kế đặc biệt để quản lý các kho dữ liệu quy mô lớn và khối lượng công việc kinh doanh thông minh bằng cách cung cấp cho bạn khả năng phân tán dữ liệu của mình trên nhiều máy chủ.

Cơ sở dữ liệu tích hợp nhiều tính năng này cung cấp phân tích nhanh chóng và mạnh mẽ về dữ liệu có quy mô lên đến khối lượng petabyte.

Sơ lược - TLDR

Kiến trúc Greenplum

Greenplum sử dụng thiết kế cơ sở dữ liệu MPP có thể giúp bạn phát triển triển khai hiệu suất cao, có thể mở rộng. Đọc ngay bây giờ

Ưu điểm của Greenplum

Hiệu suất cao, tối ưu hóa truy vấn, nguồn mở và lưu trữ dữ liệu đa hình là những lợi thế chính của Greenplum. Đọc ngay bây giờ

Các Trường hợp Sử dụng Chính

Xem tại sao Greenplum là cơ sở dữ liệu tốt nhất cho các trường hợp sử dụng phân tích, máy học và AI. Đọc ngay bây giờ

Kiến trúc Greenplum

Để hiểu rõ về kiến ​​trúc Greenplum, trước tiên chúng ta hãy xem cơ sở dữ liệu MPP là gì.

Cơ sở dữ liệu MPP là gì?

Khi xử lý một lượng lớn dữ liệu phức tạp hoặc dữ liệu lớn, rất có thể máy chính của bạn có thể bắt đầu bị nghiền nát bởi tất cả dữ liệu mà nó phải xử lý để tạo ra số liệu phân tích của bạn các kết quả. Để đáp ứng nhu cầu xử lý nhanh hơn và cho ra kết quả nhanh hơn, nhiều tổ chức cân nhắc việc áp dụng cơ sở dữ liệu MPP.

Hệ thống MPP tận dụng kiến ​​trúc không chia sẻ để xử lý song song nhiều hoạt động. Nó sử dụng một số đơn vị xử lý khác nhau hoạt động độc lập bằng cách sử dụng bộ nhớ và tài nguyên chuyên dụng của riêng chúng, do đó, khối lượng công việc được chia sẻ trên nhiều thiết bị thay vì chỉ một thiết bị. Thông thường, một hệ thống MPP có một nút dẫn đầu và một hoặc nhiều nút tính toán. Nút dẫn đầu, được gọi là 'master' trong Greenplum, cho tất cả các nút khác, được gọi là phân đoạn trong Greenplum, phải làm gì và kết hợp các phản hồi của chúng để tạo ra câu trả lời cuối cùng.

Cơ sở dữ liệu MPP chia tỷ lệ theo chiều ngang bằng cách thêm nhiều tài nguyên máy tính hơn (các nút), thay vì phải lo lắng về việc nâng cấp lên các máy chủ riêng lẻ ngày càng đắt tiền (mở rộng theo chiều dọc).

Greenplum Architectural Design

Dựa trên kiến ​​trúc PostgreSQL, Greenplum về cơ bản tận dụng một số phiên bản cơ sở dữ liệu PostgreSQL tại một thời điểm trong một cụm Greenplum duy nhất. Người dùng PostgreSQL có thể nhanh chóng làm quen với loại cơ sở dữ liệu này, vì nhiều tính năng, cấu hình và chức năng giống nhau trong Greenplum và bao gồm các tính năng được thiết kế để tối ưu hóa cách PostgreSQL hoạt động cho các tác vụ và khối lượng công việc thông minh kinh doanh (BI).

Greenplum cũng giới thiệu nhiều tính năng không có sẵn trong PostgreSQL, chẳng hạn như tải dữ liệu song song, quản lý tài nguyên, cải tiến lưu trữ và tối ưu hóa truy vấn nâng cao, khiến nó trở thành một sản phẩm hấp dẫn khi bạn so sánh hai.

Tương tự như PostgreSQL, Greenplum sử dụng một máy chủ chính hoặc máy chủ lưu trữ, là điểm vào cơ sở dữ liệu, chấp nhận kết nối và truy vấn SQL. Tuy nhiên, khi PostgreSQL tận dụng các nút dự phòng để phân phối theo địa lý việc triển khai của chúng, Greenplum sử dụng các máy chủ phân đoạn để lưu trữ và xử lý dữ liệu. Các phân đoạn Greenplum là độc lập và mỗi phân đoạn lưu trữ một phần dữ liệu, mặc dù xử lý phần lớn quá trình xử lý truy vấn. Bạn có thể tận dụng tối đa hai máy chủ phân khúc và mở rộng quy mô đến dung lượng không giới hạn. Nếu bạn đã bật tính năng sao chép, bạn phải tăng máy chủ lưu trữ phân đoạn của mình với số lượng ít nhất là hai.

Vậy, tất cả điều này được phối hợp như thế nào? Kết nối liên kết Greenplum là lớp mạng của kiến ​​trúc và quản lý giao tiếp giữa các phân đoạn Greenplum và cơ sở hạ tầng mạng máy chủ chính.

Ưu điểm của Greenplum

Dưới đây là một số ưu điểm chính của Greenplum có thể giúp bạn cải thiện hiệu suất cơ sở dữ liệu của mình:

  • Hiệu suất cao

    Greenplum có một đường ống dẫn dữ liệu được thiết kế độc đáo có thể truyền dữ liệu từ đĩa đến CPU một cách hiệu quả mà không cần dựa vào dữ liệu phù hợp với bộ nhớ RAM, như đã giải thích trong Greenplum Next Generation Big Nền tảng dữ liệu:Bài viết 5 lý do hàng đầu. Điều này cung cấp cho các triển khai Greenplum một hiệu suất lớn hơn so với các hệ thống trong bộ nhớ cần đủ bộ nhớ để lưu trữ dữ liệu của chúng hoặc các hệ thống không dựa trên RDBMS là các công cụ xử lý trong bộ nhớ phân bổ RAM cho mỗi truy vấn đồng thời. Hiệu suất cao của Greenplum giúp loại bỏ thách thức mà hầu hết các RDBMS gặp phải khi mở rộng quy mô đến mức dữ liệu nhỏ, vì chúng có thể mở rộng quy mô tuyến tính để xử lý dữ liệu hiệu quả.

  • Tối ưu hóa Truy vấn

    Greenplum có trình tối ưu hóa truy vấn dựa trên chi phí cho khối lượng công việc dữ liệu lớn, quy mô lớn. Khai thác hiệu suất như chúng tôi đã đề cập ở trên, Greenplum chia tỷ lệ phân tích chế độ tương tác và hàng loạt thành quy mô petabyte mà không làm giảm hiệu suất truy vấn của bạn. Điều này cho phép Greenplum phân phối tải giữa các phân đoạn khác nhau của chúng và sử dụng song song tất cả các tài nguyên của hệ thống để xử lý một truy vấn.

    Ngoài ra, với các cải tiến về khối lượng công việc OLTP (Xử lý giao dịch trực tuyến) trong Greenplum 6, hiệu suất truy vấn đơn đã được cải thiện hơn 3,5c so với Greenplum 5. Với bản cập nhật này, Greenplum đã loại bỏ rất nhiều khóa cạnh tranh để mức sử dụng CPU chính có thể vượt quá 90%, điều này giúp cải thiện hiệu suất của truy vấn bằng cách cải thiện hiệu suất phần cứng của nút chính.

  • Nguồn mở

    Cơ sở dữ liệu Greenplum là một dự án kho dữ liệu mã nguồn mở dựa trên lõi mã nguồn mở của PostgreSQL, cho phép người dùng tận dụng lợi thế của hàng thập kỷ phát triển chuyên gia đằng sau PostgreSQL, cùng với sự tùy chỉnh có mục tiêu của Greenplum cho các ứng dụng dữ liệu lớn. Greenplum có thể chạy trên bất kỳ máy chủ Linux nào, cho dù nó được lưu trữ trên đám mây hay tại chỗ và có thể chạy trong bất kỳ môi trường nào.

    Mặc dù Greenplum được duy trì bởi một nhóm các nhà phát triển cốt lõi với các quyền cam kết đối với hệ thống lưu trữ chính, nhưng họ rất háo hức chào đón những cộng tác viên mới có kinh nghiệm với cơ sở dữ liệu để giúp định hình tương lai của Greenplum. Tìm hiểu thêm về cách tham gia qua trang Greenplum GitHub.

  • Lưu trữ dữ liệu đa hình

    Lưu trữ dữ liệu đa hình của Greenplum cho phép bạn kiểm soát cấu hình cho bộ lưu trữ bảng và phân vùng của mình với quyền tự do thực thi và nén các tệp trong đó bất kỳ lúc nào. Điều này sẽ cho phép bạn thiết kế các bảng của mình dựa trên cách dữ liệu cụ thể của bạn được truy cập và lần lượt có hệ thống phân cấp lưu trữ hướng theo hàng hoặc cột.

    Khi tạo bảng trong Greenplum, bạn có thể kiểm soát hướng với khả năng chọn dữ liệu hướng theo cột hoặc theo hàng. Định hướng theo cột thường tốt hơn cho quét toàn bộ, trong khi định hướng theo hàng tốt hơn cho quét nhỏ hoặc tra cứu.

Greenplum thậm chí còn cho phép bạn tạo các chức năng và kiểu dữ liệu dành riêng cho miền. Thông qua việc sử dụng các kiểu dữ liệu bán cấu trúc, bao gồm XML, HStore và JSON, bạn có khả năng lưu trữ và phân tích cả dữ liệu có cấu trúc và không có cấu trúc trong cơ sở dữ liệu.

Cơ sở dữ liệu Greenplum là gì? Giới thiệu về Cơ sở dữ liệu dữ liệu lớnNhấp để đăng bài

Các trường hợp sử dụng chính

Greenplum cung cấp sự kết hợp mạnh mẽ giữa cơ sở dữ liệu xử lý song song hàng loạt và phân tích dữ liệu nâng cao, cho phép nó tạo ra một khuôn khổ cho các nhà khoa học dữ liệu và kiến ​​trúc sư đưa ra quyết định kinh doanh dựa trên dữ liệu được thu thập bởi trí tuệ nhân tạo và học máy. Hãy xem qua các trường hợp sử dụng hàng đầu cho Greenplum:

Phân tích

Phân tích nâng cao do Greenplum cung cấp đang được sử dụng trên nhiều ngành dọc, bao gồm tài chính, sản xuất, ô tô, chính phủ, năng lượng, giáo dục, bán lẻ, v.v., để giải quyết nhiều vấn đề khác nhau của các vấn đề. Một số khả năng phân tích Cơ sở dữ liệu Greenplum được Pivotal đánh dấu bao gồm khả năng phân tích vô số kiểu dữ liệu, tận dụng kiến ​​thức SQL hiện có và đào tạo nhiều mô hình hơn trong thời gian ngắn hơn bằng cách sử dụng kiến ​​trúc MPP.

Ngoài ra, Greenplum cung cấp phân tích trong cơ sở dữ liệu cho phép bạn chạy phân tích trực tiếp trong cơ sở dữ liệu so với xuất và chạy dữ liệu của bạn trong một công cụ phân tích bên ngoài. Là một cơ sở dữ liệu được điều chỉnh cho phù hợp với khối lượng công việc của doanh nghiệp, điều này cung cấp khả năng cần thiết để khám phá các tập dữ liệu lớn cùng với hiệu suất cao đạt được bằng cách thực hiện song song các phân tích trên các máy chủ phân khúc có sẵn của bạn. Bạn cũng có thể tận dụng một loạt các công cụ phân tích sức mạnh với Greenplum, bao gồm MADlib, ngôn ngữ thống kê R, SAS và Ngôn ngữ đánh dấu mô hình dự đoán (PMML).

Ví dụ:một công ty Tiếp thị Internet quy mô hàng tỷ đô la đang sử dụng phân tích nâng cao Greenplum để thực hiện việc lập hồ sơ đối tượng nhằm hiểu đối tượng của họ là ai, họ mua gì, mạng và thiết bị nào họ sử dụng, và vị trí địa lý của họ để họ có thể hiểu rõ hơn và phục vụ thị trường của mình.

Máy học

Greenplum là cơ sở dữ liệu tuyệt vời dành cho học máy - nghiên cứu các thuật toán máy tính tự động cải thiện thông qua trải nghiệm. Apache MADlib là một thư viện máy học dựa trên SQL mã nguồn mở, chạy trong cơ sở dữ liệu trên Greenplum, cũng như PostgreSQL. Sự kết hợp này giúp bạn cải thiện tính song song, khả năng mở rộng và độ chính xác dự đoán của việc triển khai máy học Greenplum của bạn. Khả năng chuyển đổi dữ liệu và kỹ thuật tính năng cũng có sẵn thông qua MADlib để học máy, bao gồm thống kê mô tả và suy luận, xoay vòng, phân loại và mã hóa các biến phân loại.

Ví dụ:một công ty lưu giữ doanh thu gian lận của Chính phủ đang tận dụng khả năng máy học của Greenplum cùng với GemFire ​​để thực hiện phát hiện gian lận quy mô lớn nhằm ngăn chặn hành vi trộm cắp danh tính, phát hiện và giữ lại $ 5 tỷ hàng năm và xử lý 8 triệu ca mỗi ngày.

AI

Trí tuệ nhân tạo (AI), trong khi tương tự như học máy, đề cập đến ý tưởng rộng hơn nơi máy móc có thể thực thi các tác vụ một cách thông minh. Greenplum là một lựa chọn cơ sở dữ liệu tuyệt vời cho các ứng dụng muốn bắt chước khả năng của con người thông qua các máy thông minh. Với khả năng nhập khối lượng lớn dữ liệu ở tốc độ cao của Greenplum, nó làm cho cơ sở dữ liệu này trở thành một công cụ mạnh mẽ cho các ứng dụng thông minh cần tương tác một cách thông minh dựa trên số lượng không giới hạn các tình huống duy nhất.

Ví dụ:một công ty Viễn thông đang sử dụng khả năng AI của cơ sở dữ liệu Greenplum cho các cảm biến thông minh của hệ thống báo cáo hoạt động IoT của họ để phân tích và thực thi các sự kiện được sử dụng để bảo trì, bảo mật và hiệu quả hoạt động.

Vậy ai đang sử dụng Greenplum hôm nay? Khách hàng của Greenplum bao gồm American Express, Walmart, Asurian, Bank of America, và nhiều khách hàng khác trên các thị trường ngân hàng, dịch vụ chuyên nghiệp, truyền thông, bảo hiểm, chăm sóc sức khỏe, ô tô và bán lẻ.

Cách bắt đầu

Như đã đề cập trong suốt bài đăng này, Greenplum là một cơ sở dữ liệu mã nguồn mở nên phiên bản cộng đồng hoàn toàn miễn phí để tải xuống và sử dụng. Cộng đồng nhỏ nhưng năng động của Greenplum chào đón những người đóng góp mới, chấp nhận phản hồi và cộng tác với những người truyền bá Phúc âm Greenplum để quảng bá cơ sở dữ liệu lớn.

Nhiều tổ chức tận dụng Greenplum đang tìm kiếm các công cụ và hỗ trợ bổ sung để giúp các DBA của họ quản lý việc triển khai của họ. Dưới đây là hai tùy chọn hỗ trợ và quản lý cơ sở dữ liệu khác nhau có sẵn cho Greenplum:

ScaleGrid cho Cơ sở dữ liệu Greenplum® - Phiên bản nguồn mở

ScaleGrid cho Cơ sở dữ liệu Greenplum® là giải pháp được quản lý hoàn toàn cho phiên bản nguồn mở của Greenplum, ra mắt vào tháng 5 năm 2020. Nền tảng đa đám mây cho phép bạn triển khai và quản lý trên AWS, Nền tảng đám mây Azure hoặc Google Cloud (sắp ra mắt) hoặc môi trường tại chỗ của VMware. ScaleGrid cung cấp cho người dùng Greenplum các công cụ quản lý nâng cao mà họ cần để triển khai chỉ bằng một cú nhấp chuột, tự động hóa các bản sao lưu và mở rộng quy mô động với khả năng duy trì các đặc quyền quản trị viên cấp cao đầy đủ đối với việc triển khai mã nguồn mở của họ.

Pivotal Greenplum - Phiên bản thương mại

Pivotal Greenplum, hiện tại VMware Tanzu là người tạo ra cơ sở dữ liệu nguồn mở cung cấp phiên bản thương mại của cơ sở dữ liệu để giúp bạn triển khai và quản lý Greenplum trên đám mây và tại chỗ. Pivotal Greenplum cung cấp nhiều lợi thế, chẳng hạn như khả năng tối đa hóa thời gian hoạt động, bảo vệ tính toàn vẹn của dữ liệu và xử lý dữ liệu trực tuyến và dữ liệu đám mây một cách dễ dàng.

Cả ScaleGrid và Pivotal Greenplum đều cung cấp các gói hỗ trợ nâng cao để giúp DBA của bạn tối ưu hóa việc triển khai Greenplum của họ.


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. AI sẽ thay đổi việc phát triển và kiểm tra phần mềm như thế nào

  2. Chạy các tác vụ bảo trì cơ sở dữ liệu SQL bằng SQLCMD

  3. Thời gian cắt tỉa tính từ ngày giờ - theo dõi

  4. Tìm kiếm lợi ích về hiệu suất với phân vùng

  5. Bí mật bẩn thỉu của Biểu thức TÌNH HUỐNG