Cloudera gần đây đã ra mắt CDH 6.2 bao gồm hai tính năng chính mới trong Apache HBase:
- Sao chép nối tiếp
- Bộ nhớ đệm nhóm hiện hỗ trợ bộ nhớ Optane của Intel
Sao chép nối tiếp
HBase có một cơ chế sao chép không đồng bộ phức tạp hỗ trợ các cấu trúc liên kết phức tạp ngày nay bao gồm cấu trúc liên kết toàn cục, hai chiều, mở rộng và mở rộng.
Khả năng sao chép này, cho đến nay, cung cấp tính nhất quán cuối cùng - có nghĩa là thứ tự mà các bản cập nhật được sao chép không nhất thiết giống với thứ tự mà chúng được áp dụng cho cơ sở dữ liệu. Trong khi điều này hiệu quả với nhiều khách hàng, thứ tự cập nhật trên điểm cuối nhân rộng là quan trọng đối với nhiều trường hợp sử dụng.
Tính năng sao chép nối tiếp cung cấp tính nhất quán về dòng thời gian để sao chép. Nói cách khác, thứ tự của các bản cập nhật được bảo toàn thông qua việc sao chép tới cụm đích. Có một chút chi phí cho sự nhất quán này và trong một số trường hợp, người dùng có thể thấy rằng việc sao chép hơi chậm hơn so với cách tiếp cận sao chép mặc định.
Cấu hình của tùy chọn này khá đơn giản (đặt cờ SERIAL thành true) và có thể được áp dụng tại thời điểm thiết lập sao chép hoặc bất kỳ lúc nào sau đó ở cấp bảng, cấp không gian tên hoặc cho một đồng đẳng sao chép tất cả các bảng trong HBase.
Bộ nhớ cache của nhóm HBase
Bộ đệm ẩn của HBase là bộ đệm 2 lớp được thiết kế để cải thiện hiệu suất sẵn sàng trong nhiều trường hợp sử dụng khác nhau. Lớp đầu tiên nằm trong Java heap và lớp thứ hai của bộ nhớ đệm có thể nằm ở một số vị trí khác nhau bao gồm:bộ nhớ off-heap, bộ nhớ Intel Optane, SSD hoặc HDD.
Cấu hình được đề xuất cho lớp thứ hai của bộ nhớ đệm nhóm cho hầu hết khách hàng đã không có sẵn. Việc triển khai trong cấu hình này có thể mở rộng đến kích thước bộ nhớ lớn hơn nhiều so với khả năng có thể có với bộ đệm ẩn tích hợp trên heap, vì công cụ off-heap tránh được áp lực thu gom rác JVM. Kích thước bộ nhớ đệm lớn hơn cung cấp hiệu suất đọc HBase được cải thiện đáng kể.
Bắt đầu với CDH 6.2, Cloudera hiện bao gồm khả năng sử dụng Bộ nhớ Optane mới phát hành của Intel làm điểm đến thay thế cho tầng thứ 2 của bộ nhớ đệm nhóm. Cấu hình triển khai này cho phép bạn có kích thước bộ nhớ đệm ~ 3 lần với chi phí không đổi (so với bộ đệm ẩn trên DRAM). Nó có phát sinh thêm một số độ trễ so với cấu hình off-heap truyền thống, nhưng thử nghiệm của chúng tôi chỉ ra rằng bằng cách cho phép nhiều hơn (nếu không phải tất cả) tập hợp hoạt động của dữ liệu phù hợp với bộ nhớ cache, việc thiết lập dẫn đến cải thiện hiệu suất ròng khi dữ liệu cuối cùng được lưu trữ trên HDFS (sử dụng ổ cứng).
Khi triển khai lên đám mây hoặc sử dụng lưu trữ đối tượng tại chỗ, việc cải thiện hiệu suất sẽ thậm chí còn tốt hơn vì lưu trữ đối tượng có xu hướng rất tốn kém đối với việc đọc ngẫu nhiên một lượng nhỏ dữ liệu. Bảng bên dưới cho biết sự cân bằng về chi phí, kích thước và độ trễ cần thiết khi lập kế hoạch về cách định cấu hình tầng thứ hai của bộ đệm nhóm.
Storage | $ Chi phí / GB | Kích thước (chi phí không đổi) | Độ trễ |
DRAM ngoài đống | 35 | 1,0 GB | ~ 70 ns |
Intel Optane¹ | 13 | 2,7 GB | 180-340 ns |
SSD | 0,15 | 233,3 GB | 10-100 µs |
HDD² | 0,027 | 1,3 TB | 4-10 mili giây |
Lưu trữ đối tượng³ | 0,006 | 5,8 TB | 10-100 mili giây |
Đọc blog này để tìm hiểu thêm về sự hợp tác giữa Intel và Cloudera trong việc tận dụng Bộ nhớ ổn định DC Optane để cải thiện hiệu suất.
Tài liệu tham khảo:
- Tổng quan về hiệu suất bộ nhớ liên tục của Optane DC (https://www.youtube.com/watch?v=UTVt_AZmWjM) - phút 6:53,
https://www.youtube.com/watch?v=UTVt_AZmWjM) www.pcper.com/news/Storage/Intels-Optane-DC-Pers phù-Memory-DIMMs-Push-Latency-Closer-DRAM,
https://www.tomshardware.com/news/intel-optane- dimm-price-performance, 39007.html - https://www.backblaze.com/blog/hard-drive-cost-per-gigabyte/,
https://www.westerndigital.com/ product / data-center-drive # hard-disk-hdd - https://www.qualeed.com/en/qbackup/cloud-storage-comparison/, https://www.dellemc.com/en-us/collaterals/ unauth / analyst-report / products / storage / esg-ecnomic-value-audi-dell-emc -astic-cloud-storage.pdf