Điều gì tiếp theo cho Impala sau khi phát hành 1.1

Vào tháng 12 năm 2012, trong khi Cloudera Impala vẫn đang trong giai đoạn thử nghiệm, chúng tôi đã cung cấp một lộ trình cho các chức năng đã được lên kế hoạch trong bản phát hành sản xuất. Với tinh thần thông báo đầy đủ cho người dùng, khách hàng và những người đam mê Impala, bài đăng này cung cấp một lộ trình cập nhật cho các bản phát hành sắp tới vào cuối năm nay và vào đầu năm 2014.

Nhưng trước tiên, xin cảm ơn:Kể từ khi phát hành bản beta đầu tiên, chúng tôi đã nhận được rất nhiều phản hồi và xác nhận về Impala - rất nhiều về chất lượng cũng như số lượng. Cho đến nay, ít nhất một người trong khoảng 4.500 tổ chức duy nhất trên khắp thế giới đã tải xuống tệp nhị phân Impala. Và thậm chí chỉ sau GA vài tháng, chúng tôi đã thấy khách hàng của Cloudera Enterprise từ nhiều ngành triển khai Impala 1.x trong các môi trường quan trọng đối với doanh nghiệp với sự hỗ trợ thông qua đăng ký Cloudera RTQ (Truy vấn thời gian thực) - bao gồm các tổ chức hàng đầu trong lĩnh vực bảo hiểm, ngân hàng, bán lẻ, chăm sóc sức khỏe, trò chơi, chính phủ, viễn thông và quảng cáo.

Hơn nữa, dựa trên phản ứng từ các nhà cung cấp khác trong không gian quản lý dữ liệu, một số nhà quan sát sẽ tranh cãi quan điểm rằng Impala đã thực hiện các truy vấn SQL tương tác, có độ trễ thấp cho Hadoop như một yêu cầu quan trọng của khách hàng như các truy vấn SQL hướng theo lô, có độ trễ cao được kích hoạt bởi Apache Hive. Đó là một sự phát triển tuyệt vời cho người dùng Hadoop ở khắp mọi nơi!

Những gì được cung cấp trong Impala 1.0 / 1.1

Hãy bắt đầu với một thẻ báo cáo về lộ trình Impala 1.0 / 1.1 đã xuất bản trước đây. Đây là danh sách tính năng, được nhóm theo trạng thái giao hàng:

Đã giao:

Hỗ trợ định dạng Parquet, định dạng tệp Apache Avro và tệp văn bản nén LZO
Hỗ trợ cho các nền tảng hệ điều hành 64 bit giống như được hỗ trợ cho CDH
Trình điều khiển JDBC
Hỗ trợ DDL
Tham gia nhanh hơn, lớn hơn, tiết kiệm bộ nhớ hơn
Tổng hợp nhanh hơn, lớn hơn, hiệu quả hơn về bộ nhớ
Nhiều tối ưu hóa hiệu suất SQL hơn

Đã hoãn lại dựa trên phản hồi của khách hàng:

Xử lý Straggler
Tự động làm mới siêu dữ liệu

Hơn nữa, nhờ vào việc bổ sung mô-đun Apache Sentry (ấp ủ), Impala 1.1 và mới hơn bây giờ cũng cung cấp ủy quyền chi tiết, dựa trên vai trò, đảm bảo rằng người dùng và ứng dụng phù hợp có quyền truy cập vào đúng dữ liệu. (Với sự đóng góp gần đây của Sentry cho Apache Incubator và HiveServer2 cho Hive by Cloudera, Hive 0.11 và sau này cũng có chức năng đó.)

Rất nhiều việc đã được hoàn thành, nhưng vẫn còn rất nhiều việc phải làm. Bây giờ, chuyển sang làn sóng Impala 2.0.

Lộ trình ngắn hạn

Chức năng Impala mới sau đây sẽ được phát hành dần dần trong các bản phát hành ngắn hạn trong tương lai, bắt đầu với Impala 1.2 vào cuối năm 2013 và kết thúc với Impala 2.0 vào một phần ba đầu năm 2014. Ngoài ra, bạn sẽ thấy thêm hiệu suất và cải tiến chức năng SQL trong mỗi bản phát hành - với mục tiêu mở rộng hiệu suất dẫn đầu của Impala so với các phương pháp tiếp cận SQL-on-Hadoop thay thế của các nhà cung cấp cơ sở dữ liệu quan hệ kế thừa cũng như các nhà cung cấp bản phân phối Hadoop.

Xin lưu ý, như mọi khi đối với các lộ trình, các mốc thời gian và tính năng luôn có thể thay đổi. Tuy nhiên, những gì bạn thấy bên dưới ghi lại kế hoạch hiện tại của chúng tôi.

Impala 1.2

UDF và khả năng mở rộng - cho phép người dùng thêm chức năng tùy chỉnh của riêng họ; Impala sẽ hỗ trợ các UDF Hive Java hiện có cũng như các UDF và UDAF gốc hiệu suất cao
Làm mới siêu dữ liệu tự động - cho phép các bảng và dữ liệu mới khả dụng liền mạch cho các truy vấn Impala khi chúng được thêm vào mà không cần phải làm mới thủ công trên mỗi nút Impala
Bộ nhớ đệm HDFS trong bộ nhớ - cho phép truy cập vào dữ liệu Hadoop được truy cập thường xuyên ở tốc độ trong bộ nhớ
Tối ưu hóa thứ tự tham gia dựa trên chi phí - giải phóng người dùng khỏi việc phải đoán đúng thứ tự tham gia
Bản xem trước của trình quản lý tài nguyên tích hợp YARN - cho phép ưu tiên khối lượng công việc ở mức độ chi tiết tốt hơn so với mức cô lập cấp dịch vụ hiện được cung cấp trong Trình quản lý Cloudera

Impala 2.0

Danh sách dưới đây chỉ nắm bắt các tính năng lớn hơn, được yêu cầu thường xuyên nhất; nó không có nghĩa là hoàn thành.

Các hàm cửa sổ phân tích tuân thủ SQL 2003 (tổng hợp OVER PARTITION) - để cung cấp các khả năng phân tích SQL nâng cao hơn
Cơ chế xác thực bổ sung - bao gồm khả năng chỉ định tên người dùng / mật khẩu ngoài xác thực Kerberos đã được hỗ trợ
UDTF (chức năng bảng do người dùng xác định) - cho các chức năng người dùng nâng cao hơn và khả năng mở rộng
Tổng hợp và kết hợp song song giữa các nút - để cung cấp các liên kết và tổng hợp nhanh hơn nữa, đồng thời mang lại lợi ích về hiệu suất của Impala
Dữ liệu lồng nhau - cho phép truy vấn trên các cấu trúc lồng nhau phức tạp bao gồm bản đồ, cấu trúc và mảng
Trình quản lý tài nguyên được tích hợp YARN nâng cao, sẵn sàng cho sản xuất
Cải tiến cho sàn gỗ - tiếp tục tăng hiệu suất bao gồm các trang chỉ mục
Các loại dữ liệu bổ sung - bao gồm các loại Ngày và Thập phân
ORDER BY không có LIMIT mệnh đề

Ngoài Impala 2.0

Danh sách các tính năng sau đây là những tính năng mà chúng tôi dự đoán sẽ có mặt trong 2.1 hoặc bản phát hành ngay sau đó:

Chức năng SQL phân tích bổ sung - ROLLUP, CUBE và GROUPING SET
Apache HBase CRUD - cho phép sử dụng Impala để chèn và cập nhật vào HBase
Tham gia bên ngoài bằng cách sử dụng đĩa - cho phép các liên kết giữa các bảng tràn vào đĩa đối với các liên kết yêu cầu các bảng tham gia lớn hơn kích thước bộ nhớ tổng hợp
Truy vấn con bên trong mệnh đề WHERE

Khi chúng tôi tìm hiểu thêm về các yêu cầu của khách hàng và đối tác, danh sách này sẽ mở rộng.

Kết luận

Như bạn có thể thấy, Impala đã phát triển đáng kể kể từ khi phát hành bản beta và nó sẽ tiếp tục phát triển khi chúng tôi thu thập thêm phản hồi từ người dùng, khách hàng và đối tác.

Cuối cùng, chúng tôi tin rằng Impala đã kích hoạt mục tiêu tổng thể của chúng tôi là cho phép người dùng lưu trữ tất cả dữ liệu của họ ở các định dạng tệp Hadoop gốc và chạy đồng thời tất cả các khối lượng công việc hàng loạt, máy học, SQL / BI, toán học, tìm kiếm và các khối lượng công việc khác trên dữ liệu đó. tại chỗ. Từ đây, vấn đề chỉ là tiếp tục xây dựng dựa trên nền tảng rất vững chắc đó với chức năng phong phú hơn và hiệu suất được cải thiện.

Justin Erickson là giám đốc quản lý sản phẩm tại Cloudera.