Xây dựng quy trình có thể mở rộng bằng NiFi, Kafka và HBase trên CDP

Navistar là nhà sản xuất xe tải thương mại hàng đầu thế giới. Với đội xe 350.000 chiếc, việc bảo dưỡng đột xuất và những sự cố xe hỏng hóc đã tạo ra sự gián đoạn liên tục cho hoạt động kinh doanh của họ. Navistar yêu cầu một nền tảng chẩn đoán có thể giúp họ dự đoán khi nào một chiếc xe cần được bảo dưỡng để giảm thiểu thời gian chết máy. Nền tảng này cần thiết để có thể thu thập, phân tích và phục vụ dữ liệu từ hơn 70 nguồn cấp dữ liệu cảm biến và viễn thông từ mỗi chiếc xe trong đội xe của họ, bao gồm dữ liệu đo hiệu suất động cơ, nhiệt độ nước làm mát, tốc độ xe tải và độ mòn phanh. Navistar đã chuyển sang Cloudera để giúp xây dựng một nền tảng chẩn đoán từ xa hỗ trợ IoT, được gọi là OnCommand® Connection, để theo dõi tình trạng xe của họ và tăng thời gian hoạt động của xe.

Blog này trình bày việc sử dụng các công nghệ tương tự để giải quyết các vấn đề có phạm vi nhỏ hơn nhiều nhưng song song với những điều mà Navistar phải đối mặt. Dữ liệu được lấy từ Corvette hiệu suất cao, đã được sửa đổi cao (xem Hình 1) để hiển thị các bước tải dữ liệu từ nguồn bên ngoài, định dạng dữ liệu bằng Apache NiFi, đẩy dữ liệu vào nguồn luồng thông qua Apache Kafka và lưu trữ bằng cách sử dụng Apache HBase để phân tích bổ sung.

Hình 1. Tàu hộ tống năm 2008 với động cơ 6.8L được sửa đổi

Đối với ví dụ cụ thể này, chiếc Corvette được đề cập đã được thay thế tất cả các thành phần động cơ ban đầu của nhà máy để có lợi cho các bộ phận hiệu suất cao hơn. Động cơ bị xé toạc lớp vỏ, các xi-lanh bị khoan, trục khuỷu và trục cam được thay thế, đồng thời lắp đặt các piston và thanh kết nối mới, theo đuổi mục tiêu ~ 600 mã lực (xem Hình 2). Để cấu hình động cơ mới này hoạt động bình thường, phần mềm của động cơ đã trải qua một cuộc đại tu hoàn chỉnh. Trong khi việc nhấn ga trở nên kịch tính hơn đáng kể, một hậu quả không mong muốn là hệ thống chẩn đoán và lỗi ban đầu của xe không còn chính xác và do đó phải bị vô hiệu hóa.

Hình 2. Tái tạo giữa động cơ với tất cả các bộ phận bên trong sáng bóng mới

Để thu thập và phân tích dữ liệu cảm biến của Corvette, cần có một đường dẫn để dữ liệu truyền từ xe sang một nền tảng chẩn đoán và phân tích thay thế. Bước đầu tiên là kết nối máy tính xách tay với cổng chẩn đoán của Corvette (xem Hình 3) để nhập dữ liệu cảm biến vào vị trí lưu trữ dựa trên đám mây. S3 đã được sử dụng cho dự án này.

Hình 3. Máy tính xách tay được kết nối với cổng chẩn đoán qua USB

Bước tiếp theo là sử dụng Nền tảng dữ liệu Cloudera (CDP), nền tảng phân tích đa chức năng, đa chức năng của Cloudera, để truy cập các dịch vụ cần thiết để di chuyển dữ liệu đến đích lưu trữ cuối cùng để phân tích bổ sung. Sử dụng CDP Public Cloud, 3 trung tâm dữ liệu đã được thiết lập, mỗi trung tâm lưu trữ một tập hợp các dịch vụ mã nguồn mở, được đóng gói sẵn (xem Hình 4):

Thiết lập đầu tiên là NiFi, một dịch vụ được xây dựng để tự động hóa và quản lý luồng dữ liệu. NiFi được sử dụng để nhập, định dạng và di chuyển dữ liệu của Corvette từ nguồn đến điểm lưu trữ cuối cùng của nó.
Tiếp theo là thiết lập Kafka, một dịch vụ phát trực tuyến thời gian thực cho phép cung cấp một lượng lớn dữ liệu dưới dạng một luồng. Kafka cung cấp khả năng xử lý luồng dữ liệu, đồng thời cho phép người dùng khác tùy chọn đăng ký luồng dữ liệu. Trong ví dụ này không có bất kỳ người đăng ký nào; tuy nhiên, đây là một khái niệm quan trọng xứng đáng là một minh chứng về cách thiết lập nó.
Thiết lập cuối cùng là HBase, một cơ sở dữ liệu hoạt động theo hướng cột, có khả năng mở rộng cao, cung cấp quyền truy cập đọc / ghi trong thời gian thực. Sau khi dữ liệu được nhập vào HBase, Phoenix sẽ được sử dụng để truy vấn và truy xuất dữ liệu.

Hình 4. Sơ đồ luồng dữ liệu Corvette từ nguồn đến truy vấn.

Xây dựng nền tảng chẩn đoán bằng cách sử dụng CDP để theo dõi sức khỏe và hiệu suất của Corvette là một bài tập thành công. Việc sử dụng NiFi và Kafka để định dạng và truyền trực tuyến dữ liệu cảm biến vào HBase hiện cho phép thực hiện kỹ thuật và xử lý dữ liệu nâng cao bất kể mức độ lớn của tập dữ liệu.

Các bước tiếp theo

Để xem tất cả điều này đang hoạt động, vui lòng xem các liên kết bên dưới đến một vài nguồn khác nhau giới thiệu quy trình đã được tạo.

Video - Nếu bạn muốn xem và nghe cách thức này được tạo ra, hãy xem video dài 5 phút hiển thị điều hướng thời gian thực của CDP chạy NiFi, Kafka và HBase.
Hướng dẫn - Nếu bạn muốn làm việc này theo tốc độ của riêng mình, hãy xem hướng dẫn chi tiết với ảnh chụp màn hình và hướng dẫn từng dòng về cách thiết lập.
MeetUps - Nếu bạn muốn nói chuyện trực tiếp với các chuyên gia từ Cloudera và thậm chí là chủ nhân của chiếc Corvette này, hãy tham gia một buổi gặp mặt ảo để xem bài thuyết trình trực tiếp của anh ấy. Sẽ có thời gian cho phần Hỏi và Đáp trực tiếp khi kết thúc.
Trang Người dùng CDP - Để tìm hiểu về các tài nguyên CDP khác được xây dựng cho người dùng, bao gồm video, hướng dẫn, blog và sự kiện bổ sung, hãy nhấp vào liên kết.