Chuyển đổi kỹ thuật số là một chủ đề nóng đối với tất cả các thị trường và ngành vì nó mang lại giá trị với tốc độ tăng trưởng bùng nổ. Hãy xem xét rằng Internet of Things (IIOT) của ngành sản xuất được định giá 161 tỷ đô la với tốc độ tăng trưởng ấn tượng 25%, thị trường Xe hơi được kết nối sẽ được định giá 225 tỷ đô la vào năm 2027 với tốc độ tăng trưởng 17% hoặc trong ba tháng đầu tiên của Năm 2020, các nhà bán lẻ đã nhận ra 10 năm thâm nhập bán hàng kỹ thuật số chỉ trong ba tháng. Mặc dù vậy, hầu hết những gì được viết đều liên quan đến các nền tảng công nghệ cho phép (đám mây hoặc giải pháp cạnh hoặc điểm như kho dữ liệu) hoặc các trường hợp sử dụng đang thúc đẩy những lợi ích này (phân tích dự đoán được áp dụng cho bảo trì phòng ngừa, phát hiện gian lận của tổ chức tài chính hoặc theo dõi sức khỏe dự đoán như ví dụ) không phải là dữ liệu cơ bản. Chương còn thiếu không nói về các giải pháp điểm hoặc hành trình trưởng thành của các ca sử dụng. Chương còn thiếu là về dữ liệu – nó luôn là về dữ liệu – và quan trọng nhất là dữ liệu hành trình được kết nối từ thông tin chi tiết về trí tuệ nhân tạo đến thông tin chi tiết.
Đây là bài đầu tiên trong loạt blog gồm sáu phần phác thảo hành trình dữ liệu từ cạnh đến AI và dữ liệu giá trị kinh doanh tạo ra trong suốt hành trình. Hành trình dữ liệu không phải là tuyến tính, nhưng nó là một vòng đời dữ liệu lặp vô hạn - bắt đầu từ rìa, len lỏi qua nền tảng dữ liệu và dẫn đến thông tin chi tiết bắt buộc về kinh doanh được áp dụng cho các vấn đề thực sự quan trọng của doanh nghiệp, dẫn đến các sáng kiến mới do dữ liệu dẫn dắt. Chúng tôi đã đơn giản hóa hành trình này thành năm bước riêng biệt với bước thứ sáu chung là bảo mật và quản trị dữ liệu. Sáu bước là:
- Thu thập Dữ liệu - nhập và giám sát dữ liệu ở rìa (cho dù rìa là cảm biến công nghiệp hay con người trong cửa hàng bán lẻ bằng gạch và vữa)
- Tăng cường Dữ liệu - xử lý, tổng hợp và quản lý đường ống dữ liệu để sẵn sàng dữ liệu cho việc sàng lọc thêm
- Báo cáo - cung cấp thông tin chi tiết về doanh nghiệp kinh doanh (phân tích và dự báo bán hàng, nghiên cứu thị trường, lập ngân sách làm ví dụ)
- Phục vụ - kiểm soát và điều hành các hoạt động kinh doanh thiết yếu (giao dịch ATM, thanh toán bán lẻ hoặc giám sát sản xuất)
- Phân tích Dự đoán - phân tích dự đoán dựa trên AI và học máy (Phát hiện gian lận, bảo trì dự đoán, tối ưu hóa khoảng không quảng cáo dựa trên nhu cầu làm ví dụ)
- Bảo mật &Quản trị - một bộ công nghệ bảo mật, quản lý và quản trị tích hợp trong toàn bộ vòng đời dữ liệu
Hình 1:Vòng đời dữ liệu doanh nghiệp
Để minh họa cho hành trình dữ liệu, chúng tôi đã chọn một chủ đề sản xuất rất phù hợp và có tư duy bền vững - sản xuất ô tô điện, được chọn bởi vì các hoạt động sản xuất thường mang tính cách mạng (độ chín kỹ thuật số cao triển khai các công cụ dữ liệu cập nhật nhất) , so với “sự tiến hóa kiểu cũ” (có độ tuổi thấp hơn) và hầu hết những chiếc xe này được chế tạo dưới dạng nền tảng Di động được Kết nối, khiến chiếc xe không chỉ là phương tiện di chuyển mà còn là nền tảng cho kiến thức và thông tin chi tiết dựa trên dữ liệu. Câu chuyện này sẽ cho biết cách dữ liệu được thu thập, bổ sung, lưu trữ, phân phát và sau đó được sử dụng để dự đoán các sự kiện trong quy trình sản xuất ô tô bằng Nền tảng dữ liệu Cloudera.
Câu chuyện này sẽ kể về một công ty sản xuất xe điện giả lập được kết nối với tên gọi (với tên nguyên bản là) Công ty Xe điện (ECC). ECC vận hành nhiều nhà máy sản xuất trên toàn cầu, được tích hợp theo chiều dọc để xây dựng ô tô riêng cũng như nhiều bộ phận quan trọng, bao gồm động cơ điện, pin và các bộ phận phụ trợ. Mỗi nhà máy được giao trách nhiệm sản xuất các thành phần khác nhau với quá trình lắp ráp cuối cùng diễn ra tại một số nhà máy được chọn có vị trí chiến lược.
Thử thách thu thập dữ liệu
Quản lý việc thu thập tất cả dữ liệu từ tất cả các nhà máy trong quá trình sản xuất là một công việc quan trọng dẫn đến một số thách thức:
- Khó khăn khi đánh giá khối lượng và sự đa dạng của dữ liệu IoT: Nhiều nhà máy sử dụng cả tài sản và thiết bị sản xuất hiện đại và kế thừa từ nhiều nhà cung cấp, với nhiều giao thức và định dạng dữ liệu khác nhau. Mặc dù bộ điều khiển và thiết bị có thể được kết nối với hệ thống OT, nhưng chúng thường không được kết nối theo cách mà chúng cũng có thể dễ dàng chia sẻ dữ liệu với hệ thống CNTT. Để cho phép sản xuất được kết nối và các trường hợp sử dụng IoT mới nổi, ECC cần một giải pháp có thể xử lý tất cả các loại cấu trúc dữ liệu và lược đồ đa dạng từ biên, chuẩn hóa dữ liệu và sau đó chia sẻ dữ liệu đó với bất kỳ loại người tiêu dùng dữ liệu nào bao gồm các ứng dụng Dữ liệu lớn.
- Quản lý mức độ phức tạp của dữ liệu thời gian thực: Để ECC thúc đẩy các trường hợp sử dụng phân tích dự đoán, nền tảng quản lý dữ liệu cần bật tính năng phân tích thời gian thực trên dữ liệu truyền trực tuyến. Nền tảng này cũng cần nhập, lưu trữ và xử lý dữ liệu phát trực tuyến một cách hiệu quả theo thời gian thực hoặc thời gian gần thực để cung cấp ngay lập tức thông tin chi tiết và hành động.
- Giải phóng dữ liệu khỏi các silo độc lập: Các quy trình chuyên biệt (nền tảng đổi mới, QMS, MES, v.v.) trong chuỗi giá trị sản xuất thưởng cho các nguồn dữ liệu và nền tảng quản lý dữ liệu khác nhau phù hợp với các giải pháp duy nhất. Các giải pháp thích hợp này giới hạn giá trị doanh nghiệp, chỉ xem xét một phần nhỏ dữ liệu thông tin chi tiết giữa các doanh nghiệp chéo có thể cung cấp, đồng thời phân chia doanh nghiệp và hạn chế cơ hội hợp tác. Nền tảng phù hợp phải có khả năng nhập, lưu trữ, quản lý, phân tích và xử lý dữ liệu trực tuyến từ tất cả các điểm trong chuỗi giá trị, kết hợp nó với Lịch sử dữ liệu, các nguồn ERP, MES và QMS, đồng thời tận dụng nó thành những thông tin chi tiết hữu ích. Những thông tin chi tiết này sẽ cung cấp trang tổng quan, báo cáo và phân tích dự đoán thúc đẩy các trường hợp sử dụng sản xuất có giá trị cao.
- Cân bằng cạnh: Hiểu được sự cân bằng phù hợp giữa xử lý dữ liệu ở rìa và trong đám mây là một thách thức và đây là lý do tại sao toàn bộ vòng đời dữ liệu cần được xem xét. Có một xu hướng đáng lo ngại trong ngành khi các công ty chọn tập trung vào cái này hay cái kia mà không nhận ra rằng họ có thể và nên làm cả hai. Điện toán đám mây có lợi ích cho việc phân tích lâu dài và triển khai quy mô lớn, nhưng nó bị giới hạn bởi băng thông và thường thu thập một lượng lớn dữ liệu trong khi chỉ sử dụng một phần nhỏ. Giá trị của cạnh nằm ở việc hoạt động ở mức mà nó có tác động lớn nhất với độ trễ bằng 0 trước khi gửi dữ liệu có giá trị nhất lên đám mây để xử lý hiệu suất cao hơn nữa.
Thu thập dữ liệu bằng nền tảng dữ liệu Cloudera
BƯỚC 1:Thu thập dữ liệu thô
Dữ liệu từ hoạt động sản xuất của ECC bao gồm vô số nguồn - rô bốt công nghiệp, bể xử lý phốt phát trắng toàn thân (nhiệt độ, nồng độ hoặc bổ sung), viễn thông chuỗi cung ứng hoặc thông tin bộ phận chính, v.v. Đối với ví dụ cụ thể này, phần thô dữ liệu tổng thể cho từng nhà máy trong số năm nhà máy của ECC đã được thu thập để chuẩn bị cung cấp cho Apache NiFi (xem Hình 2).
BƯỚC 2:Định cấu hình nguồn dữ liệu cho từng nhà máy
Việc thu thập dữ liệu sẽ được minh họa bằng cách sử dụng trải nghiệm Luồng dữ liệu của Cloudera (được cung cấp bởi Apache NiFi) để truy xuất dữ liệu thô này và chia nó thành các luồng riêng lẻ của nhà máy (do Apache Kafka quản lý) để giống với kịch bản trong thế giới thực một cách chính xác hơn (xem Hình 2). Để giữ cho ví dụ đơn giản, các thẻ thuộc tính dữ liệu sau đã được chọn cho từng bộ phận do nhà máy tạo ra:
- ID nhà máy
- ID máy
- Dấu thời gian được sản xuất
- Part number
- Số sê-ri
Hình 2:Sơ đồ luồng thu thập dữ liệu.
BƯỚC 3:Theo dõi thông lượng dữ liệu từ mỗi nhà máy
Với tất cả dữ liệu hiện đang chảy vào các luồng Kafka riêng lẻ, một kiến trúc sư dữ liệu đang theo dõi thông lượng dữ liệu từ từng nhà máy cũng như điều chỉnh tài nguyên máy tính và lưu trữ cần thiết để đảm bảo rằng mỗi nhà máy có thông lượng cần thiết để gửi dữ liệu vào nền tảng.
BƯỚC 4:Chụp dữ liệu từ các luồng Apache Kafka
Kafka nắm bắt tất cả các luồng dữ liệu của nhà máy và thu thập nó vào bộ xử lý sẽ vừa lọc vừa làm giàu để sử dụng trong việc kiểm soát và điều hành các hoạt động kinh doanh thiết yếu được cung cấp bởi cơ sở dữ liệu hoạt động hoặc cung cấp thông tin chi tiết về doanh nghiệp thông qua kho dữ liệu doanh nghiệp hoặc được sử dụng trong phân tích nâng cao.
ECC gần đây đã bắt đầu sản xuất phiên bản nâng cấp của động cơ điện chỉ được sản xuất ở Nhà máy 5, dữ liệu này sẽ được sử dụng làm minh họa cho các bước tiếp theo trong vòng đời dữ liệu
BƯỚC 5:Đẩy dữ liệu sang các giải pháp lưu trữ
Vì các kỹ sư sản xuất và chất lượng của ECC sẽ muốn giám sát chặt chẽ việc triển khai và sử dụng động cơ này tại hiện trường, nên dữ liệu truy xuất nguồn gốc sản xuất cụ thể được lọc thành một lộ trình riêng biệt và được lưu vào bảng riêng trong Apache Hive. Điều này sẽ cho phép các kỹ sư chạy các truy vấn đặc biệt trong Kho dữ liệu Cloudera dựa trên dữ liệu sau này cũng như kết hợp dữ liệu đó với dữ liệu có liên quan khác trong kho dữ liệu doanh nghiệp, chẳng hạn như đơn đặt hàng sửa chữa hoặc phản hồi của khách hàng để đưa ra các trường hợp sử dụng trước như bảo hành, dự đoán quy trình bảo trì hoặc đầu vào phát triển sản phẩm.
Ngoài ra, nếu muốn kiểm soát và chạy các hoạt động kinh doanh thiết yếu, toàn bộ tập dữ liệu có thêm dấu thời gian đã xử lý sẽ được gửi vào Cơ sở dữ liệu hoạt động Cloudera do Apache HBase cung cấp. Dữ liệu này sẽ là nền tảng để ECC chạy nền tảng khoảng không quảng cáo của họ, nền tảng này sẽ yêu cầu sử dụng các hoạt động đọc / ghi liên tục vì khoảng không quảng cáo có thể được thêm vào và xóa hàng nghìn lần mỗi ngày. Vì HBase được thiết kế để xử lý các loại giao dịch dữ liệu này trên quy mô lớn, nên nó là giải pháp tốt nhất cho thách thức duy nhất này.
Kết luận
Hình minh họa đơn giản này cho thấy tầm quan trọng của việc nhập dữ liệu đúng cách, vì nó là nền tảng cho thông tin chi tiết được cung cấp từ cả cơ sở dữ liệu hoạt động, kho dữ liệu doanh nghiệp hoặc phân tích dự đoán học máy phân tích nâng cao. Giá trị của việc “làm đúng” bao gồm việc sử dụng dữ liệu từ bất kỳ nguồn nào của doanh nghiệp, do đó chia nhỏ các silo dữ liệu, sử dụng tất cả dữ liệu cho dù nó đang truyền trực tuyến hay theo hướng hàng loạt và khả năng gửi dữ liệu đó đến đúng nơi tạo ra thông tin chi tiết về luồng xuống mong muốn.
Sử dụng CDP, các kỹ sư dữ liệu ECC và những người dùng doanh nghiệp khác có thể bắt đầu sử dụng dữ liệu thu thập được cho các nhiệm vụ khác nhau, từ quản lý hàng tồn kho đến dự báo bộ phận đến máy học. Vì Luồng dữ liệu Cloudera thúc đẩy quá trình nhập dữ liệu theo thời gian thực từ bất kỳ nguồn nào của doanh nghiệp, nên nó có thể được mở rộng và duy trì mà không cần kiến thức sâu rộng về các ngôn ngữ lập trình khác nhau và các phương pháp thu thập dữ liệu độc quyền. Nếu gặp phải các vấn đề duy nhất, các kỹ sư cũng có thể tạo quy trình của riêng họ để kiểm soát chi tiết, thực sự.
Hãy tìm blog tiếp theo sẽ đi sâu vào việc làm giàu dữ liệu và cách nó hỗ trợ câu chuyện về vòng đời dữ liệu. Ngoài ra, câu chuyện này sẽ được tăng cường với các bản trình diễn theo hướng dữ liệu thể hiện hành trình dữ liệu qua từng bước của vòng đời dữ liệu.
Tài nguyên thu thập dữ liệu khác
Để xem tất cả những điều này đang hoạt động, vui lòng nhấp vào các liên kết có liên quan bên dưới để tìm hiểu thêm về Thu thập dữ liệu:
- Video - Nếu bạn muốn xem và nghe cách xây dựng video này, hãy xem video tại liên kết.
- Hướng dẫn - Nếu bạn muốn làm việc này theo tốc độ của riêng mình, hãy xem hướng dẫn chi tiết với ảnh chụp màn hình và hướng dẫn từng dòng về cách thiết lập và thực thi.
- Meetup - Nếu bạn muốn trò chuyện trực tiếp với các chuyên gia từ Cloudera, vui lòng tham gia buổi gặp mặt ảo để xem bản trình bày phát trực tiếp. Sẽ có thời gian cho phần Hỏi và Đáp trực tiếp khi kết thúc.
- Người dùng - Để xem thêm nội dung kỹ thuật cụ thể cho người dùng, hãy nhấp vào liên kết.