Hiện tại, nhiều doanh nghiệp, bao gồm nhiều khách hàng của Cloudera, đang thử nghiệm học máy (ML) và tạo ra các mô hình để đối phó với nhiều thách thức. Mặc dù ngày nay, nhiều mô hình được sử dụng cho các trang tổng quan và mục đích BI nội bộ, một nhóm nhỏ và đang phát triển nhanh chóng của các nhà lãnh đạo doanh nghiệp đã bắt đầu nhận ra tiềm năng của ML đối với tự động hóa kinh doanh, tối ưu hóa và đổi mới sản phẩm. Trong bài đăng trên blog này, chúng ta sẽ đi sâu vào phần sau — cụ thể là cách các ngành kinh doanh đang định hướng lại các nhà khoa học dữ liệu của họ để làm việc với các kỹ sư ứng dụng và các bên liên quan khác để giải quyết các vấn đề kinh doanh trong thời gian thực. Các trường hợp sử dụng này khác nhau giữa các ngành và mức độ quan trọng của doanh nghiệp, đồng thời đang phát triển theo chiều rộng và chiều sâu khi các công ty tìm hiểu mức độ có thể làm được với dữ liệu họ có.
Ví dụ về các trường hợp sử dụng này bao gồm:
- Cerner, một nhà lãnh đạo chăm sóc sức khỏe, sử dụng dữ liệu cảm biến từ bệnh nhân để xác định Nhiễm trùng huyết bằng mô hình học máy và chủ động thông báo cho bác sĩ để họ có thể chẩn đoán và điều trị thêm trong vòng 6 giờ về căn bệnh này có thể điều trị được
- Dịch vụ tài chính các công ty đang sử dụng công nghệ máy học để phát hiện các giao dịch gian lận trong thời gian thực và sử dụng phản hồi theo thời gian thực từ khách hàng để học tập củng cố
- Công ty đường sắt có các chuyến tàu chở hàng đường dài đi qua các ga đặc biệt, nơi chúng chụp hàng nghìn bức ảnh có độ phân giải cao và áp dụng công nghệ máy học để xác định các bộ phận hỏng hóc. Sau đó, họ lên lịch cho chuyến tàu đến cơ sở sửa chữa cùng với các bộ phận và kỹ thuật viên - khiến việc dừng lại giống như công thức một điểm dừng
- Tiện ích đang sử dụng dữ liệu đồng hồ thông minh để xác định các sự cố tiềm ẩn trong lưới điện phân phối và chủ động lên lịch bảo trì
- Công ty truyền thông đang sử dụng công nghệ máy học để xác định và cung cấp nội dung phù hợp trong thời gian thực dựa trên những gì bạn đang xem
- Công ty công nghệ quảng cáo &thương mại điện tử đã sử dụng những khả năng này lâu nhất để đảm bảo mức độ liên quan của các ưu đãi với nhiều đối tượng mục tiêu khác nhau
Khi vấn đề được xác định và quyết định đầu tư vào giải pháp kinh doanh, các nhà khoa học dữ liệu sẽ nghiên cứu dữ liệu bằng cách sử dụng các công cụ ML khác nhau để tạo ra các thuật toán và làm việc với các kỹ sư phần mềm để xây dựng các ứng dụng có thể tận dụng các thuật toán đó.
Tùy thuộc vào nhu cầu của họ, dữ liệu có thể nằm trong kho dữ liệu của họ hoặc bên trong cơ sở dữ liệu hoạt động của họ. Nhiều khách hàng của Cloudera sẽ sử dụng Spark &SparkMLlib bên trong Cloudera Machine Learning (CML) để đào tạo các thuật toán của họ. Sử dụng CML cho phép quy trình làm việc liền mạch để vận hành các mô hình trong một nền tảng duy nhất, an toàn và được quản lý được xây dựng để quy trình làm việc ML nhanh hơn. Để tìm hiểu thêm về cách tiếp cận của chúng tôi nhằm phát triển quy trình sản xuất trong CML, hãy tham gia hội thảo trên web này.
Các thuật toán đào tạo có thể được thực hiện trong cơ sở dữ liệu hoạt động
Một trong những lý do chính để sử dụng kho dữ liệu cho các thuật toán huấn luyện là để tránh thêm tải vào cơ sở dữ liệu hoạt động hiện có và do đó ảnh hưởng đến SLA của khối lượng công việc vận hành. Tuy nhiên, trong trường hợp với Cơ sở dữ liệu hoạt động của Cloudera (OpDB), người dùng có thể đặt hạn ngạch và giới hạn về lượng tài nguyên và tải mà người dùng máy học có thể đặt vào hệ thống. Điều này bảo vệ khối lượng công việc hoạt động trong khi cho phép các nhà khoa học dữ liệu sử dụng dữ liệu thời gian thực mà không phải chịu chi phí tạo bản sao thứ hai.
Khi sử dụng Cloudera’s OpDB, khách hàng thường sử dụng Spark để truy vấn dữ liệu trong cơ sở dữ liệu hoạt động, loại bỏ nhu cầu tải dữ liệu trước khi khám phá và sử dụng nó để đào tạo cho mục đích học máy.
Các thuật toán ML phải đáp ứng các yêu cầu về tính khả dụng, khả năng phục hồi và khả năng đáp ứng của cấp ứng dụng
Việc phát triển và đào tạo thuật toán dựa trên ML thường được thực hiện cùng với việc phát triển ứng dụng (giả sử rằng thực tế là điều này có thể làm được đã được thiết lập). Các yêu cầu ứng dụng điển hình cho cơ sở dữ liệu cơ bản thường bao gồm:
- Thời gian phản hồi dưới 1ms
- Tính khả dụng liên tục khi hết phần cứng (hoặc tính khả dụng cao nhưng tính khả dụng cao ít được ưu tiên hơn)
- Khả năng mở rộng quy mô
- Đồng thời cao (1.000 yêu cầu / giây)
Khi triển khai học máy như một phần của ứng dụng, các yêu cầu của ứng dụng về tính khả dụng, khả năng phục hồi và khả năng đáp ứng phải được đáp ứng. Ngoài ra, một số yêu cầu cụ thể về máy học bổ sung được áp dụng cho ứng dụng:
- Khả năng kiểm tra các quyết định
- Khả năng phiên bản các mô hình / thuật toán
- Khả năng hỗ trợ tăng dữ liệu để học liên tục (tùy thuộc vào thuật toán được triển khai)
Cơ sở dữ liệu hoạt động của Cloudera có thể đáp ứng cả hai nhóm yêu cầu
Để đáp ứng các yêu cầu này, khách hàng thường sẽ san phẳng đầu ra của mô hình học máy thành một bảng - về cơ bản là tính toán trước tất cả các đầu ra cho toàn bộ không gian đầu vào. Điều này tạo ra các yêu cầu bổ sung cho cơ sở dữ liệu cơ bản:
- Khả năng tạo bảng có kích thước hàng trăm gigabyte hoặc terabyte (tùy thuộc vào kích thước và số lượng tham số đầu vào)
- Quản lý đơn giản hơn (không buộc quản trị viên phải quản lý sharding, v.v.)
Từ quan điểm cơ sở dữ liệu hoạt động của Cloudera, mô hình học máy dễ dàng được biểu diễn dưới dạng bảng (và đây là cách tiếp cận mà nhiều khách hàng đã thực hiện):
- Khóa chính bao gồm tập hợp các đầu vào cần thiết để xác định đầu ra (bất kể số lượng đầu vào được yêu cầu)
- Cột:Đề xuất mô hình học máy (đầu ra)
- Cột:Phiên bản kiểu máy
Khả năng kiểm tra cũng giống như một bảng:
- Khóa chính bao gồm tập hợp các đầu vào cần thiết để xác định đầu ra (bất kể số lượng đầu vào được yêu cầu)
- Column:bạn đã phân phát đầu ra này cho ai (ví dụ:ID khách hàng)
- Column:đầu ra nào đã được phân phát
- Column:phiên bản mô hình nào đã được sử dụng
- Column:câu trả lời thay thế nào sẽ tốt hơn (tăng thêm)
Việc tăng cường có thể được thực hiện theo cách thủ công hoặc theo chương trình (ví dụ:khi một công ty phát hành thẻ tín dụng gửi email yêu cầu bạn xác minh một giao dịch - họ đang thực hiện tăng cường dữ liệu). Bảng đánh giá được bổ sung này có thể được sử dụng để tăng cường học tập tại chỗ trong cơ sở dữ liệu hoặc tải vào kho dữ liệu.
Vì dữ liệu nằm trong cơ sở dữ liệu, nên việc cập nhật mô hình có thể được thực hiện với bất kỳ ứng dụng nào trong thời gian ngừng hoạt động.
Từ góc độ mở rộng quy mô, Cơ sở dữ liệu hoạt động của Cloudera được xây dựng trên Apache HBase &Apache Phoenix - cả hai đều đã được chứng minh là có thể xử lý các bảng có kích thước hàng trăm terabyte mà không gặp bất kỳ sự cố nào.
Kiểm tra Cơ sở dữ liệu hoạt động của Cloudera trong Nền tảng dữ liệu Cloudera trên Đám mây công cộng để xây dựng ứng dụng dựa trên ML tiếp theo của bạn.