HBase
 sql >> Cơ Sở Dữ Liệu >  >> NoSQL >> HBase

Kho dữ liệu thế hệ tiếp theo tại Santander Vương quốc Anh

Dữ liệu kịp thời rất quan trọng đối với các doanh nghiệp trong thời đại Dữ liệu lớn:Bài đăng trên blog này phác thảo cách Santander Vương quốc Anh sử dụng các công nghệ Cloudera mới nhất và khả năng phát triển phần mềm vượt trội để tạo ra thế hệ tiếp theo của kho dữ liệu và phân tích trực tuyến nhằm hỗ trợ trí tuệ có thể cải thiện mối quan hệ với khách hàng và làm theo câu thần chú ' chúng tôi muốn giúp mọi người phát triển và thịnh vượng.

Hành trình dữ liệu lớn của Santander Vương quốc Anh bắt đầu khoảng 4 năm trước. Họ là những người sớm áp dụng công nghệ truyền dữ liệu mới như Apache Kafka và có tham vọng cách mạng hóa trải nghiệm của khách hàng với việc sử dụng dữ liệu thời gian thực và phân tích trong ứng dụng cho người dùng di động.

Kể từ đó, Santander Vương quốc Anh đã nâng cao cả dấu ấn và khả năng đổi mới với công nghệ dữ liệu lớn và đã phát triển nhanh chóng. Nhu cầu phân tích phát trực tuyến quy mô lớn đã tăng lên và trở thành hiện thực. Hôm nay, tại Santander Vương quốc Anh, nền tảng Dữ liệu lớn, Máy học và Phân tích của Cloudera được bổ sung bằng cách tích hợp phân phối sự kiện Nền tảng như một dịch vụ (PaaS) chất lượng cao và có thể mở rộng thông qua Apache Kafka.

Một thành phần công nghệ khác là trọng tâm của Kho dữ liệu thế hệ tiếp theo của Santander Vương quốc Anh là việc sử dụng Apache Kudu để cho phép phân tích nhanh dữ liệu nhanh. Khi được kết hợp với các khía cạnh của phương pháp thiết kế Data Vault 2.0, nó tạo điều kiện cho việc nhập nhanh chóng từ hàng trăm luồng dữ liệu Apache Kafka; vừa giảm tải khối lượng công việc từ các hệ thống kế thừa hiện có, vừa cung cấp khả năng đặt câu hỏi ‘ngay tại đây, ngay bây giờ’ liên quan đến hành vi của khách hàng và trạng thái hiện tại của Ngân hàng.

Tốc độ ra thị trường

Các luồng dữ liệu nhanh có thể được di chuyển trực tuyến với nỗ lực tối thiểu do một nền tảng mới sáng tạo tại Santander Vương quốc Anh, tích hợp các hệ thống kế thừa với một Kho dữ liệu mới thông qua Apache Kafka. Do cấu trúc rõ ràng của dữ liệu được tích hợp, nguồn cấp dữ liệu luồng sự kiện mới để đưa vào Apache Kudu Data Vault phần lớn được định hướng cấu hình - tuân theo các sự kiện dữ liệu với cấu trúc Hub, Satellite và Link của phương pháp Data Vault 2.0. Điều này cho phép lược đồ phản ứng với những thay đổi trong công việc kinh doanh hoặc hiểu biết mới về cách dữ liệu phải được tuân thủ.

Santander UK có thể ảnh hưởng đến việc chuyển đổi dữ liệu bằng cách mở rộng quy mô nền tảng phân phối sự kiện đàn hồi, dựa trên Scala Akka và Apache Kafka, cho phép làm giàu dữ liệu nhanh chóng và có thể mở rộng trong thời gian thực. Điều này cho phép dữ liệu nhanh hơn, kịp thời hơn, quyết định nhanh hơn và tốc độ cao hơn để tiếp thị cho các trường hợp sử dụng do nền tảng và kiến ​​trúc có thể tái sử dụng.

Khoa học dữ liệu và tạo mẫu nhanh các sản phẩm dữ liệu

Cuối cùng, có rất nhiều người tiêu dùng tiềm năng của nguồn dữ liệu trực tuyến này; tuy nhiên, thông tin chi tiết thú vị đã được thu thập thông qua việc tích hợp Cloudera Data Science Workbench vào Data Vault. Những điều này cung cấp trải nghiệm Khoa học Dữ liệu toàn diện cho nhóm Khoa học Dữ liệu đang phát triển và cũng sử dụng — điển hình là phong cách sáng tạo của Santander Vương quốc Anh — tiềm năng tạo ra các ý tưởng nguyên mẫu nhanh chóng và tạo ra các sản phẩm dữ liệu mới trước khi giải quyết các thách thức nặng nề về kỹ thuật và kiến ​​trúc. Tạo một nguyên mẫu nhanh và sau đó, nếu nó tạo ra giá trị, hãy phát triển nó thành một sản phẩm hạng nhất.

Tích hợp nhanh:Mô hình đóng góp

Với tinh thần đổi mới và sự nhanh nhạy mà nhóm Đổi mới Dữ liệu của Santander Vương quốc Anh đã biến thành hiện thực, họ đã tạo ra khái niệm về Mô hình đóng góp. Bởi vì cụm có nhiều đối tượng thuê với các đơn vị kinh doanh khác nhau tìm nguồn cung ứng, làm sạch và thiết kế các bộ dữ liệu mới; nếu được coi là hữu ích cho phần còn lại của doanh nghiệp, các bảng liên kết kiểu Data Vault có thể được sử dụng để tích hợp dữ liệu thường hữu ích này vào cốt lõi của lược đồ Data Vault. Theo cách này, nhóm có thể tăng giá trị của các sản phẩm dữ liệu thông qua việc tạo nhanh các kết hợp mới của bộ dữ liệu, với nguồn gốc có thể theo dõi bằng cách sử dụng Cloudera Navigator để quản trị và bảo mật bằng cách sử dụng Apache Sentry để kiểm soát truy cập. Nếu dữ liệu của đơn vị kinh doanh được coi là hữu ích đối với người khác, dữ liệu đó được liên kết với dữ liệu cốt lõi và được chia sẻ theo các nguyên tắc quản trị.


Mô hình đóng góp cho phép chúng tôi tận dụng các tập dữ liệu thuần túy được tạo độc lập bởi các đơn vị kinh doanh và nhóm sản phẩm khác nhau. Nếu dữ liệu này có giá trị đối với phần còn lại của doanh nghiệp, chúng tôi có khả năng đưa dữ liệu đó vào Kho dữ liệu với tư cách là công dân hạng nhất thông qua việc sử dụng các bảng liên kết. Chúng tôi muốn nhân rộng cách tiếp cận của cộng đồng Apache đối với phần mềm nguồn mở cho các hệ thống dữ liệu trong tổ chức của chúng tôi để cải thiện sự đổi mới thông qua cộng tác.

- Nicolette Bullivant - Trưởng bộ phận Kỹ thuật Dữ liệu, Santander Vương quốc Anh

Đa điểm đến:Một luồng để quy tắc tất cả

Các luồng sự kiện thô được tạo từ các hệ thống kế thừa được coi là chuẩn và thường được các bên liên quan khác sử dụng cụm yêu cầu. Nhóm Đổi mới Dữ liệu của Santander Vương quốc Anh đã áp dụng nguyên tắc đảm bảo rằng các luồng sự kiện này có sẵn để sử dụng theo các trường hợp sử dụng và công nghệ khác nhau; do đó, một luồng sự kiện chuẩn có thể được phân phối lại cho các điểm đến khác nhau; hoặc hệ thống tệp HDFS, Apache HBase hoặc Apache Kudu. Điều này giúp tạo ra một phiên bản chân lý duy nhất cho tất cả các bên liên quan trong khi tránh gây áp lực ngược lên các hệ thống kế thừa.

Kết luận

Nói tóm lại, Santander UK đang đổi mới trực tiếp trên ngăn xếp Cloudera, kết hợp dữ liệu truyền trực tuyến, các nguyên tắc và khuôn khổ kỹ thuật phần mềm tiên tiến cũng như các nguyên tắc thiết kế kho dữ liệu hiện đại để tạo ra thông tin chi tiết theo thời gian thực nhằm cải thiện trải nghiệm khách hàng và phúc lợi tài chính của khách hàng. Sự đổi mới này gần đây đã được công nhận khi ban giám khảo bên thứ ba bầu chọn Santander là ứng viên lọt vào vòng chung kết Giải thưởng Tác động Dữ liệu.

Nicolette Bullivant là Trưởng bộ phận Kỹ thuật Dữ liệu tại Santander Vương quốc Anh.
Rob Siwicki là Kiến trúc sư giải pháp cao cấp về Dịch vụ chuyên nghiệp của Cloudera, EMEA.


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Quản trị Cơ sở dữ liệu Hoạt động

  2. Bên trong Kiến trúc nhập dữ liệu gần thời gian thực của Santander

  3. Điểm chuẩn Apache HBase so với Apache Cassandra trên SSD trong môi trường đám mây

  4. Apache HBase Nên và Không nên

  5. HBase:5 mẹo để chạy trên EC2 bộ nhớ thấp