Một trong những mối quan tâm chính của các DBA, những người cần tải dữ liệu lớn từ các bảng của cơ sở dữ liệu rất lớn (VLDB) là tốc độ. Tải nhanh hơn giúp dữ liệu có thể truy cập được ở các dạng khác nhau cho các mục đích và nền tảng khác nhau. Dữ liệu được thu thập càng nhanh, thì dữ liệu đó có thể được xử lý và phân phối càng nhanh. Kết quả cuối cùng là thời gian đưa ra giải pháp nhanh hơn, do đó năng suất và khả năng cạnh tranh của các công ty kiếm tiền từ thông tin.
Hầu hết các công cụ và phương pháp hiện có được sử dụng để trích xuất dữ liệu từ các bảng dữ liệu lớn đơn giản là quá chậm. Những thứ có mục đích nhanh hơn thì phức tạp, độc quyền hoặc yêu cầu mua một gói ETL tốn kém. Việc chuyển đổi sang mô hình ELT hoặc Hadoop đòi hỏi các chi phí phần cứng (hoặc thiết bị DB) lớn, đánh thuế DB cơ bản hiện đang chuyển đổi và áp đặt các đường cong học tập dốc và gánh nặng bảo trì.
Không có tùy chọn nào khác cho quy trình dỡ tải và hạ lưu nhanh hơn, đơn giản hơn và giá cả phải chăng hơn?
Tại sao phải dỡ bỏ các bảng VLDB?
Có nhiều lý do tại sao bạn lại dỡ hàng loạt dữ liệu từ các bảng này ngay từ đầu:
Di chuyển cơ sở dữ liệu :Bạn có thể lấy dữ liệu ra khỏi (các) cơ sở dữ liệu kế thừa càng nhanh thì bạn có thể ánh xạ và di chuyển dữ liệu vào (các) cơ sở dữ liệu mới càng nhanh. Di chuyển dữ liệu hàng loạt sẽ có lợi nếu khối lượng dữ liệu lớn, có lợi cho việc chuyển đổi, bảo vệ và / hoặc phân tích ngoại tuyến (có thể thực hiện ngay trong IRI CoSort) và khi tải hàng loạt được sắp xếp trước là cách duy nhất để đáp ứng Thời hạn SLA.
Tổ chức lại cơ sở dữ liệu :Dỡ, sắp xếp, tải lại để giữ cho cơ sở dữ liệu hoạt động hiệu quả và tối ưu hóa các truy vấn phổ biến bằng cách giữ các bảng theo thứ tự nối. Việc dỡ hàng được thực hiện trong quá trình tái tổ chức ngoại tuyến hoặc bên ngoài. Xem so sánh này trên các phương pháp tổ chức lại ngoại tuyến và trực tuyến.
Tích hợp dữ liệu :Các hoạt động trích xuất-biến đổi-tải (ETL) DW quy mô lớn bắt đầu bằng việc trích xuất các bảng vào vùng dữ liệu. Dữ liệu được kết xuất từ các bảng và được trộn lẫn với các tập dữ liệu máy tính lớn, nhật ký web và các tệp phẳng khác có thể được tích hợp và xử lý một cách hiệu quả nhất trong hệ thống tệp. Các phép chuyển đổi bên ngoài thông qua không chỉ hiệu quả hơn vì nhiều hành động có thể được thực hiện trong một lần nhập I / O duy nhất, mà còn do chi phí tính toán của tất cả công việc này bị xóa khỏi cơ sở dữ liệu (xem ETL so với ELT).
Sao chép / Lưu trữ dữ liệu :Bằng cách giảm tải các bảng dữ kiện, dữ liệu hoạt động của nguồn vàng có thể được sao chép và lưu trữ ở định dạng di động. Dữ liệu trong tệp phẳng có thể được truy vấn, thao tác và định dạng lại bằng các công cụ như IRI NextForm hoặc CoSort, đồng thời được sử dụng để điền các cơ sở dữ liệu và ứng dụng khác. Tương tự, một kho lưu trữ có thể truy cập được của dữ liệu này cũng có thể được lưu trữ ngoại tuyến để khôi phục và truy xuất sao lưu hoặc phân phối cho các bên yêu cầu quyền truy cập vào dữ liệu trong một môi trường khác.
Business Intelligence :Có thể nhanh hơn và dễ dàng hơn để nhập dữ liệu hoạt động vào Excel và các công cụ BI khác ở định dạng tệp phẳng như CSV và XML thay vì cố gắng kết nối giữa bảng và bảng tính hoặc khối lập phương BI. Do đó, tải các bảng thành các tệp phẳng là bước khởi đầu và hiệu quả trong nhượng quyền dữ liệu - chuẩn bị dữ liệu cho các hoạt động BI.
Xem xét các phương pháp dỡ bỏ
Các phương pháp trích xuất VLDB khác nhau về hiệu suất và chức năng. Một tiện ích tốt để tải dữ liệu lớn từ Oracle và các DB chính khác cần phải hiệu quả, dễ sử dụng và hỗ trợ các chức năng định dạng lại nhất định sẽ không làm vướng mắc quy trình.
Lệnh SQL SPOOL có thể kết xuất dữ liệu vào một tệp phẳng, nhưng nó thường chậm về khối lượng. Các tiện ích gốc như máy xuất dữ liệu hoặc máy bơm dữ liệu của Oracle nhanh hơn, nhưng tạo ra các bản trích xuất độc quyền chỉ có thể được nhập lại vào cùng một cơ sở dữ liệu và không thể được phân tích như một tệp phẳng.
Nếu bạn cần nhanh chóng tải các bảng lớn xuống các tệp phẳng di động, hãy xem xét IRI FACT (Fast Extract) cho Oracle, DB2, Sybase, MySQL, SQL Server, Altibase, Tibero, v.v. FACT sử dụng song song và các giao thức kết nối cơ sở dữ liệu gốc (như Oracle OCI ) để tối ưu hóa hiệu suất khai thác. FACT GUI (trình hướng dẫn) miễn phí là một phần của IRI Workbench, được xây dựng trên Eclipse ™, trình bày các bảng và cột có sẵn để trích xuất và sử dụng cú pháp SQL SELECT.
Một lợi ích khác khi sử dụng FACT là tích hợp siêu dữ liệu với chương trình SortCL trong IRI Voracity để chuyển đổi, bảo vệ, nhắm mục tiêu và thậm chí báo cáo về các trích xuất tệp phẳng. FACT cũng tạo tệp điều khiển tiện ích tải hàng loạt cơ sở dữ liệu đề phòng các nhóm lại cùng bảng bằng cách sử dụng các tệp phẳng được CoSorted sẵn trong các hoạt động ETL hoặc tổ chức lại quy mô lớn.