Oracle
 sql >> Cơ Sở Dữ Liệu >  >> RDS >> Oracle

Di chuyển dữ liệu từ oracle sang HDFS, xử lý và chuyển sang Teradata từ HDFS

Có vẻ như bạn có một số câu hỏi nên chúng ta hãy thử chia nhỏ.

Nhập ở HDFS

Có vẻ như bạn đang tìm kiếm Sqoop . Sqoop là một công cụ cho phép bạn dễ dàng chuyển dữ liệu vào / ra HDFS và có thể kết nối với nhiều cơ sở dữ liệu khác nhau bao gồm cả Oracle. Sqoop tương thích với trình điều khiển mỏng Oracle JDBC. Đây là cách bạn sẽ chuyển từ Oracle sang HDFS:

sqoop import --connect jdbc:oracle:[email protected]:1521/db --username xxx --password yyy --table tbl --target-dir /path/to/dir

Để biết thêm thông tin: tại đây tại đây . Lưu ý rằng bạn cũng có thể nhập trực tiếp vào bảng Hive với Sqoop, điều này có thể thuận tiện cho việc phân tích của bạn.

Đang xử lý

Như bạn đã lưu ý, vì dữ liệu của bạn ban đầu là quan hệ, bạn nên sử dụng Hive để thực hiện phân tích vì bạn có thể quen thuộc hơn với cú pháp giống SQL. Pig là đại số quan hệ thuần túy hơn và cú pháp KHÔNG giống SQL, đó là vấn đề được ưu tiên hơn nhưng cả hai cách tiếp cận đều hoạt động tốt.

Vì bạn có thể nhập dữ liệu trực tiếp vào Hive bằng Sqoop, nên dữ liệu của bạn sẽ trực tiếp sẵn sàng để xử lý sau khi được nhập.

Trong Hive, bạn có thể chạy truy vấn của mình và yêu cầu nó ghi kết quả vào HDFS:

hive -e "insert overwrite directory '/path/to/output' select * from mytable ..."

Xuất sang TeraData

Cloudera đã phát hành năm ngoái một trình kết nối cho Teradata dành cho Sqoop như được mô tả tại đây , vì vậy bạn nên xem xét vì nó trông giống chính xác những gì bạn muốn. Đây là cách bạn sẽ làm điều đó:

sqoop export --connect jdbc:teradata://localhost/DATABASE=MY_BASE --username sqooptest --password xxxxx --table MY_DATA --export-dir /path/to/hive/output

Toàn bộ điều chắc chắn có thể thực hiện được trong bất kỳ khoảng thời gian nào bạn muốn, cuối cùng điều quan trọng là kích thước cụm của bạn, nếu bạn muốn nó nhanh chóng thì hãy mở rộng cụm của bạn khi cần. Điều tốt với Hive và Sqoop là quá trình xử lý sẽ được phân phối trong cụm của bạn, vì vậy bạn có toàn quyền kiểm soát lịch trình.



  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. ORA-03113:phần cuối của tệp trên kênh liên lạc sau một thời gian dài không hoạt động trong ứng dụng ASP.Net

  2. Tự động điền ngày vào bảng oracle

  3. Tại sao một từ đồng nghĩa Oracle lại trả về một số hàng khác nhau cho bảng bên dưới?

  4. Oracle tạo danh sách các ngày trong tuần IW

  5. Rò rỉ bộ nhớ trình điều khiển Oracle - Tomcat