Nền tảng Statistica được xếp hạng trong năm nền tảng khoa học dữ liệu hàng đầu theo báo cáo mới của Gartner cho năm 2017, “Magic Quadrant cho nền tảng khoa học dữ liệu” (https://www.gartner.com/doc/3606026/magic-quadrant-data-science- ), trước đây được gọi là “Nền tảng phân tích nâng cao” vào năm 2016. Một loạt các tính năng và Giao diện người dùng đồ họa (GUI) do Statistica cung cấp khiến nó trở thành một trong những công cụ khoa học dữ liệu được sử dụng phổ biến nhất.
Tệp dữ liệu thống kê được gọi là Bảng tính , có các hàng và cột dữ liệu. Các dòng dữ liệu được gọi là trường hợp và tiêu đề cột cho dữ liệu được gọi là biến . Một vấn đề phổ biến trong việc chuẩn bị dữ liệu là các thành viên khác nhau trong nhóm đang phát triển hoặc thu thập các tập dữ liệu riêng biệt và các tập dữ liệu phải được hợp nhất trước khi có thể sử dụng bảng tính. Dữ liệu có thể nằm trong nhiều tệp dữ liệu. Chúng ta sẽ thảo luận về cách dữ liệu trong hai tệp dữ liệu khác nhau có thể được hợp nhất thành một tệp dữ liệu duy nhất với Statistica.
Statistica hỗ trợ các loại chế độ hợp nhất khác nhau cho hai tệp dữ liệu và đó là:
- Kết hợp: Khi hai tệp dữ liệu được nối với nhau, một tệp dữ liệu sẽ được lấy và thêm (hoặc nối) ở phía bên phải của tệp dữ liệu khác.
- Đề-các: Tạo sản phẩm kết hợp của hai tệp dữ liệu.
- So khớp các tên trường hợp: Hợp nhất các trường hợp (hàng) của một tệp với các trường hợp của các tệp khác bằng cách khớp tên trường hợp.
- Các biến đối sánh: Hợp nhất các hàng của một tệp dữ liệu với các hàng của tệp dữ liệu khác bằng cách khớp các tên biến.
Chúng ta sẽ bắt đầu bằng cách thảo luận về việc hợp nhất Concatenate. Hướng dẫn này có các phần sau:
- Thiết lập Môi trường
- Nối các tệp dữ liệu
- Kết luận
Thiết lập Môi trường
Tải xuống và cài đặt Nền tảng Statistica. Tệp dữ liệu thống kê được gọi là Bảng tính (được lưu trữ bằng .sta hậu tố). Chúng tôi sẽ tạo một số tệp dữ liệu Statistica trong hướng dẫn này. Tệp dữ liệu được tạo bằng Tệp> Mới . Trong Tạo tài liệu mới , chọn Bảng tính , như trong Hình 1.
Hình 1: Chọn Bảng tính Mới để tạo
Để lưu tệp dữ liệu, hãy chọn Tệp> Lưu dưới dạng , như trong Hình 2.
Hình 2: Tệp>
Lưu dưới dạng
Nối các tệp dữ liệu
Đầu tiên, tạo hai tệp dữ liệu sẽ được hợp nhất. Các tệp dữ liệu được hợp nhất thường sẽ có cùng số hàng và số cột giống nhau hoặc khác nhau. Bởi vì dữ liệu phải được nối với nhau, tên cột thường sẽ khác nhau. Không có gì trong số này là một yêu cầu; hai tệp dữ liệu có thể có số hàng khác nhau và chúng ta sẽ thảo luận cách hợp nhất một bộ tệp dữ liệu như vậy. Mục tiêu là hợp nhất dữ liệu trong tệp dữ liệu này với tệp dữ liệu kia để tệp dữ liệu 2 được thêm vào bên phải của tệp dữ liệu 1. Ví dụ:tạo một tệp dữ liệu (được gọi là wlslog1.sta ) với tiêu đề cột ( biến ) dấu thời gian , danh mục và loại và dữ liệu sau (dữ liệu nhật ký ví dụ).
4-8-2014-7:06:16,Notice,WebLogicServer 4-8-2014-7:06:17,Notice,WebLogicServer 4-8-2014-7:06:18,Notice,WebLogicServer 4-8-2014-7:06:20,Notice,WebLogicServer 4-8-2014-7:06:21,Notice,WebLogicServer 4-8-2014-7:06:22,Notice,WebLogicServer
wlslog1.sta tệp dữ liệu được hiển thị trong Statistica trong Hình 3.
Hình 3: Tệp dữ liệu wlslog1.sta
Tạo một tệp dữ liệu khác ( wlslog2.sta ) với tiêu đề cột tên máy chủ , mã và msg và thêm dữ liệu sau (cũng như dữ liệu nhật ký ví dụ).
AdminServer,BEA-000365,STANDBY AdminServer,BEA-000365,RESUMING AdminServer,BEA-000365,ADMIN AdminServer,BEA-000331,STARTING AdminServer,BEA-000365,STARTED AdminServer,BEA-000360,RUNNING
wlslog2.sta được hiển thị trong Hình 4. Để hợp nhất hai tệp dữ liệu, wlslog1.sta và wlslog2.sta , nhấp vào Dữ liệu và chọn Hợp nhất , như trong Hình 4.
Hình 4: Tệp dữ liệu wlslog2.sta
A Tùy chọn hợp nhất hộp thoại được hiển thị, như thể hiện trong Hình 5. Các biến tab được chọn theo mặc định. Chọn Chế độ dưới dạng Kết hợp . Nhấp vào Tệp 1 để chọn 1 tệp để hợp nhất.
Hình 5: Tùy chọn hợp nhất
Chọn wlslog1.sta trong Chọn bảng tính hộp thoại (xem Hình 6). Nhấp vào OK . wlslog1.sta tệp được thêm vào Tệp 1 đồng ruộng. Tương tự, chọn 2 tệp wlslog2.sta .
Hình 6: Chọn Bảng tính để Hợp nhất
Không yêu cầu cấu hình khác. Theo mặc định, một bảng tính đầu ra được tạo và nó có thể được định cấu hình bằng Tùy chọn , như thể hiện trong Hình 7. Giữ các cài đặt mặc định cho bảng tính đầu ra.
Hình 7: Tab Tùy chọn
Hai tệp sẽ được hợp nhất sẽ được thêm vào Tệp 1 và Tệp 2 các trường, như thể hiện trong Hình 8. Cài đặt mặc định cho Các trường hợp chưa được so khớp điền vào các tệp dữ liệu bằng các giá trị bị thiếu, ngụ ý rằng dữ liệu trống được lưu trữ cho phần của hàng đã hợp nhất ( trường hợp ) không khớp từ tệp dữ liệu này sang tệp dữ liệu khác. Nhấp vào OK .
Hình 8: Tệp dữ liệu để hợp nhất
Hai tệp dữ liệu được nối với nhau, như thể hiện trong Hình 9. Bảng tính kết quả có 6 cột và 6 hàng.
Hình 9: Bảng tính kết quả sau khi hợp nhất
Nếu một bảng tính có nhiều hàng hơn bảng tính kia, thì hai bảng tính sẽ được nối giống nhau. Ví dụ:thêm một hàng bổ sung trong 1 bảng tính ( wlslog1.sta ) để tạo thành 7 hàng, như trong Hình 10.
Hình 10: Hàng bổ sung trong wlslog1.sta
Khi được nối với 2 bảng tính ( wlslog2.sta ), bảng tính kết quả có thêm một hàng với dữ liệu bị thiếu cho các cột từ 2 bảng tính (xem Hình 11).
Hình 11: Bảng tính hợp nhất
Kết luận
Trong hướng dẫn này, chúng tôi đã giới thiệu việc hợp nhất các tệp dữ liệu (còn gọi là bảng tính) trong Nền tảng Statistica dành cho khoa học dữ liệu. Chúng tôi đã thảo luận về một trong những chế độ hợp nhất:Ghép kết hợp. Trong hướng dẫn tiếp theo, chúng ta sẽ thảo luận về việc hợp nhất bằng cách khớp các tên và bằng cách khớp các biến.