12 năm trước, khi tôi viết những bài báo đầu tiên cho “Bẻ khóa mã:Phá vỡ các vai trò phát triển phần mềm”, tôi đã đưa ra một quyết định có ý thức và có lẽ gây tranh cãi là không bao gồm quản trị viên cơ sở dữ liệu hoặc kiến trúc sư cơ sở dữ liệu vào vai trò của mình. Quyết định được đưa ra bởi vì có ít tổ chức xử lý quy mô dữ liệu yêu cầu vai trò chuyên dụng này trong quá trình phát triển phần mềm. Kiến trúc sư giải pháp có thể quan tâm đến nhu cầu thiết kế cấu trúc dữ liệu của tổ chức như một phần trong vai trò tổng thể của họ. Tuy nhiên, thế giới dữ liệu đã trở nên rộng lớn hơn kể từ đó.
Dữ liệu lớn
Ngày nay, chúng ta đang phải đối mặt với khối lượng nhiều hơn, tốc độ lớn hơn và sự đa dạng năng động của các nguồn dữ liệu mà chúng ta đang xử lý. Chúng tôi không nói về các cơ sở dữ liệu quan hệ điển hình đã phổ biến trong nhiều thập kỷ. Việc mở rộng dữ liệu yêu cầu một tập hợp các kỹ thuật và kỹ năng không giống như các phương pháp tiếp cận dữ liệu trước đây mà chúng tôi đang sử dụng.
Đa luồng xử lý dữ liệu của chúng tôi là một cải tiến của các phương pháp tiếp cận xử lý dữ liệu đơn luồng đã phổ biến việc xử lý dữ liệu trong những năm 1980; tuy nhiên, ngay cả những phương pháp này, dựa trên một máy tính với nhiều luồng thực thi, cũng bị phá vỡ khi số lượng xử lý cần thiết để trích xuất ý nghĩa vượt quá khả năng của một máy.
Sự trỗi dậy của máy tính dựa trên dịch vụ
Năm 1999, người dùng tại nhà có thể quyên góp các chu kỳ tính toán dự phòng trên máy tính của họ cho mục đích tìm kiếm trí thông minh ngoài trái đất thông qua dự án [email protected] do UC Berkeley thực hiện. Đây không phải là lần đầu tiên sử dụng máy tính phân tán rộng rãi hoặc điện toán lưới, nhưng đây là dự án thu hút trí tưởng tượng của người dùng Internet ở khắp mọi nơi. Đột nhiên, họ có khả năng trở thành những người tìm ra “ET”. Trong quá trình xây dựng, dự án đã phân phối một lượng lớn dữ liệu để xử lý cho nhiều máy tính, máy tính này thực hiện các phép tính trên dữ liệu để xem liệu có các bit thú vị mà không chỉ là tiếng ồn xung quanh hay không. [email protected] chỉ là một trong những dự án máy tính phân tán mang lại nhận thức về loại vấn đề mà một máy tính duy nhất là không đủ.
IBM, Microsoft và những công ty khác hiện đang cung cấp các dịch vụ máy tính và học máy để giúp các tổ chức xử lý dữ liệu mà họ đang nắm bắt và hiểu được dữ liệu đó để họ không phải huy động một đội quân tình nguyện viên tận tâm. Các nền tảng này nhằm mục đích cung cấp sức mạnh tính toán và máy học cần thiết để trích xuất thông tin ẩn trong khối lượng dữ liệu. Thay vì các tổ chức cần xây dựng và triển khai trung tâm dữ liệu của riêng họ với các tài nguyên máy tính chuyên dụng, các tài nguyên để chuyển đổi dữ liệu thành thông tin và ý nghĩa có sẵn cho thuê.
Không phải về dữ liệu, mà là về thông tin chi tiết
Mặc dù lượng dữ liệu chúng tôi thu thập được là đáng kinh ngạc, nhưng đó không phải là dữ liệu thú vị. Điều thú vị là những gì dữ liệu có thể cho bạn biết — nếu bạn có thể phân tích nó. Các chỉ số riêng lẻ về hiệu suất của động cơ không quan trọng mà là khả năng dự đoán khi nào động cơ cần bảo dưỡng hoặc có khả năng bị hỏng— đó là quan trọng.
Các nhà khoa học dữ liệu không tập trung vào việc lưu trữ dữ liệu như các kiến trúc sư dữ liệu và quản trị viên cơ sở dữ liệu. Thay vào đó, họ tập trung vào việc chuyển đổi dữ liệu thành thông tin và cuối cùng là thông tin chi tiết mà doanh nghiệp có thể sử dụng để đưa ra quyết định tốt hơn. Điều này có nghĩa là tìm kiếm các phương pháp tiếp cận mới để phân tích dữ liệu theo những cách tiết lộ những thông tin chi tiết thú vị mà doanh nghiệp có thể sử dụng để tạo lợi thế cho mình.
Đứng về Bộ và Thống kê
Quy trình phát triển phần mềm truyền thống quen thuộc với cách tiếp cận theo thủ tục để giải quyết vấn đề. Các nhà phát triển, khách hàng tiềm năng và kiến trúc sư được học bài bản về các phương pháp và lợi ích của việc xây dựng theo quy trình. Các phương pháp tiếp cận theo thủ tục giống như sự tự động hóa của một nhân viên cực kỳ nghiêm túc nhưng không phải là nguyên bản. Máy tính được cho biết các bước (thủ tục) để thực hiện theo thứ tự nào và trong những điều kiện nào, nó sẽ lặp lại hoạt động hoặc phân chia giữa nhiều đường dẫn. Tuy nhiên, các nhà khoa học dữ liệu không chỉ làm việc với các phương pháp tiếp cận theo thủ tục mà còn với logic dựa trên tập hợp. Phong cách tư duy khác nhau, bởi vì nó tìm kiếm những khoảng trống và giao điểm. Nó hoạt động dựa trên các mối quan hệ bình đẳng và bất bình đẳng giữa các bộ thông tin khác nhau.
Mặc dù một số nhà phát triển đã gặp phải logic dựa trên tập hợp trong công việc của họ, các nhà khoa học dữ liệu phải cảm thấy thoải mái và thông thạo khả năng của họ trong việc thao tác các tập hợp thông tin.
Ngoài ra, không giống như các vai trò khác trong vòng đời phát triển phần mềm, nhà khoa học dữ liệu cần có một kỹ năng chuyên biệt bên ngoài lĩnh vực phát triển phần mềm. Bởi vì các nhà khoa học dữ liệu tìm kiếm thông tin chi tiết về mối quan hệ giữa các bit dữ liệu khác nhau, họ cần một nền tảng vững chắc về thống kê để có thể tìm kiếm và tạo ra các giá trị thống kê như mối tương quan để trả lời các câu hỏi họ đặt ra và tìm mối quan hệ không chính xác giữa các tập dữ liệu khác nhau.
Dù sao thì tiêu đề vị trí?
Sự tăng trưởng về dữ liệu đã đạt đến điểm giới hạn. Cho dù đó là phân tích mạng xã hội, lịch sử nhấp chuột hay mua dữ liệu, các tổ chức đang nhìn thấy giá trị kinh doanh thực sự trong dữ liệu được khóa trong cơ sở dữ liệu của họ và các nhà khoa học dữ liệu là chìa khóa để mở ra tiềm năng của dữ liệu đó.
Nắm bắt được giá trị đó có nghĩa là thuê những người có kỹ năng kết nối các thuật toán xử lý với dữ liệu và khai thác sức mạnh tính toán để tạo ra những kết quả đó.
Tốt, xấu và xấu
Khoa học dữ liệu đang bùng nổ ngay bây giờ với sự ra đời của các thiết bị Internet of Things ghi lại tất cả các loại dữ liệu từ mọi nơi. Điều đó có nghĩa là cơ hội lớn — và nhiều thách thức. Đây chỉ là một vài trong số những thách thức đó:
- Tốt: Có cơ hội tuyệt vời để tìm ra những cách mới để trích xuất thông tin chi tiết từ dữ liệu.
- Tốt: Tài nguyên máy tính và lưu trữ có thể được mua với số lượng lớn.
- Tốt: Các nhà khoa học dữ liệu đang có nhu cầu mạnh mẽ và có thể sẽ vẫn như vậy trong một thời gian.
- Kém: Khi các thuật toán và phương pháp tiếp cận phát triển, bạn sẽ cảm thấy luôn lạc hậu.
- Kém: Tất cả dữ liệu đều cần được dọn dẹp và sẽ dành một lượng lớn thời gian cho công việc này.
- Xấu xí: Thử và sai đồng nghĩa với việc có rất nhiều “thất bại” và ít chiến thắng.
Kết luận
Vai trò Nhà khoa học dữ liệu có nhu cầu mở rộng nhanh chóng và một loạt các kỹ năng khác nhau. Nếu bạn yêu thích lớp thống kê của mình và thích tìm kiếm các mẫu mà người khác không thể nhìn thấy, thì điều này có thể phù hợp với bạn.