Mysql
 sql >> Cơ Sở Dữ Liệu >  >> RDS >> Mysql

Phân tích cú pháp kết xuất dữ liệu XML của Wiktionary vào cơ sở dữ liệu MySQL bằng PHP

Các tệp đó có thể được phân tích cú pháp bằng PHP với XMLReader hoạt động trên compress.bzip2:// luồng . Cấu trúc của tệp bạn có là mẫu mực (xem xét khoảng 3000 phần tử đầu tiên):

\-mediawiki (1)
  |-siteinfo (1)
  | |-sitename (1)
  | |-base (1)
  | |-generator (1)
  | |-case (1)
  | \-namespaces (1)
  |   \-namespace (40)
  \-page (196)
    |-title (196)
    |-ns (196)
    |-id (196)
    |-restrictions (2)
    |-revision (196)
    | |-id (196)
    | |-parentid (194)
    | |-timestamp (196)
    | |-contributor (196)
    | | |-username (182)
    | | |-id (182)
    | | \-ip (14)
    | |-comment (183)
    | |-text (195)
    | |-sha1 (195)
    | |-model (195)
    | |-format (195)
    | \-minor (99)
    \-redirect (5)

Bản thân tệp lớn hơn một chút, vì vậy sẽ mất khá nhiều thời gian để xử lý. Ngoài ra, không hoạt động trên kết xuất XML, mà chỉ cần nhập kết xuất SQL qua mysql công cụ dòng lệnh. Các kết xuất SQL cũng có sẵn trên trang web, hãy xem tất cả các định dạng kết xuất cho Wiktionary tiếng Anh :

Tệp tổng thể lớn hơn một lít với hơn 66 849 000 phần tử:

\-mediawiki (1)
  |-siteinfo (1)
  | |-sitename (1)
  | |-base (1)
  | |-generator (1)
  | |-case (1)
  | \-namespaces (1)
  |   \-namespace (40)
  \-page (3993913)
    |-title (3993913)
    |-ns (3993913)
    |-id (3993913)
    |-restrictions (552)
    |-revision (3993913)
    | |-id (3993913)
    | |-parentid (3572237)
    | |-timestamp (3993913)
    | |-contributor (3993913)
    | | |-username (3982087)
    | | |-id (3982087)
    | | \-ip (11824)
    | |-comment (3917241)
    | |-text (3993913)
    | |-sha1 (3993913)
    | |-model (3993913)
    | |-format (3993913)
    | \-minor (3384811)
    |-redirect (27340)
    \-DiscussionThreading (4698)
      |-ThreadSubject (4698)
      |-ThreadPage (4698)
      |-ThreadID (4698)
      |-ThreadAuthor (4698)
      |-ThreadEditStatus (4698)
      |-ThreadType (4698)
      |-ThreadSignature (4698)
      |-ThreadParent (3605)
      |-ThreadAncestor (3605)
      \-ThreadSummaryPage (11)



  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Chuyển đổi các giá trị âm từ FROM_UNIXTIME

  2. Làm cách nào để kết hợp toàn bộ tập kết quả trong MySQL?

  3. PHP MySQL - Cứ 6 hàng thì chèn một div?

  4. MySQL Trigger với câu lệnh SELECT

  5. SQL - Chuyển đổi định dạng ngày giờ