Lấy nguồn từ http://mirror.nyi.net /apache//nutch/apache-nutch-1.2-src.zip
Mở org.apache.nutch.crawl.Crawl
trong trình soạn thảo của bạn.
Biến tra cứu Path crawlDb = new Path(dir + "/crawldb");
Biến sẽ đưa ra gợi ý về nơi cần thay thế mã để lấy CustomMySQLCrawl
của riêng bạn lớp học.
Sự liên tục đang xảy ra trong cuộc gọi này:crawlDbTool.update(crawlDb, segs, true, true); // update crawldb
Vì vậy, đó là nơi bạn nên lưu nó vào cơ sở dữ liệu. Bạn có thể muốn xem xét tích hợp chế độ ngủ đông tại thời điểm này.