Lấy nguồn từ https://mirror.nyi.net /apache//nutch/apache-nutch-1.2-src.zip
Mở org.apache.nutch.crawl.Crawl trong trình soạn thảo của bạn.
Biến tra cứu Path crawlDb = new Path(dir + "/crawldb");
Biến sẽ đưa ra gợi ý về nơi cần thay thế mã để lấy CustomMySQLCrawl của riêng bạn lớp học.
Sự liên tục đang xảy ra trong cuộc gọi này:crawlDbTool.update(crawlDb, segs, true, true); // update crawldb Vì vậy, đó là nơi bạn nên lưu nó vào cơ sở dữ liệu. Bạn có thể muốn xem xét tích hợp chế độ ngủ đông tại thời điểm này.