我使用爬蟲如何在我的nodejs專案中內置Cheerio爬蟲。
我的爬蟲是以這樣的函式開始的(就像檔案中的示例):
let c = new Crawler( {
maxConnections: 10,
callback: (error, res, done) => {
if (error) { throw err; } else {
let $ = res.$;
let content_test1 = $("*").toString()。
let content_test2 = res.body;
let file_test1 = fs.writeFile(path, content_test1, (err) => //span> {
err ? console.log(err) : console.log("done"/span>) 。
});
let file_test2 = fs.writeFile(path, content_test2, (err) => /span> {
err ? console.log(err) : console.log("done"/span>) 。
});
}
done()。
}});
let browser = c.queue('https://someUrl.com') 。
問題是 "content_test1 "檔案比以 "content_test2 "為資料創建的檔案大4倍,而且大部分的html似乎都是重復的。
謝謝。
Charly
uj5u.com熱心網友回復:
$("*")選擇檔案中的所有元素。這包括嵌套的。這里
<div> 外層<div>中層< div>內部</div>< /div></div>
它將選擇
<div> 外層<div>中層< div>內部</div>< <div></div>
<div>中層<div> 內部</div></div>
<div>Inner</div>
轉載請註明出處,本文鏈接:https://www.uj5u.com/yidong/314852.html
標籤:
下一篇:其組成成分也可單獨使用的總和型別
