我正在努力排除論壇網站上的報價。我需要抓取訊息文本,其中一些包含參考作為對較早訊息的參考。抓取所有帶有引號的訊息意味著我多次在抓取的資料上獲得相同的文本。在這種情況下,分析它變得困難。有人可以幫我在抓取時繞過參考的文本嗎?這是一個示例頁面:https : //forum.donanimhaber.com/toyota-touch-2-ve-touch-go-2-kullanici-tecrubeleri-ve-klavuzda-yazmayanlar--88405838 這是一條訊息的 html 代碼帶報價:
<table>
<tbody>
<tr>
<td>
<table style="width:100%;"><tbody><tr><td>**<blockquote ><i>quote:</i><br><br>Orijinalden al?nt?: DBolanci <br> <br> Beyler albüm kapa?? ve klasör listelemeyi bende yapamad?m. Mp3leri tek tek düzenledim en ince ayr?nt?s?na kadar yazd?m ama göstermiyor. Nas?l yapacaz bilgisi olan? Ayr?ca araçta navigasyon özelli?ini nas?l kazand?rabiliriz? servis yaz?l?m için ücret istiyor :( <br> </blockquote>**</td></tr></tbody></table> <br> ayn? sorular?n cevab?n? bende bekliyorum. yard?mc? olabilecek kimse yokmu?
</td>
</tr>
</tbody>
</table>
</span>
uj5u.com熱心網友回復:
如果您查看訊息的 html 結構,您會發現它遵循以下格式:
<span >
<table>
<table> QUOTED TEXT </table>
TEXT CONTENT
</table>
您所要做的就是選擇msg>table內容而不是選擇msg>table>table內容。在xpath選擇器中,這可以通過以下方式實作:
//span[@]/table/tbody/tr/td/text()
轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/341166.html
標籤:网页抓取
