I am struggling with excluding quotes on a forum website. I need to scrape message texts some of which include quotations as a reference to an earlier message. Scraping all messages that have quotes means I get the same text on scraped data multiple times. In which case analyzing it becomes difficult. Can anybody help me with bypassing quoted text while scraping? Here is an example page: https://forum.donanimhaber.com/toyota-touch-2-ve-touch-go-2-kullanici-tecrubeleri-ve-klavuzda-yazmayanlar--88405838 Here is the html code of a message with quotation:
<table>
<tbody>
<tr>
<td>
<table style="width:100%;"><tbody><tr><td>**<blockquote ><i>quote:</i><br><br>Orijinalden alıntı: DBolanci <br> <br> Beyler albüm kapağı ve klasör listelemeyi bende yapamadım. Mp3leri tek tek düzenledim en ince ayrıntısına kadar yazdım ama göstermiyor. Nasıl yapacaz bilgisi olan? Ayrıca araçta navigasyon özelliğini nasıl kazandırabiliriz? servis yazılım için ücret istiyor :( <br> </blockquote>**</td></tr></tbody></table> <br> aynı soruların cevabını bende bekliyorum. yardımcı olabilecek kimse yokmu?
</td>
</tr>
</tbody>
</table>
</span>
CodePudding user response:
If you look at the html structure of the message you can see that it follows this format:
<span >
<table>
<table> QUOTED TEXT </table>
TEXT CONTENT
</table>
All you have to do is select msg>table
content and do not select msg>table>table
content. In xpath
selectors this can be achieved in something like:
//span[@]/table/tbody/tr/td/text()