各位大佬好!
小弟初來乍到,如有發帖不對的地方,還請多多海涵。
(這個磁區也是我自己瞎選的。。我也不清楚這個問題能否解決)
我爬蟲的時候碰到一個問題,就是讀取的資料有亂碼
比如一個化合物,在網站顯示的是Butenolide a…?,但是實際(通過其他網站對比查找)因該是Butenolide Ⅱ
后來我發現,Ⅱ如果用encoding=Latin-1的方式讀取,就是a…?
但是這個網站的本身編碼方式已經是UTF-8
也就是說這個網站在搭建的時候,就將資料用Latin-1方式讀取,然后用UTF-8保存了
因為類似的亂碼問題還有很多,沒有別的辦法批量文本替換,請問有沒有什么方法可以轉換成最開始的樣子?
目前情況:
資料格式:通過爬蟲保存為CSV格式
語言:我只會C#,PYTHON,R
資料庫:只知道皮毛
非常感謝
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/175445.html
標籤:疑難問題
下一篇:泛微欄位數形插入一段SQL
