文章目錄
- 一、資料的來源
- 1. 企業產生的用戶資料
- 2. 資料平臺購買資料:
- 3. 政府、機構公開的資料:
- 4. 資料管理咨詢公司:埃森哲,麥肯錫
- 5. 爬蟲爬取
- 二、爬蟲所需要的庫:
- 1. urllib 標準庫,無需安裝,直接 import 使用
- 2. requests 庫,需要安裝
- 3. selenium 庫,需要安裝
- 4. phantomJS ,官網下載
- 5. re #正則,標準庫,不需要安裝
- 6. BeautifulSoup,html/xml 決議庫,需要安裝
- 7. pyquery(可選)決議庫,語法與 JQuery 類似
- 8. pymysql,MySQL 資料庫驅動,需要安裝
一、資料的來源
1. 企業產生的用戶資料
https://tbi.tencent.com/ 騰訊指數
http://index.baidu.com/#/ 百度指數
2. 資料平臺購買資料:
資料堂:http://www.datatang.com/index.html
國云資料市場:
http://www.moojnn.com/data-market/
3. 政府、機構公開的資料:
國家統計局資料:
http://www.moojnn.com/data-market/
世界銀行公開資料:
https://data.worldbank.org.cn/
4. 資料管理咨詢公司:埃森哲,麥肯錫
5. 爬蟲爬取
二、爬蟲所需要的庫:
1. urllib 標準庫,無需安裝,直接 import 使用
2. requests 庫,需要安裝
pip install requests
3. selenium 庫,需要安裝
pip install selenium
a) selenium 想要驅動 chrome 的話,需要專門的
chromedriver,下載地址:
http://npm.taobao.org/mirrors/chromedriver/
b) 需要注意的是,chromedriver 的版本必須要與自
己機器上的 chrome 版本相對應才可以
c) 將下載的驅動加壓縮后(一個 exe 檔案)放到
python 的安裝目錄下(比如 scripts 中),或者
新建一個檔案夾專門存放這個 exe,但是要把這
個新建檔案夾的路徑添加到 path 中,
d) 如果要驅動其他瀏覽器,比如 IE 或者 Firefox,
也需要去下載對應的驅動
4. phantomJS ,官網下載
http://phantomjs.org/download.html
5. re #正則,標準庫,不需要安裝
6. BeautifulSoup,html/xml 決議庫,需要安裝
pip install beatifulsoup4
7. pyquery(可選)決議庫,語法與 JQuery 類似
pip install pyquery
8. pymysql,MySQL 資料庫驅動,需要安裝
pip install pymysql
轉載請註明出處,本文鏈接:https://www.uj5u.com/qianduan/386611.html
標籤:其他
上一篇:計算機畢業設計、課程設計之[含論文+原始碼等]S2SH+mysql的報刊訂閱系統[包運行成功]
下一篇:day10 - JavaScript字串、切割資料地址、過濾資料、日期物件相關知識、定時器、頁面停留時間、倒計時
