簡數采集平臺支持按關鍵詞搜索采集新聞資訊類,是謂新聞泛采集,新聞泛采集支持新聞資訊按關鍵詞泛采集,覆寫國內8千多家新聞資訊類網站和APP(例如:微信公眾號文章和今日頭條),最新資訊實時抓取,使用方法非常簡單,只需輸入對應關鍵詞即可,
使用步驟:
- 任務創建和配置
- 資料處理配置(可選)
- 采集結果
- 注意事項
1. 任務創建和配置:
??I、任務創建有兩個入口:
-
在控制臺左側 “采集任務管理” 串列中,點擊 “新聞泛采集”;
-
在創建任務欄目處,點擊 “+新聞泛采集”;

??II、任務配置:
-
填寫任務名:不能填寫特殊符號;
-
關鍵詞:可以同時填寫多個關鍵詞,用逗號,分隔即可(是英文半角逗號),例如:華為,小米 也可填寫多組關鍵詞,每組關鍵詞用分號;隔開(是英文半角分號),例如:華為,小米;寶馬,奔馳;電腦,手機; 提示:每個逗號分隔的關鍵詞關系默認是或者OR,可在下方的關鍵詞關系處修改為并且AND;
-
選擇日期:不能超過30天;
-
采集頁數:設定采集的頁數及每頁的條數,定時采集最多設定5頁;
-
關鍵詞匹配欄位:默認標題和正文,即標題或正文內容一處有出現關鍵詞,即會采集入庫,可單獨選擇標題或正文;
-
關鍵詞關系:
- 或者OR:多個關鍵詞中有一個在資料中出現,就采集入庫;
- 并且AND:多個關鍵詞要全部在資料中同時出現,才采集入庫,只出現個別的,不采集入庫;
-
網站分類:可選擇不限制(默認)、新聞網站、政府網站、報刊網站和APP;
-
指定網站:可設定只采集某個網站的資料,暫時只支持微信公眾號、今日頭條、一點資訊和百家號;

2. 資料處理配置(可選)
??不需要資料處理的可以跳過這一步
??I、資料處理入口
??點擊【配置資料替換、填充、洗掉等】按鈕進入資料處理配置;
??注意:使用該功能,必須要先采集有資料入庫,該功能是在已采集的資料基礎上設定的!

??II、資料處理配置
??該功能類似詳情提取器的配置,可以設定洗掉、填充、替換和過濾等功能;
-
【已有資料鏈接】:對應顯示的網址是該任務已采集入庫資料的網址,可點擊出現下拉串列選擇其他已采集資料的網址;
-
【測驗資料處理】按鈕:資料處理規則設定后,可點擊【測驗資料處理】,對【已有資料鏈接】對應的已采集入庫資料直接執行規則,而不是重新采集一次再執行規則;
-
【查看該已有資料】按鈕:查看【已有資料鏈接】對應的已采集入庫資料,所以彈出的是簡數預覽&編輯資料界面;
?? 注意:該設定保存后,對新采集入庫的資料生效,之前已入庫的資料無效;


??III、圖片下載配置
??新聞泛采集采集的原始圖片有可能是無法正常顯示的(防盜鏈),如需圖片,請在“圖片下載配置”中,選擇暫存簡數或阿里云OSS或七牛存盤;
3. 采集結果:
??默認采集欄位:
??標題、內容、發布時間、標簽、描述、關鍵詞、網站名稱(x_name)、網站域名(x_id)、第一張圖片鏈接等;

注意事項:
-
新聞泛采集是對接第三方介面實作,使用上會受第三方介面穩定性影響,如發現問題,請隨時聯系我們,

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/139112.html
標籤:其他
