隔壁老王都找我要的33款開源爬蟲框架,《記得收藏哦!不然看著看著就不見了》
- 🏳??🌈目錄
- JAVA爬蟲
- 😉1、 Arachnid
- 😉2、crawlzilla
- 😉3、Ex-Crawler
- 😉4、Heritrix
- 😉 5、heyDr
- 😉6、ItSucks
- 😉7、jcrawl
- 😉8、JSpider
- 😉9、Leopdo
- 😉10、MetaSeeker
- 😉11、Playfish
- 😉12、Spiderman
- 😉13、webmagic
- 😉14、Web-Harvest
- 😉15、WebSPHINX
- 😉16、YaCy
- 😉17、Web Crawler
- Python爬蟲
- 😃1、QuickRecon
- 😃2、PyRailgun
- 😃19、Scrapy
- C++爬蟲
- 😀1、hispider
- 😀2、larbin
- 😀3、Methabot
- C#爬蟲
- 😏1、NWebCrawler
- 😏2、Sinawler
- 😏3、spidernet
- 😏4、網路礦工
- PHP爬蟲
- 😃1、OpenWebSpider
- 😃2、PhpDig
- 😃3、ThinkUp
- 😃4、微購
- ErLang爬蟲
- 😉1、Ebot
- Ruby爬蟲
- 😉1、Spidr
🏳??🌈目錄
很多人一提到爬蟲,就會想到Python語言,其實不僅僅只有Python才能寫爬蟲,其他語言也有非常優秀的爬蟲框架,今天蘇州程式大白我推薦給大家這33款爬蟲開源框架!看懂這些框架以后對你們來說 😊So easy
😊開講啦!!!!

JAVA爬蟲
😉1、 Arachnid
Arachnid是一個基于Java的web spider框架.它包含一個簡單的HTML剖析器能夠分析包含HTML內容的輸入流.通過實作Arachnid的子類就能夠開發一個簡單的Web spiders并能夠在Web站上的每個頁面被決議之后增加幾行代碼呼叫,Arachnid的下載包中包含兩個spider應用程式例子用于演示如何使用該框架,
許可證:GPL
特點:微型爬蟲框架,含有一個小型HTML決議器
🖥 專案主頁:http://arachnid.sourceforge.net/
🖋 下載地址:https://sourceforge.net/projects/arachnid/
😉2、crawlzilla
crawlzilla 是一個幫你輕松建立搜索引擎的自由軟體,有了它,你就不用依靠商業公司的搜索引擎,也不用再煩惱公司內部網站資料索引的問題,
由 nutch 專案為核心,并整合更多相關套件,并卡發設計安裝與管理UI,讓使用者更方便上手,
crawlzilla 除了爬取基本的 html 外,還能分析網頁上的檔案,如( doc、pdf、ppt、ooo、rss )等多種檔案格式,讓你的搜索引擎不只是網頁搜索引擎,而是網站的完整資料索引庫,
擁有中文分詞能力,讓你的搜索更精準,
crawlzilla的特色與目標,最主要就是提供使用者一個方便好用易安裝的搜索平臺,
作業系統:Linux
授權協議:Apache License 2
開發語言:Java JavaScript SHELL
特點:安裝簡易,擁有中文分詞功能
🖥 專案主頁: https://github.com/shunfa/crawlzilla
🖋 下載地址: http://sourceforge.net/projects/crawlzilla/
😉3、Ex-Crawler
Ex-Crawler 是一個網頁爬蟲,采用 Java 開發,該專案分成兩部分,一個是守護行程,另外一個是靈活可配置的 Web 爬蟲,使用資料庫存盤網頁資訊,
開發語言:Java
授權協議:GPLv3
作業系統:跨平臺
特點:由守護行程執行,使用資料庫存盤網頁資訊
🖥 專案主頁:http://ex-crawler.sourceforge.net/joomla/
🖋下載地址:https://sourceforge.net/projects/ex-crawler/
😉4、Heritrix
Heritrix 是一個由 java 開發的、開源的網路爬蟲,用戶可以使用它來從網上抓取想要的資源,其最出色之處在于它良好的可擴展性,方便用戶實作自己的抓取邏輯,
Heritrix采用的是模塊化的設計,各個模塊由一個控制器類(CrawlController類)來協調,控制器是整體的核心,
開發語言:Java
授權協議:Apache
作業系統: 跨平臺
特點:嚴格遵照robots檔案的排除指示和META robots標簽臺
🖥 專案主頁:https://webarchive.jira.com/wiki/spaces/Heritrix/overview
🖋下載地址:https://github.com/internetarchive/heritrix3
😉 5、heyDr
heyDr是一款基于java的輕量級開源多執行緒垂直檢索爬蟲框架,遵循GNU GPL V3協議,
用戶可以通過heyDr構建自己的垂直資源爬蟲,用于搭建垂直搜索引擎前期的資料準備,
開發語言:Java
授權協議:GPLv3
作業系統:跨平臺
特點:輕量級開源多執行緒垂直檢索爬蟲框架
🖥 專案主頁:https://code.google.com/archive/p/heydr/
🖋下載地址:https://github.com/tonimoeckel/heydresden
😉6、ItSucks
ItSucks是一個java web spider(web機器人,爬蟲)開源專案,支持通過下載模板和正則運算式來定義下載規則,提供一個swing GUI操作界面,
開發語言:Java
特點:提供swing GUI操作界面
🖥 專案主頁:http://itsucks.sourceforge.net/
🖋下載地址:https://sourceforge.net/projects/itsucks/
😉7、jcrawl
jcrawl是一款小巧性能優良的的web爬蟲,它可以從網頁抓取各種型別的檔案,基于用戶定義的符號,比如email,qq,
開發語言:Java
作業系統:跨平臺
授權協議:Apache
特點:輕量、性能優良,可以從網頁抓取各種型別的檔案
🖥 專案主頁:https://code.google.com/archive/p/jcrawl/
🖋下載地址:https://github.com/danielfsousa/jcrawler
😉8、JSpider
JSpider是一個用Java實作的WebSpider,JSpider的執行格式如下:
jspider [URL] [ConfigName]
URL一定要加上協議名稱,如:http://,否則會報錯,如果省掉ConfigName,則采用默認配置,
JSpider 的行為是由組態檔具體配置的,比如采用什么插件,結果存盤方式等等都在conf[ConfigName]\目錄下設定,JSpider默認的配置種類 很少,用途也不大,但是JSpider非常容易擴展,可以利用它開發強大的網頁抓取與資料分析工具,要做到這些,需要對JSpider的原理有深入的了 解,然后根據自己的需求開發插件,撰寫組態檔,
開發語言:Java
授權協議:LGPL
作業系統:跨平臺
特點:功能強大,容易擴展
🖥 專案主頁:http://j-spider.sourceforge.net/
🖋專案下載:http://j-spider.sourceforge.net/quick/download.html
😉9、Leopdo
用JAVA撰寫的web 搜索和爬蟲,包括全文和分類垂直搜索,以及分詞系統,
開發語言:Java
授權協議:Apache
作業系統:跨平臺
特點:包括全文和分類垂直搜索,以及分詞系統
🖥 專案主頁:https://sourceforge.net/projects/leopdo/
🖋專案下載:https://sourceforge.net/projects/leopdo/files/
😉10、MetaSeeker
是一套完整的網頁內容抓取、格式化、資料集成、存盤管理和搜索解決方案,
網路爬蟲有多種實作方法,如果按照部署在哪里分,可以分成:
- 服務器側:
一般是一個多執行緒程式,同時下載多個目標HTML,可以用PHP, Java, Python(當前很流行)等做,可以速度做得很快,一般綜合搜索引擎的爬蟲這樣做,但是,如果對方討厭爬蟲,很可能封掉你的IP,服務器IP又不容易 改,另外耗用的帶寬也是挺貴的,建議看一下Beautiful soap,
- 客戶端:
一般實作定題爬蟲,或者是聚焦爬蟲,做綜合搜索引擎不容易成功,而垂直搜訴或者比價服務或者推薦引擎,相對容易很多,這類爬蟲不是什么頁面都 取的,而是只取你關系的頁面,而且只取頁面上關心的內容,例如提取黃頁資訊,商品價格資訊,還有提取競爭對手廣告資訊的,搜一下Spyfu,很有趣,這類 爬蟲可以部署很多,而且可以很有侵略性,對方很難封鎖,
MetaSeeker中的網路爬蟲就屬于后者,
MetaSeeker工具包利用Mozilla平臺的能力,只要是Firefox看到的東西,它都能提取,
開發語言:Java
特點:網頁抓取、資訊提取、資料抽取工具包,操作簡單
🖥 專案主頁:http://www.gooseeker.com/
🖋專案下載:http://www.gooseeker.com/pro/gooseeker.html
😉11、Playfish
playfish是一個采用java技術,綜合應用多個開源java組件實作的網頁抓取工具,通過XML組態檔實作高度可定制性與可擴展性的網頁抓取工具,
應用開源jar包包括httpclient(內容讀取),dom4j(組態檔決議),jericho(html決議),已經在 war包的lib下,
這個專案目前還很不成熟,但是功能基本都完成了,要求使用者熟悉XML,熟悉正則運算式,目前通過這個工具可以抓取各類論壇,貼吧,以及各類CMS系統,像Discuz!,phpbb,論壇跟博客的文章,通過本工具都可以輕松抓取,抓取定義完全采用XML,適合Java開發人員使用,
使用方法:
-
下載右邊的.war包匯入到eclipse中,
-
使用WebContent/sql下的wcc.sql檔案建立一個范例資料庫,
-
修改src包下wcc.core的dbConfig.txt,將用戶名與密碼設定成你自己的mysql用戶名密碼,
-
然后運行SystemCore,運行時候會在控制臺,無引數會執行默認的example.xml的組態檔,帶引數時候名稱為組態檔名,
-
系統自帶了3個例子,分別為baidu.xml抓取百度知道,example.xml抓取我的javaeye的博客,bbs.xml抓取一個采用 discuz論壇的內容,
授權協議:MIT
開發語言:Java
作業系統:跨平臺
特點:通過XML組態檔實作高度可定制性與可擴展性
🖥 專案主頁:http://playfish.lofteicom/
🖋 專案下載:http://www.oschina.net/p/playfish
😉12、Spiderman

Spiderman 是一個基于微內核+插件式架構的網路蜘蛛,它的目標是通過簡單的方法就能將復雜的目標網頁資訊抓取并決議為自己所需要的業務資料,
怎么使用?
首先,確定好你的目標網站以及目標網頁(即某一類你想要獲取資料的網頁,例如網易新聞的新聞頁面)然后,打開目標頁面,分析頁面的HTML結構,得到你想要資料的XPath,具體XPath怎么獲取請看下文,
最后,在一個xml組態檔里填寫好引數,運行Spiderman吧!
開發語言:Java
作業系統:跨平臺
授權協議:Apache
特點:靈活、擴展性強,微內核+插件式架構,通過簡單的配置就可以完成資料抓取,無需撰寫一句代碼
🖥 專案主頁:https://gitee.com/l-weiwei/spiderman
🖋 專案下載:https://gitee.com/l-weiwei/spiderman
😉13、webmagic
webmagic的是一個無須配置、便于二次開發的爬蟲框架,它提供簡單靈活的API,只需少量代碼即可實作一個爬蟲,

webmagic采用完全模塊化的設計,功能覆寫整個爬蟲的生命周期(鏈接提取、頁面下載、內容抽取、持久化),支持多執行緒抓取,分布式抓取,并支持自動重試、自定義UA/cookie等功能,

webmagic包含強大的頁面抽取功能,開發者可以便捷的使用css selector、xpath和正則運算式進行鏈接和內容的提取,支持多個選擇器鏈式呼叫,
開發語言:Java
授權協議:Apache
作業系統:跨平臺
特點:功能覆寫整個爬蟲生命周期,使用Xpath和正則運算式進行鏈接和內容的提取,
???🔥備注:這是一款國產開源軟體,由 黃億華貢獻
🖥 專案主頁:http://webmagic.io/docs/
🖋 專案下載:http://git.oschina.net/flashsword20/webmagic
😉14、Web-Harvest
Web-Harvest是一個Java開源Web資料抽取工具,它能夠收集指定的Web頁面并從這些頁面中提取有用的資料,Web-Harvest主要是運用了像XSLT,XQuery,正則運算式等這些技術來實作對text/xml的操作,
其實作原理是,根據預先定義的組態檔用httpclient獲取頁面的全部內容(關于httpclient的內容,本博文章后面介紹),然后運用XPath、XQuery、正則運算式等這些技術來實作對text/xml的內容篩選操作,選取精確的資料,前兩年比較火的垂直搜索(比如:酷訊等)也是采用類似的原理實作的,Web-Harvest應用,關鍵就是理解和定義組態檔,其他的就是考慮怎么處理資料的Java代碼,當然在爬蟲開始前,也可以把Java變數填充到組態檔中,實作動態的配置,
開發語言:Java
授權協議:BSD
特點:運用XSLT、XQuery、正則運算式等技術來實作對Text或XML的操作,具有可視化的界面
🖥 專案主頁:http://web-harvest.sourceforge.net/
🖋 專案下載:http://web-harvest.sourceforge.net/download.php
😉15、WebSPHINX
WebSPHINX是一個Java類包和Web爬蟲的互動式開發環境,Web爬蟲(也叫作機器人或蜘蛛)是可以自動瀏覽與處理Web頁面的程式,WebSPHINX由兩部分組成:爬蟲作業平臺和WebSPHINX類包,
開發語言:Java
授權協議:Apache
特點:由兩部分組成:爬蟲作業平臺和WebSPHINX類包
🖥 專案主頁:http://www.cs.cmu.edu/~rcm/websphinx/
🖋 專案下載:http://www.cs.cmu.edu/~rcm/websphinx/#download
😉16、YaCy
YaCy基于p2p的分布式Web搜索引擎.同時也是一個Http快取代理服務器.這個專案是構建基于p2p Web索引網路的一個新方法.它可以搜索你自己的或全域的索引,也可以Crawl自己的網頁或啟動分布式Crawling等.
授權協議:GPL
作業系統:跨平臺
開發語言:Java Perl
特點:基于P2P的分布式Web搜索引擎
🖥 專案主頁:https://www.yacy.net/
🖋 專案下載:https://github.com/yacy/yacy_search_server
😉17、Web Crawler
mart and Simple Web Crawler是一個Web爬蟲框架,集成Lucene支持,該爬蟲可以從單個鏈接或一個鏈接陣列開始,提供兩種遍歷模式:最大迭代和最大深度,可以設定 過濾器限制爬回來的鏈接,默認提供三個過濾器ServerFilter、BeginningPathFilter和 RegularExpressionFilter,這三個過濾器可用AND、OR和NOT聯合,在決議程序或頁面加載前后都可以加監聽器,介紹內容來自Open-Open,
授權協議:LGPL
開發語言:Java
作業系統:跨平臺
特點:多執行緒,支持抓取PDF/DOC/EXCEL等檔案來源
🖥 專案主頁:https://github.com/zhk0603/WebCrawler
🖋 專案下載:https://github.com/zhk0603/WebCrawler
Python爬蟲
😃1、QuickRecon
QuickRecon是一個簡單的資訊收集工具,它可以幫助你查找子域名名稱、perform zone transfe、收集電子郵件地址和使用microformats尋找人際關系等,QuickRecon使用python撰寫,支持linux和 windows作業系統,
授權協議:GPLv3
開發語言:Python
作業系統:Windows Linux
特點:具有查找子域名名稱、收集電子郵件地址并尋找人際關系等功能
🖥 專案主頁:https://pypi.org/project/quickrecon/
🖋 專案下載:https://code.activestate.com/pypm/quickrecon/
😃2、PyRailgun
這是一個非常簡單易用的抓取工具,支持抓取javascript渲染的頁面的簡單實用高效的python網頁爬蟲抓取模塊
授權協議:MIT
開發語言:Python
作業系統:跨平臺 Windows Linux OS X
特點:簡潔、輕量、高效的網頁抓取框架
???🔥備注:此軟體也是由國人開放
🖥 專案主頁:https://pypi.org/project/pyrailgun/
🖋 專案下載:https://pypi.org/project/pyrailgun/#files
😃19、Scrapy
Scrapy 是一套基于基于Twisted的異步處理框架,純python實作的爬蟲框架,用戶只需要定制開發幾個模塊就可以輕松的實作一個爬蟲,用來抓取網頁內容以及各種圖片,非常之方便~
授權協議:BSD
開發語言:Python
作業系統:跨平臺
特點:基于Twisted的異步處理框架,檔案齊全
🖥 專案主頁:https://scrapy.org/
🖋 專案下載:https://github.com/scrapy/scrapy
C++爬蟲
😀1、hispider
HiSpider is a fast and high performance spider with high speed嚴格說只能是一個spider系統的框架, 沒有細化需求, 目前只是能提取URL, URL排重, 異步DNS決議, 佇列化任務, 支持N機分布式下載, 支持網站定向下載(需要配置hispiderd.ini whitelist),
特征和用法:
-
基于unix/linux系統的開發
-
異步DNS決議
-
URL排重
-
支持HTTP 壓縮編碼傳輸 gzip/deflate
-
字符集判斷自動轉換成UTF-8編碼
-
檔案壓縮存盤
-
支持多下載節點分布式下載
-
支持網站定向下載(需要配置 hispiderd.ini whitelist )
-
可通過 http://127.0.0.1:3721/ 查看下載情況統計,下載任務控制(可停止和恢復任務)
-
依賴基本通信庫libevbase 和 libsbase (安裝的時候需要先安裝這個兩個庫)、
作業流程:
-
從中心節點取URL(包括URL對應的任務號, IP和port,也可能需要自己決議)
-
連接服務器發送請求
-
等待資料頭判斷是否需要的資料(目前主要取text型別的資料)
-
等待完成資料(有length頭的直接等待說明長度的資料否則等待比較大的數字然后設定超時)
-
資料完成或者超時, zlib壓縮資料回傳給中心服務器,資料可能包括自己決議DNS資訊, 壓縮后資料長度+壓縮后資料, 如果出錯就直接回傳任務號以及相關資訊
-
中心服務器收到帶有任務號的資料, 查看是否包括資料, 如果沒有資料直接置任務號對應的狀態為錯誤, 如果有資料提取資料種link 然后存盤資料到檔案檔案.
-
完成后回傳一個新的任務.
授權協議:BSD
作業系統:Linux
開發語言:C/C++
開發語言:C/C++
特點:支持多機分布式下載, 支持網站定向下載
🖥 專案主頁:https://codingdict.com/os/software/74012
🖋 專案下載:https://code.google.com/archive/p/hispider/downloads
😀2、larbin
larbin是一種開源的網路爬蟲/網路蜘蛛,由法國的年輕人 Sébastien Ailleret獨立開發,larbin目的是能夠跟蹤頁面的url進行擴展的抓取,最后為搜索引擎提供廣泛的資料來源,Larbin只是一個爬蟲,也就 是說larbin只抓取網頁,至于如何parse的事情則由用戶自己完成,另外,如何存盤到資料庫以及建立索引的事情 larbin也不提供,一個簡單的larbin的爬蟲可以每天獲取500萬的網頁,
利用larbin,我們可以輕易的獲取/確定單個網站的所有鏈接,甚至可以鏡像一個網站;也可以用它建立url 串列群,例如針對所有的網頁進行 url retrive后,進行xml的聯結的獲取,或者是 mp3,或者定制larbin,可以作為搜索引擎的資訊的來,
授權協議:GPL
作業系統:Linux
開發語言:C/C++
特點:高性能的爬蟲軟體,只負責抓取不負責決議
🖥 專案主頁:https://baike.baidu.com/item/larbin/8487233?fr=aladdin
🖋 專案下載:https://github.com/ictxiangxin/larbin
😀3、Methabot
Methabot 是一個經過速度優化的高可配置的 WEB、FTP、本地檔案系統的爬蟲軟體,
授權協議:未知
開發語言:C/C++
作業系統:Windows Linux
特點:過速度優化、可抓取WEB、FTP及本地檔案系統
🖥 專案主頁:https://sourceforge.net/projects/methabot/
🖋 專案下載:http://www.oschina.net/code/tag/methabot
C#爬蟲
😏1、NWebCrawler
NWebCrawler是一款開源,C#開發網路爬蟲程式,
-
可配置:執行緒數,等待時間,連接超時,允許MIME型別和優先級,下載檔案夾,
-
統計資訊:URL數量,總下載檔案,總下載位元組數,CPU利用率和可用記憶體,
-
Preferential crawler:用戶可以設定優先級的MIME型別,
-
Robust: 10+ URL normalization rules, crawler trap avoiding rules.,
開發語言:C#
授權協議:GPLv2
作業系統:Windows
特點:統計資訊、執行程序可視化
🖥 專案主頁:http://www.open-open.com/lib/view/home/1350117470448
🖋 專案下載:https://archive.codeplex.com/?p=nwebcrawler
😏2、Sinawler
國內第一個針對微博資料的爬蟲程式!原名“新浪微博爬蟲”,
登錄后,可以指定用戶為起點,以該用戶的關注人、粉絲為線索,延人脈關系搜集用戶基本資訊、微博資料、評論資料,
該應用獲取的資料可作為科研、與新浪微博相關的研發等的資料支持,但請勿用于商業用途,該應用基于.NET2.0框架,需SQL SERVER作為后臺資料庫,并提供了針對SQL Server的資料庫腳本檔案,
另外,由于新浪微博API的限制,爬取的資料可能不夠完整(如獲取粉絲數量的限制、獲取微博數量的限制等)
本程式著作權歸作者所有,你可以免費: 拷貝、分發、呈現和表演當前作品,制作派生作品,你不可將當前作品用于商業目的,
5.x版本已經發布!該版本共有6個后臺作業執行緒:爬取用戶基本資訊的機器人、爬取用戶關系的機器人、爬取用戶標簽的機器人、爬取微博內容的機器人、爬取微博評論的機器人,以及調節請求頻率的機器人,更高的性能!最大限度挖掘爬蟲潛力!以現在測驗的結果看,已經能夠滿足自用,
本程式的特點:
-
6個后臺作業執行緒,最大限度挖掘爬蟲性能潛力!
-
界面上提供引數設定,靈活方便
-
拋棄app.config組態檔,自己實作配置資訊的加密存盤,保護資料庫帳號資訊
-
自動調整請求頻率,防止超限,也避免過慢,降低效率
-
任意對爬蟲控制,可隨時暫停、繼續、停止爬蟲
-
良好的用戶體驗
授權協議:GPLv3
開發語言:C# .NET
作業系統:Windows
🖥 專案主頁:https://code.google.com/archive/p/sinawler/
🖋 專案下載:https://code.google.com/archive/p/sinawler/downloads
😏3、spidernet
spidernet是一個以遞回樹為模型的多執行緒web爬蟲程式, 支持text/html資源的獲取. 可以設定爬行深度, 最大下載位元組數限制, 支持gzip解碼, 支持以gbk(gb2312)和utf8編碼的資源; 存盤于sqlite資料檔案.原始碼中TODO:標記描述了未完成功能, 希望提交你的代碼,
開發語言:C#
授權協議:MIT
作業系統:Windows
特點:以遞回樹為模型的多執行緒web爬蟲程式,支持以GBK (gb2312)和utf8編碼的資源,使用sqlite存盤資料,
🖥 專案主頁:https://www.oschina.net/p/spidernet
🖋 專案下載:https://github.com/nsnail/spidernet
😏4、網路礦工
網站資料采集軟體 網路礦工采集器(原soukey采摘)
Soukey采摘網站資料采集軟體是一款基于.Net平臺的開源軟體,也是網站資料采集軟體型別中唯一一款開源軟體,盡管Soukey采摘開源,但并不會影響軟體功能的提供,甚至要比一些商用軟體的功能還要豐富,
授權協議:BSD
開發語言:C# .NET
作業系統:Windows
特點:功能豐富,毫不遜色于商業軟體
🖥 專案主頁:https://gitee.com/wllvwll/Soukey
🖋 專案下載:https://gitee.com/wllvwll/Soukey
PHP爬蟲
😃1、OpenWebSpider
OpenWebSpider是一個開源多執行緒Web Spider(robot:機器人,crawler:爬蟲)和包含許多有趣功能的搜索引擎,
開發語言:PHP
作業系統:跨平臺
特點:開源多執行緒網路爬蟲,有許多有趣的功能
🖥 專案主頁:https://gitee.com/wllvwll/Soukey
🖋 專案下載:https://gitee.com/wllvwll/Soukey
😃2、PhpDig
PhpDig是一個采用PHP開發的Web爬蟲和搜索引擎,通過對動態和靜態頁面進行索引建立一個詞匯表,當搜索查詢時,它將按一定的排序規則顯示包含關 鍵字的搜索結果頁面,PhpDig包含一個模板系統并能夠索引PDF,Word,Excel,和PowerPoint檔案,PHPdig適用于專業化更 強、層次更深的個性化搜索引擎,利用它打造針對某一領域的垂直搜索引擎是最好的選擇,
授權協議:GPL
開發語言:PHP
作業系統:跨平臺
特點:具有采集網頁內容、提交表單功能
🖥 專案主頁:https://www.php-open.org/op10784.html
🖋 專案下載: http://www.phpdig.net/
😃3、ThinkUp
ThinkUp 是一個可以采集推特,facebook等社交網路資料的社會媒體視角引擎,通過采集個人的社交網路賬號中的資料,對其存檔以及處理的互動分析工具,并將資料圖形化以便更直觀的查看,

授權協議:GPL
開發語言:PHP
作業系統:跨平臺
特點:采集推特、臉譜等社交網路資料的社會媒體視角引擎,可進行互動分析并將結果以可視化形式展現
🖥 專案主頁:https://www.thinkup.com/
🖋 專案下載:https://github.com/ThinkUpLLC/ThinkUp
😃4、微購
微購社會化購物系統是一款基于ThinkPHP框架開發的開源的購物分享系統,同時它也是一套針對站長、開源的的淘寶客網站程式,它整合了淘寶、天貓、淘寶客等300多家商品資料采集介面,為廣大的淘寶客站長提供傻瓜式淘客建站服務,會HTML就會做程式模板,免費開放下載,是廣大淘客站長的首選,
授權協議:GPL
開發語言:PHP
作業系統:跨平臺
ErLang爬蟲
😉1、Ebot
Ebot 是一個用 ErLang 語言開發的可伸縮的分布式網頁爬蟲,URLs 被保存在資料庫中可通過 RESTful 的 HTTP 請求來查詢,
授權協議:GPLv3
開發語言:ErLang
作業系統:跨平臺
特點:可伸縮的分布式網頁爬蟲
🖥 專案主頁:http://www.redaelli.org/matteo/blog/projects/ebot
🖋 專案下載:https://github.com/matteoredaelli/ebot
Ruby爬蟲
😉1、Spidr
Spidr 是一個Ruby 的網頁爬蟲庫,可以將整個網站、多個網站、某個鏈接完全抓取到本地,
授權協議:MIT
開發語言:Ruby
特點:可將一個或多個網站、某個鏈接完全抓取到本地
🖥 專案主頁:http://rubyforge.org/frs/?group_id=6264
🖋 專案下載:http://spidr.rubyforge.org/

關注蘇州程式大白,持續更新技術分享,謝謝大家支持

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/287951.html
標籤:其他
