主頁 >  其他 > 隔壁老王都找我要的33款開源爬蟲框架,《記得收藏哦!不然看著看著就不見了》

隔壁老王都找我要的33款開源爬蟲框架,《記得收藏哦!不然看著看著就不見了》

2021-06-16 20:36:03 其他

隔壁老王都找我要的33款開源爬蟲框架,《記得收藏哦!不然看著看著就不見了》

  • 🏳??🌈目錄
    • JAVA爬蟲
      • 😉1、 Arachnid
      • 😉2、crawlzilla
      • 😉3、Ex-Crawler
      • 😉4、Heritrix
      • 😉 5、heyDr
      • 😉6、ItSucks
      • 😉7、jcrawl
      • 😉8、JSpider
      • 😉9、Leopdo
      • 😉10、MetaSeeker
      • 😉11、Playfish
      • 😉12、Spiderman
      • 😉13、webmagic
      • 😉14、Web-Harvest
      • 😉15、WebSPHINX
      • 😉16、YaCy
      • 😉17、Web Crawler
    • Python爬蟲
      • 😃1、QuickRecon
      • 😃2、PyRailgun
      • 😃19、Scrapy
    • C++爬蟲
      • 😀1、hispider
      • 😀2、larbin
      • 😀3、Methabot
    • C#爬蟲
      • 😏1、NWebCrawler
      • 😏2、Sinawler
      • 😏3、spidernet
      • 😏4、網路礦工
    • PHP爬蟲
      • 😃1、OpenWebSpider
      • 😃2、PhpDig
      • 😃3、ThinkUp
      • 😃4、微購
    • ErLang爬蟲
      • 😉1、Ebot
    • Ruby爬蟲
      • 😉1、Spidr

🏳??🌈目錄

很多人一提到爬蟲,就會想到Python語言,其實不僅僅只有Python才能寫爬蟲,其他語言也有非常優秀的爬蟲框架,今天蘇州程式大白我推薦給大家這33款爬蟲開源框架!看懂這些框架以后對你們來說 😊So easy

😊開講啦!!!!
在這里插入圖片描述

JAVA爬蟲

😉1、 Arachnid

Arachnid是一個基于Java的web spider框架.它包含一個簡單的HTML剖析器能夠分析包含HTML內容的輸入流.通過實作Arachnid的子類就能夠開發一個簡單的Web spiders并能夠在Web站上的每個頁面被決議之后增加幾行代碼呼叫,Arachnid的下載包中包含兩個spider應用程式例子用于演示如何使用該框架,

許可證:GPL

特點:微型爬蟲框架,含有一個小型HTML決議器

🖥 專案主頁:http://arachnid.sourceforge.net/

🖋 下載地址:https://sourceforge.net/projects/arachnid/

😉2、crawlzilla

crawlzilla 是一個幫你輕松建立搜索引擎的自由軟體,有了它,你就不用依靠商業公司的搜索引擎,也不用再煩惱公司內部網站資料索引的問題,

nutch 專案為核心,并整合更多相關套件,并卡發設計安裝與管理UI,讓使用者更方便上手,

crawlzilla 除了爬取基本的 html 外,還能分析網頁上的檔案,如( doc、pdf、ppt、ooo、rss )等多種檔案格式,讓你的搜索引擎不只是網頁搜索引擎,而是網站的完整資料索引庫,

擁有中文分詞能力,讓你的搜索更精準,

crawlzilla的特色與目標,最主要就是提供使用者一個方便好用易安裝的搜索平臺,

作業系統:Linux

授權協議:Apache License 2

開發語言:Java JavaScript SHELL

特點:安裝簡易,擁有中文分詞功能

🖥 專案主頁: https://github.com/shunfa/crawlzilla
🖋 下載地址: http://sourceforge.net/projects/crawlzilla/

😉3、Ex-Crawler

Ex-Crawler 是一個網頁爬蟲,采用 Java 開發,該專案分成兩部分,一個是守護行程,另外一個是靈活可配置的 Web 爬蟲,使用資料庫存盤網頁資訊,

開發語言:Java

授權協議:GPLv3

作業系統:跨平臺

特點:由守護行程執行,使用資料庫存盤網頁資訊

🖥 專案主頁:http://ex-crawler.sourceforge.net/joomla/
🖋下載地址:https://sourceforge.net/projects/ex-crawler/

😉4、Heritrix

Heritrix 是一個由 java 開發的、開源的網路爬蟲,用戶可以使用它來從網上抓取想要的資源,其最出色之處在于它良好的可擴展性,方便用戶實作自己的抓取邏輯,

Heritrix采用的是模塊化的設計,各個模塊由一個控制器類(CrawlController類)來協調,控制器是整體的核心,

開發語言:Java

授權協議:Apache

作業系統: 跨平臺

特點:嚴格遵照robots檔案的排除指示和META robots標簽臺

🖥 專案主頁:https://webarchive.jira.com/wiki/spaces/Heritrix/overview

🖋下載地址:https://github.com/internetarchive/heritrix3

😉 5、heyDr

heyDr是一款基于java的輕量級開源多執行緒垂直檢索爬蟲框架,遵循GNU GPL V3協議,
用戶可以通過heyDr構建自己的垂直資源爬蟲,用于搭建垂直搜索引擎前期的資料準備,

開發語言:Java

授權協議:GPLv3

作業系統:跨平臺

特點:輕量級開源多執行緒垂直檢索爬蟲框架

🖥 專案主頁:https://code.google.com/archive/p/heydr/

🖋下載地址:https://github.com/tonimoeckel/heydresden

😉6、ItSucks

ItSucks是一個java web spider(web機器人,爬蟲)開源專案,支持通過下載模板和正則運算式來定義下載規則,提供一個swing GUI操作界面,

開發語言:Java

特點:提供swing GUI操作界面

🖥 專案主頁:http://itsucks.sourceforge.net/

🖋下載地址:https://sourceforge.net/projects/itsucks/

😉7、jcrawl

jcrawl是一款小巧性能優良的的web爬蟲,它可以從網頁抓取各種型別的檔案,基于用戶定義的符號,比如email,qq,

開發語言:Java

作業系統:跨平臺

授權協議:Apache

特點:輕量、性能優良,可以從網頁抓取各種型別的檔案

🖥 專案主頁:https://code.google.com/archive/p/jcrawl/

🖋下載地址:https://github.com/danielfsousa/jcrawler

😉8、JSpider

JSpider是一個用Java實作的WebSpider,JSpider的執行格式如下:

jspider [URL] [ConfigName]

URL一定要加上協議名稱,如:http://,否則會報錯,如果省掉ConfigName,則采用默認配置,

JSpider 的行為是由組態檔具體配置的,比如采用什么插件,結果存盤方式等等都在conf[ConfigName]\目錄下設定,JSpider默認的配置種類 很少,用途也不大,但是JSpider非常容易擴展,可以利用它開發強大的網頁抓取與資料分析工具,要做到這些,需要對JSpider的原理有深入的了 解,然后根據自己的需求開發插件,撰寫組態檔,

開發語言:Java

授權協議:LGPL

作業系統:跨平臺

特點:功能強大,容易擴展

🖥 專案主頁:http://j-spider.sourceforge.net/

🖋專案下載:http://j-spider.sourceforge.net/quick/download.html

😉9、Leopdo

用JAVA撰寫的web 搜索和爬蟲,包括全文和分類垂直搜索,以及分詞系統,

開發語言:Java

授權協議:Apache

作業系統:跨平臺

特點:包括全文和分類垂直搜索,以及分詞系統

🖥 專案主頁:https://sourceforge.net/projects/leopdo/

🖋專案下載:https://sourceforge.net/projects/leopdo/files/

😉10、MetaSeeker

是一套完整的網頁內容抓取、格式化、資料集成、存盤管理和搜索解決方案,

網路爬蟲有多種實作方法,如果按照部署在哪里分,可以分成:

  • 服務器側:

一般是一個多執行緒程式,同時下載多個目標HTML,可以用PHP, Java, Python(當前很流行)等做,可以速度做得很快,一般綜合搜索引擎的爬蟲這樣做,但是,如果對方討厭爬蟲,很可能封掉你的IP,服務器IP又不容易 改,另外耗用的帶寬也是挺貴的,建議看一下Beautiful soap,

  • 客戶端:

一般實作定題爬蟲,或者是聚焦爬蟲,做綜合搜索引擎不容易成功,而垂直搜訴或者比價服務或者推薦引擎,相對容易很多,這類爬蟲不是什么頁面都 取的,而是只取你關系的頁面,而且只取頁面上關心的內容,例如提取黃頁資訊,商品價格資訊,還有提取競爭對手廣告資訊的,搜一下Spyfu,很有趣,這類 爬蟲可以部署很多,而且可以很有侵略性,對方很難封鎖,

MetaSeeker中的網路爬蟲就屬于后者,

MetaSeeker工具包利用Mozilla平臺的能力,只要是Firefox看到的東西,它都能提取,

開發語言:Java

特點:網頁抓取、資訊提取、資料抽取工具包,操作簡單

🖥 專案主頁:http://www.gooseeker.com/

🖋專案下載:http://www.gooseeker.com/pro/gooseeker.html

😉11、Playfish

playfish是一個采用java技術,綜合應用多個開源java組件實作的網頁抓取工具,通過XML組態檔實作高度可定制性與可擴展性的網頁抓取工具,

應用開源jar包包括httpclient(內容讀取),dom4j(組態檔決議),jericho(html決議),已經在 war包的lib下,

這個專案目前還很不成熟,但是功能基本都完成了,要求使用者熟悉XML,熟悉正則運算式,目前通過這個工具可以抓取各類論壇,貼吧,以及各類CMS系統,像Discuz!,phpbb,論壇跟博客的文章,通過本工具都可以輕松抓取,抓取定義完全采用XML,適合Java開發人員使用,
使用方法:

  • 下載右邊的.war包匯入到eclipse中,

  • 使用WebContent/sql下的wcc.sql檔案建立一個范例資料庫,

  • 修改src包下wcc.core的dbConfig.txt,將用戶名與密碼設定成你自己的mysql用戶名密碼,

  • 然后運行SystemCore,運行時候會在控制臺,無引數會執行默認的example.xml的組態檔,帶引數時候名稱為組態檔名,

  • 系統自帶了3個例子,分別為baidu.xml抓取百度知道,example.xml抓取我的javaeye的博客,bbs.xml抓取一個采用 discuz論壇的內容,

授權協議:MIT

開發語言:Java

作業系統:跨平臺

特點:通過XML組態檔實作高度可定制性與可擴展性

🖥 專案主頁:http://playfish.lofteicom/

🖋 專案下載:http://www.oschina.net/p/playfish

😉12、Spiderman

在這里插入圖片描述

Spiderman 是一個基于微內核+插件式架構的網路蜘蛛,它的目標是通過簡單的方法就能將復雜的目標網頁資訊抓取并決議為自己所需要的業務資料,

怎么使用?

首先,確定好你的目標網站以及目標網頁(即某一類你想要獲取資料的網頁,例如網易新聞的新聞頁面)然后,打開目標頁面,分析頁面的HTML結構,得到你想要資料的XPath,具體XPath怎么獲取請看下文,

最后,在一個xml組態檔里填寫好引數,運行Spiderman吧!

開發語言:Java

作業系統:跨平臺

授權協議:Apache

特點:靈活、擴展性強,微內核+插件式架構,通過簡單的配置就可以完成資料抓取,無需撰寫一句代碼

🖥 專案主頁:https://gitee.com/l-weiwei/spiderman

🖋 專案下載:https://gitee.com/l-weiwei/spiderman

😉13、webmagic

webmagic的是一個無須配置、便于二次開發的爬蟲框架,它提供簡單靈活的API,只需少量代碼即可實作一個爬蟲,

在這里插入圖片描述
webmagic采用完全模塊化的設計,功能覆寫整個爬蟲的生命周期(鏈接提取、頁面下載、內容抽取、持久化),支持多執行緒抓取,分布式抓取,并支持自動重試、自定義UA/cookie等功能,
在這里插入圖片描述
webmagic包含強大的頁面抽取功能,開發者可以便捷的使用css selector、xpath和正則運算式進行鏈接和內容的提取,支持多個選擇器鏈式呼叫,

開發語言:Java

授權協議:Apache

作業系統:跨平臺

特點:功能覆寫整個爬蟲生命周期,使用Xpath和正則運算式進行鏈接和內容的提取,

???🔥備注:這是一款國產開源軟體,由 黃億華貢獻

🖥 專案主頁:http://webmagic.io/docs/

🖋 專案下載:http://git.oschina.net/flashsword20/webmagic

😉14、Web-Harvest

Web-Harvest是一個Java開源Web資料抽取工具,它能夠收集指定的Web頁面并從這些頁面中提取有用的資料,Web-Harvest主要是運用了像XSLT,XQuery,正則運算式等這些技術來實作對text/xml的操作,

其實作原理是,根據預先定義的組態檔用httpclient獲取頁面的全部內容(關于httpclient的內容,本博文章后面介紹),然后運用XPath、XQuery、正則運算式等這些技術來實作對text/xml的內容篩選操作,選取精確的資料,前兩年比較火的垂直搜索(比如:酷訊等)也是采用類似的原理實作的,Web-Harvest應用,關鍵就是理解和定義組態檔,其他的就是考慮怎么處理資料的Java代碼,當然在爬蟲開始前,也可以把Java變數填充到組態檔中,實作動態的配置,

開發語言:Java

授權協議:BSD

特點:運用XSLT、XQuery、正則運算式等技術來實作對Text或XML的操作,具有可視化的界面

🖥 專案主頁:http://web-harvest.sourceforge.net/

🖋 專案下載:http://web-harvest.sourceforge.net/download.php

😉15、WebSPHINX

WebSPHINX是一個Java類包和Web爬蟲的互動式開發環境,Web爬蟲(也叫作機器人或蜘蛛)是可以自動瀏覽與處理Web頁面的程式,WebSPHINX由兩部分組成:爬蟲作業平臺和WebSPHINX類包,

開發語言:Java

授權協議:Apache

特點:由兩部分組成:爬蟲作業平臺和WebSPHINX類包

🖥 專案主頁:http://www.cs.cmu.edu/~rcm/websphinx/

🖋 專案下載:http://www.cs.cmu.edu/~rcm/websphinx/#download

😉16、YaCy

YaCy基于p2p的分布式Web搜索引擎.同時也是一個Http快取代理服務器.這個專案是構建基于p2p Web索引網路的一個新方法.它可以搜索你自己的或全域的索引,也可以Crawl自己的網頁或啟動分布式Crawling等.

授權協議:GPL

作業系統:跨平臺

開發語言:Java Perl

特點:基于P2P的分布式Web搜索引擎

🖥 專案主頁:https://www.yacy.net/

🖋 專案下載:https://github.com/yacy/yacy_search_server

😉17、Web Crawler

mart and Simple Web Crawler是一個Web爬蟲框架,集成Lucene支持,該爬蟲可以從單個鏈接或一個鏈接陣列開始,提供兩種遍歷模式:最大迭代和最大深度,可以設定 過濾器限制爬回來的鏈接,默認提供三個過濾器ServerFilter、BeginningPathFilter和 RegularExpressionFilter,這三個過濾器可用AND、OR和NOT聯合,在決議程序或頁面加載前后都可以加監聽器,介紹內容來自Open-Open,

授權協議:LGPL

開發語言:Java

作業系統:跨平臺

特點:多執行緒,支持抓取PDF/DOC/EXCEL等檔案來源

🖥 專案主頁:https://github.com/zhk0603/WebCrawler

🖋 專案下載:https://github.com/zhk0603/WebCrawler

Python爬蟲

😃1、QuickRecon

QuickRecon是一個簡單的資訊收集工具,它可以幫助你查找子域名名稱、perform zone transfe、收集電子郵件地址和使用microformats尋找人際關系等,QuickRecon使用python撰寫,支持linux和 windows作業系統,

授權協議:GPLv3

開發語言:Python

作業系統:Windows Linux

特點:具有查找子域名名稱、收集電子郵件地址并尋找人際關系等功能

🖥 專案主頁:https://pypi.org/project/quickrecon/

🖋 專案下載:https://code.activestate.com/pypm/quickrecon/在這里插入圖片描述

😃2、PyRailgun

這是一個非常簡單易用的抓取工具,支持抓取javascript渲染的頁面的簡單實用高效的python網頁爬蟲抓取模塊

授權協議:MIT

開發語言:Python

作業系統:跨平臺 Windows Linux OS X

特點:簡潔、輕量、高效的網頁抓取框架

???🔥備注:此軟體也是由國人開放

🖥 專案主頁:https://pypi.org/project/pyrailgun/

🖋 專案下載:https://pypi.org/project/pyrailgun/#files

😃19、Scrapy

Scrapy 是一套基于基于Twisted的異步處理框架,純python實作的爬蟲框架,用戶只需要定制開發幾個模塊就可以輕松的實作一個爬蟲,用來抓取網頁內容以及各種圖片,非常之方便~

授權協議:BSD

開發語言:Python

作業系統:跨平臺

特點:基于Twisted的異步處理框架,檔案齊全

🖥 專案主頁:https://scrapy.org/

🖋 專案下載:https://github.com/scrapy/scrapy

C++爬蟲

😀1、hispider

HiSpider is a fast and high performance spider with high speed嚴格說只能是一個spider系統的框架, 沒有細化需求, 目前只是能提取URL, URL排重, 異步DNS決議, 佇列化任務, 支持N機分布式下載, 支持網站定向下載(需要配置hispiderd.ini whitelist),

特征和用法:

  • 基于unix/linux系統的開發

  • 異步DNS決議

  • URL排重

  • 支持HTTP 壓縮編碼傳輸 gzip/deflate

  • 字符集判斷自動轉換成UTF-8編碼

  • 檔案壓縮存盤

  • 支持多下載節點分布式下載

  • 支持網站定向下載(需要配置 hispiderd.ini whitelist )

  • 可通過 http://127.0.0.1:3721/ 查看下載情況統計,下載任務控制(可停止和恢復任務)

  • 依賴基本通信庫libevbase 和 libsbase (安裝的時候需要先安裝這個兩個庫)、

作業流程:

  • 從中心節點取URL(包括URL對應的任務號, IP和port,也可能需要自己決議)

  • 連接服務器發送請求

  • 等待資料頭判斷是否需要的資料(目前主要取text型別的資料)

  • 等待完成資料(有length頭的直接等待說明長度的資料否則等待比較大的數字然后設定超時)

  • 資料完成或者超時, zlib壓縮資料回傳給中心服務器,資料可能包括自己決議DNS資訊, 壓縮后資料長度+壓縮后資料, 如果出錯就直接回傳任務號以及相關資訊

  • 中心服務器收到帶有任務號的資料, 查看是否包括資料, 如果沒有資料直接置任務號對應的狀態為錯誤, 如果有資料提取資料種link 然后存盤資料到檔案檔案.

  • 完成后回傳一個新的任務.

授權協議:BSD

作業系統:Linux

開發語言:C/C++

開發語言:C/C++

特點:支持多機分布式下載, 支持網站定向下載

🖥 專案主頁:https://codingdict.com/os/software/74012

🖋 專案下載:https://code.google.com/archive/p/hispider/downloads

😀2、larbin

larbin是一種開源的網路爬蟲/網路蜘蛛,由法國的年輕人 Sébastien Ailleret獨立開發,larbin目的是能夠跟蹤頁面的url進行擴展的抓取,最后為搜索引擎提供廣泛的資料來源,Larbin只是一個爬蟲,也就 是說larbin只抓取網頁,至于如何parse的事情則由用戶自己完成,另外,如何存盤到資料庫以及建立索引的事情 larbin也不提供,一個簡單的larbin的爬蟲可以每天獲取500萬的網頁,
利用larbin,我們可以輕易的獲取/確定單個網站的所有鏈接,甚至可以鏡像一個網站;也可以用它建立url 串列群,例如針對所有的網頁進行 url retrive后,進行xml的聯結的獲取,或者是 mp3,或者定制larbin,可以作為搜索引擎的資訊的來,

授權協議:GPL

作業系統:Linux

開發語言:C/C++

特點:高性能的爬蟲軟體,只負責抓取不負責決議

🖥 專案主頁:https://baike.baidu.com/item/larbin/8487233?fr=aladdin

🖋 專案下載:https://github.com/ictxiangxin/larbin

😀3、Methabot

Methabot 是一個經過速度優化的高可配置的 WEB、FTP、本地檔案系統的爬蟲軟體,

授權協議:未知

開發語言:C/C++

作業系統:Windows Linux

特點:過速度優化、可抓取WEB、FTP及本地檔案系統

🖥 專案主頁:https://sourceforge.net/projects/methabot/

🖋 專案下載:http://www.oschina.net/code/tag/methabot

C#爬蟲

😏1、NWebCrawler

NWebCrawler是一款開源,C#開發網路爬蟲程式,

  • 可配置:執行緒數,等待時間,連接超時,允許MIME型別和優先級,下載檔案夾,

  • 統計資訊:URL數量,總下載檔案,總下載位元組數,CPU利用率和可用記憶體,

  • Preferential crawler:用戶可以設定優先級的MIME型別,

  • Robust: 10+ URL normalization rules, crawler trap avoiding rules.,

開發語言:C#

授權協議:GPLv2

作業系統:Windows

特點:統計資訊、執行程序可視化

🖥 專案主頁:http://www.open-open.com/lib/view/home/1350117470448

🖋 專案下載:https://archive.codeplex.com/?p=nwebcrawler

😏2、Sinawler

國內第一個針對微博資料的爬蟲程式!原名“新浪微博爬蟲”,

登錄后,可以指定用戶為起點,以該用戶的關注人、粉絲為線索,延人脈關系搜集用戶基本資訊、微博資料、評論資料,

該應用獲取的資料可作為科研、與新浪微博相關的研發等的資料支持,但請勿用于商業用途,該應用基于.NET2.0框架,需SQL SERVER作為后臺資料庫,并提供了針對SQL Server的資料庫腳本檔案,

另外,由于新浪微博API的限制,爬取的資料可能不夠完整(如獲取粉絲數量的限制、獲取微博數量的限制等)
本程式著作權歸作者所有,你可以免費: 拷貝、分發、呈現和表演當前作品,制作派生作品,你不可將當前作品用于商業目的,

5.x版本已經發布!該版本共有6個后臺作業執行緒:爬取用戶基本資訊的機器人、爬取用戶關系的機器人、爬取用戶標簽的機器人、爬取微博內容的機器人、爬取微博評論的機器人,以及調節請求頻率的機器人,更高的性能!最大限度挖掘爬蟲潛力!以現在測驗的結果看,已經能夠滿足自用,

本程式的特點:

  • 6個后臺作業執行緒,最大限度挖掘爬蟲性能潛力!

  • 界面上提供引數設定,靈活方便

  • 拋棄app.config組態檔,自己實作配置資訊的加密存盤,保護資料庫帳號資訊

  • 自動調整請求頻率,防止超限,也避免過慢,降低效率

  • 任意對爬蟲控制,可隨時暫停、繼續、停止爬蟲

  • 良好的用戶體驗

授權協議:GPLv3

開發語言:C# .NET

作業系統:Windows

🖥 專案主頁:https://code.google.com/archive/p/sinawler/

🖋 專案下載:https://code.google.com/archive/p/sinawler/downloads

😏3、spidernet

spidernet是一個以遞回樹為模型的多執行緒web爬蟲程式, 支持text/html資源的獲取. 可以設定爬行深度, 最大下載位元組數限制, 支持gzip解碼, 支持以gbk(gb2312)和utf8編碼的資源; 存盤于sqlite資料檔案.原始碼中TODO:標記描述了未完成功能, 希望提交你的代碼,

開發語言:C#

授權協議:MIT

作業系統:Windows

特點:以遞回樹為模型的多執行緒web爬蟲程式,支持以GBK (gb2312)和utf8編碼的資源,使用sqlite存盤資料,

🖥 專案主頁:https://www.oschina.net/p/spidernet

🖋 專案下載:https://github.com/nsnail/spidernet

😏4、網路礦工

網站資料采集軟體 網路礦工采集器(原soukey采摘)

Soukey采摘網站資料采集軟體是一款基于.Net平臺的開源軟體,也是網站資料采集軟體型別中唯一一款開源軟體,盡管Soukey采摘開源,但并不會影響軟體功能的提供,甚至要比一些商用軟體的功能還要豐富,

授權協議:BSD

開發語言:C# .NET

作業系統:Windows

特點:功能豐富,毫不遜色于商業軟體

🖥 專案主頁:https://gitee.com/wllvwll/Soukey

🖋 專案下載:https://gitee.com/wllvwll/Soukey

PHP爬蟲

😃1、OpenWebSpider

OpenWebSpider是一個開源多執行緒Web Spider(robot:機器人,crawler:爬蟲)和包含許多有趣功能的搜索引擎,

開發語言:PHP

作業系統:跨平臺

特點:開源多執行緒網路爬蟲,有許多有趣的功能

🖥 專案主頁:https://gitee.com/wllvwll/Soukey

🖋 專案下載:https://gitee.com/wllvwll/Soukey

😃2、PhpDig

PhpDig是一個采用PHP開發的Web爬蟲和搜索引擎,通過對動態和靜態頁面進行索引建立一個詞匯表,當搜索查詢時,它將按一定的排序規則顯示包含關 鍵字的搜索結果頁面,PhpDig包含一個模板系統并能夠索引PDF,Word,Excel,和PowerPoint檔案,PHPdig適用于專業化更 強、層次更深的個性化搜索引擎,利用它打造針對某一領域的垂直搜索引擎是最好的選擇,

授權協議:GPL

開發語言:PHP

作業系統:跨平臺

特點:具有采集網頁內容、提交表單功能

🖥 專案主頁:https://www.php-open.org/op10784.html

🖋 專案下載: http://www.phpdig.net/

😃3、ThinkUp

ThinkUp 是一個可以采集推特,facebook等社交網路資料的社會媒體視角引擎,通過采集個人的社交網路賬號中的資料,對其存檔以及處理的互動分析工具,并將資料圖形化以便更直觀的查看,

![
授權協議:GPL

開發語言:PHP

作業系統:跨平臺

特點:采集推特、臉譜等社交網路資料的社會媒體視角引擎,可進行互動分析并將結果以可視化形式展現

🖥 專案主頁:https://www.thinkup.com/

🖋 專案下載:https://github.com/ThinkUpLLC/ThinkUp

😃4、微購

微購社會化購物系統是一款基于ThinkPHP框架開發的開源的購物分享系統,同時它也是一套針對站長、開源的的淘寶客網站程式,它整合了淘寶、天貓、淘寶客等300多家商品資料采集介面,為廣大的淘寶客站長提供傻瓜式淘客建站服務,會HTML就會做程式模板,免費開放下載,是廣大淘客站長的首選,

授權協議:GPL

開發語言:PHP

作業系統:跨平臺

ErLang爬蟲

😉1、Ebot

Ebot 是一個用 ErLang 語言開發的可伸縮的分布式網頁爬蟲,URLs 被保存在資料庫中可通過 RESTful 的 HTTP 請求來查詢,

授權協議:GPLv3

開發語言:ErLang

作業系統:跨平臺

特點:可伸縮的分布式網頁爬蟲

🖥 專案主頁:http://www.redaelli.org/matteo/blog/projects/ebot

🖋 專案下載:https://github.com/matteoredaelli/ebot

Ruby爬蟲

😉1、Spidr

Spidr 是一個Ruby 的網頁爬蟲庫,可以將整個網站、多個網站、某個鏈接完全抓取到本地,

授權協議:MIT

開發語言:Ruby

特點:可將一個或多個網站、某個鏈接完全抓取到本地

🖥 專案主頁:http://rubyforge.org/frs/?group_id=6264

🖋 專案下載:http://spidr.rubyforge.org/

在這里插入圖片描述

關注蘇州程式大白,持續更新技術分享,謝謝大家支持
在這里插入圖片描述

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/287951.html

標籤:其他

上一篇:MySQL高可用之主備同步:展望未來,JDK-12的新特性

下一篇:??post和get到底有哪些區別?

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 2023年最新微信小程式抓包教程

    01 開門見山 隔一個月發一篇文章,不過分。 首先回顧一下《微信系結手機號資料庫被脫庫事件》,我也是第一時間得知了這個訊息,然后跟蹤了整件事情的經過。下面是這起事件的相關截圖以及近日流出的一萬條資料樣本: 個人認為這件事也沒什么,還不如關注一下之前45億快遞資料查詢渠道疑似在近日復活的訊息。 訊息是 ......

    uj5u.com 2023-04-20 08:48:24 more
  • web3 產品介紹:metamask 錢包 使用最多的瀏覽器插件錢包

    Metamask錢包是一種基于區塊鏈技術的數字貨幣錢包,它允許用戶在安全、便捷的環境下管理自己的加密資產。Metamask錢包是以太坊生態系統中最流行的錢包之一,它具有易于使用、安全性高和功能強大等優點。 本文將詳細介紹Metamask錢包的功能和使用方法。 一、 Metamask錢包的功能 數字資 ......

    uj5u.com 2023-04-20 08:47:46 more
  • vulnhub_Earth

    前言 靶機地址->>>vulnhub_Earth 攻擊機ip:192.168.20.121 靶機ip:192.168.20.122 參考文章 https://www.cnblogs.com/Jing-X/archive/2022/04/03/16097695.html https://www.cnb ......

    uj5u.com 2023-04-20 07:46:20 more
  • 從4k到42k,軟體測驗工程師的漲薪史,給我看哭了

    清明節一過,盲猜大家已經無心上班,在數著日子準備過五一,但一想到銀行卡里的余額……瞬間心情就不美麗了。最近,2023年高校畢業生就業調查顯示,本科畢業月平均起薪為5825元。調查一出,便有很多同學表示自己又被平均了。看著這一資料,不免讓人想到前不久中國青年報的一項調查:近六成大學生認為畢業10年內會 ......

    uj5u.com 2023-04-20 07:44:00 more
  • 最新版本 Stable Diffusion 開源 AI 繪畫工具之中文自動提詞篇

    🎈 標簽生成器 由于輸入正向提示詞 prompt 和反向提示詞 negative prompt 都是使用英文,所以對學習母語的我們非常不友好 使用網址:https://tinygeeker.github.io/p/ai-prompt-generator 這個網址是為了讓大家在使用 AI 繪畫的時候 ......

    uj5u.com 2023-04-20 07:43:36 more
  • 漫談前端自動化測驗演進之路及測驗工具分析

    隨著前端技術的不斷發展和應用程式的日益復雜,前端自動化測驗也在不斷演進。隨著 Web 應用程式變得越來越復雜,自動化測驗的需求也越來越高。如今,自動化測驗已經成為 Web 應用程式開發程序中不可或缺的一部分,它們可以幫助開發人員更快地發現和修復錯誤,提高應用程式的性能和可靠性。 ......

    uj5u.com 2023-04-20 07:43:16 more
  • CANN開發實踐:4個DVPP記憶體問題的典型案例解讀

    摘要:由于DVPP媒體資料處理功能對存放輸入、輸出資料的記憶體有更高的要求(例如,記憶體首地址128位元組對齊),因此需呼叫專用的記憶體申請介面,那么本期就分享幾個關于DVPP記憶體問題的典型案例,并給出原因分析及解決方法。 本文分享自華為云社區《FAQ_DVPP記憶體問題案例》,作者:昇騰CANN。 DVPP ......

    uj5u.com 2023-04-20 07:43:03 more
  • msf學習

    msf學習 以kali自帶的msf為例 一、msf核心模塊與功能 msf模塊都放在/usr/share/metasploit-framework/modules目錄下 1、auxiliary 輔助模塊,輔助滲透(埠掃描、登錄密碼爆破、漏洞驗證等) 2、encoders 編碼器模塊,主要包含各種編碼 ......

    uj5u.com 2023-04-20 07:42:59 more
  • Halcon軟體安裝與界面簡介

    1. 下載Halcon17版本到到本地 2. 雙擊安裝包后 3. 步驟如下 1.2 Halcon軟體安裝 界面分為四大塊 1. Halcon的五個助手 1) 影像采集助手:與相機連接,設定相機引數,采集影像 2) 標定助手:九點標定或是其它的標定,生成標定檔案及內參外參,可以將像素單位轉換為長度單位 ......

    uj5u.com 2023-04-20 07:42:17 more
  • 在MacOS下使用Unity3D開發游戲

    第一次發博客,先發一下我的游戲開發環境吧。 去年2月份買了一臺MacBookPro2021 M1pro(以下簡稱mbp),這一年來一直在用mbp開發游戲。我大致分享一下我的開發工具以及使用體驗。 1、Unity 官網鏈接: https://unity.cn/releases 我一般使用的Apple ......

    uj5u.com 2023-04-20 07:40:19 more