主頁 > 軟體設計 > 第五次學習記錄(Python)

第五次學習記錄(Python)

2020-12-20 12:21:31 軟體設計

學習目標:

Python網路爬蟲

學習內容:

1.HTTP的基本原理 2.網頁基礎 3.Session和Cookie

學習時間:

周一晚上9:00-10:00 周二晚上9:00-10:00 周三晚上9:00-10:00 周四晚上9:00-10:00 周五晚上8:00-10:00

學習產出:

HTTP的基本原理

URI和URL介紹

URI是統一資源識別符號,全稱為Uniform Resource Identifier,而URL是統一資源定位符,全稱為Universal Resource Locator,
舉例說明,“http://www.baidu.com/search/detail?z=0&word= 爬蟲教程”這是一個百度搜索的一個鏈接,它是一個URI也是一個URL,用URL/URI來唯一指定它的訪問方式,這其中包括訪問協議http、訪問主機www.baidu.com和資源路徑(“/"之后的內容),通過這樣一個鏈接,可以從互聯網上找到這個資源,這就是URL/URI,
因此,籠統地說,每一個URL也是一個URI,但不是每一個URI都是URL,因為URI還包括一個子類,即統一資源名稱(Uniform Resource Name, URM),它命名資源但不能能指定如何定位資源,
URI是個純粹的句法結構,用于指定識別Web資源的字串的各個不同部分,URL是URI的一個特例,它包含了定位Web資源的足夠資訊,其他URI,如mailto:cay@horstman.com則不屬于定位符,因為根據該識別符號無法定位任何資源,

超文本

超文本就是超級文本的縮寫,它的英文名稱為HyperText,上網打開瀏覽器所看到的網頁就是超級文本決議而成的,其網頁原始碼是一系列的HTML代碼,其中包括了各種標簽,如img顯示圖片、div布局、p指定顯示段落等,而網頁原始碼就可以成為超文本,

HTTP和HTTPS

在上網的程序中,URL的開頭會有http或https,這就是訪問資源需要的協議型別,有時還會看見ftp、sftp、smb開頭的URL,它們也都是協議型別,在爬蟲中,抓取的網頁通常是http或者https協議的,
首先,HTTP(Hyper Text Transfer Protocol,超文本傳輸協議)是用于從網路傳輸超文本資料到本地瀏覽器的傳輸協議,它能保證高效而準確地傳輸超文本檔案,HTTP是由萬維網協會和IETE共同合作指定規范,
HTTPS(Hyper Text Transfer Protocol over Secure Socket Layer,超文本傳輸安全協議)是以安全為目標的HTTP通道,通俗一點講就是HTTP安全版,即在HTTP下加入SSL層,它是一個URI scheme(抽象識別符號體系),

HTTP的請求程序

客戶端瀏覽器向網站所在的服務器發送一個請求——網站的服務器接收到這個請求后進行決議和處理——回傳回應對應的資料給瀏覽器——瀏覽器中包含網頁的源代碼等內容——瀏覽器再對其進行決議——將結果呈獻給用戶,
在Chrome瀏覽器中按【F12】鍵,
(1)Name:代表的是請求的名稱,一般情況下,URL的最后一部分內容就是名稱,
(2)Status:回應的狀態碼,如顯示是200則代表正常回應,通過這個狀態碼可以判斷發送了請求之后是否得到了正常的回應,如常見的回應狀態碼有404,500等,
(3)Type:請求的型別,常見型別有xhr、document等,如這里有一個名稱為www.taobao.com的請求,它的型別為document,表示這次請求的是一個HTML檔案,回應的內容就是一些HTML代碼,
(4)Initiator:請求源,用來標記請求是哪個行程或者物件發起的,
(5)Size:表示從服務器下載的檔案和請求的大小,如果是從快取中取得的資源,則該列會顯示from cache,
(6)Time:表示從發起請求到回應請求所消耗的時間,
(7)Waterfall:網路請求的可視化瀑布流,

再來單擊某個網站名稱的請求,可以看到關于請求更詳細的資訊,
(1)General部分:Request URL為請求的URL,Request Method為請求的方法,Status Code為回應狀態碼,Remote Address為遠程服務器的地址和埠,Referrer Policy為Referrer判別策略,
(2)Response Headers和Resquest Headers部分:該部分代表著回應頭和請求頭,請求頭中有許多資訊,如瀏覽器標識、Cookie、Host等,這是請求的一部分,服務器會根據請求頭內部的資訊判斷請求是否合法,進而做出對應的回應,

網頁基礎

網頁組成

一個完整的網頁大致可以分成三部分:HTML、CSS和JS,
1.HTML(Hyper Text Markup Language,超文本標記語言)是用來描述網頁的一種語言,
HTML不是一種編程語言,而是一種標記語言,
2.CSS(Cascading Style Sheet,層疊樣式表)是用來控制網頁外觀的一門技術,

#test{
width:800px;
height:600px;
background-color:red;
}

大括號前面就是一個CSS選擇器,此選擇器的意思是選中id為test的節點,大括號內部寫的就是一條條的樣式規則,例如,width指定了元素的寬,height指定了元素的高,background-color指定了元素的背景顏色,
在網頁中一般會有統一定義整個網頁的樣式規則,并寫入CSS檔案中(其后綴名稱為.css),在HTML中,只需要用link標簽引入寫好的CSS檔案,
3.JavaScript
JavaScript簡稱JS是一種腳本語言,
在網頁中實作互動和影片效果,
JavaScript也通常以檔案形式加載,后綴名為.js,在HTML中通過script標簽即可引入,

<script scr="test.js"></script>

綜上所述,HTML定義了網頁的內容和結果,CSS描述了網頁的布局,JavaScript定義了網頁的行為,

網頁的結構

<!DOCTYPE html>
<html>
	<head>
		<title>網頁的標題</title>
	</head>
	<body>
		<p>
		網頁顯示內容
		</p>
	</body>
</html>

這就是一個最簡單的HTML,開頭用DOCTYPE定義檔案的型別,其次最外層是html標簽,其內部是head(網頁頭)、title(標題)和body(網頁體)標簽,
head定義網頁的配置和參考,CSS和JS一般都是在這里引入的,
title定義了標題,選出現在網頁的選項卡中,不會出現在正文中,
body內側就是網頁顯示的內容,

Session和Cookie

Session和Cookie是用于保持HTTP連接狀態的技術,

Session

1.當用戶訪問一個服務器的時候,如果服務器啟動Session,服務器就要為該用戶創建一個Session,若用戶發來的請求里面包含了一個Session ID,那么說明該用戶之前已經登錄過,那么服務器就按照這個Session ID把這個Session在服務器的記憶體中找出來,
2.若沒有Session ID就創建一個,Session ID是唯一的,不重復的,不容易找到規律的字串,這個Session ID將在本次回應中回傳到客戶端保存,而保存這個Session ID就是Cookie,

Cookie

1.記憶體Cookie:由瀏覽器維護,保存在記憶體中,瀏覽器關閉就會消失,
2.硬碟Cookie:保存在硬碟中,有一個過期時間,除非用戶手動清理或者到了過期時間,

轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/237695.html

標籤:其他

上一篇:資料結構(廿六) -- C語言版 -- 圖 - 圖的遍歷 -- 鄰接表 - 深度/廣度優先遍歷/搜索(DFS、BFS)

下一篇:【跳脫框架】怎樣更容易的賣機器人?

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 面試突擊第一季,第二季,第三季

    第一季必考 https://www.bilibili.com/video/BV1FE411y79Y?from=search&seid=15921726601957489746 第二季分布式 https://www.bilibili.com/video/BV13f4y127ee/?spm_id_fro ......

    uj5u.com 2020-09-10 05:35:24 more
  • 第三單元作業總結

    1.前言 這應該是本學期最后一次寫作業總結了吧。總體來說,對作業的節奏也差不多掌握了,作業做起來的效率也更高了。雖然和之前的作業一樣,作業中都要用到新的知識,但是相比之前,更加懂得了如何利用工具以及資料。雖然之間卡過殼,但總體而言,這幾次作業還算完成的比較好。 2.作業程序總結 相比前兩個單元,此單 ......

    uj5u.com 2020-09-10 05:35:41 more
  • 北航OO(2020)第四單元博客作業暨課程總結博客

    北航OO(2020)第四單元博客作業暨課程總結博客 本單元作業的架構設計 在本單元中,由于UML圖具有比較清晰的樹形結構,因此我對其中需要進行查詢操作的元素進行了包裝,在樹的父節點中存盤所有孩子的參考。考慮到性能問題,我采用了快取機制,一次查詢后盡可能快取已經遍歷過的資訊,以減少遍歷次數。 本單元我 ......

    uj5u.com 2020-09-10 05:35:48 more
  • BUAA_OO_第四單元

    一、UML決議器設計 ? 先看下題目:第四單元實作一個基于JDK 8帶有效性檢查的UML(Unified Modeling Language)類圖,順序圖,狀態圖分析器 MyUmlInteraction,實際上我們要建立一個有向圖模型,UML中的物件(元素)可能與同級元素連接,也可與低級元素相連形成 ......

    uj5u.com 2020-09-10 05:35:54 more
  • 6.1邏輯運算子

    邏輯運算子 1. && 短路與 運算式1 && 運算式2 01.運算式1為true并且運算式2也為true 整體回傳為true 02.運算式1為false,將不會執行運算式2 整體回傳為false 03.只要有一個運算式為false 整體回傳為false 2. || 短路或 運算式1 || 運算式2 ......

    uj5u.com 2020-09-10 05:35:56 more
  • BUAAOO 第四單元 & 課程總結

    1. 第四單元:StarUml檔案決議 本單元采用了圖模型決議UML。 UML檔案可以抽象為圖、子圖、邊的邏輯結構。 在實作中,圖的節點包括類、介面、屬性,子圖包括狀態圖、順序圖等。 采用了三次遍歷UML元素的方法建圖,第一遍遍歷建點,第二、三次遍歷設定屬性、連邊,實作圖物件的初始化。這里借鑒了一些 ......

    uj5u.com 2020-09-10 05:36:06 more
  • 談談我對C# 多型的理解

    面向物件三要素:封裝、繼承、多型。 封裝和繼承,這兩個比較好理解,但要理解多型的話,可就稍微有點難度了。今天,我們就來講講多型的理解。 我們應該經常會看到面試題目:請談談對多型的理解。 其實呢,多型非常簡單,就一句話:呼叫同一種方法產生了不同的結果。 具體實作方式有三種。 一、多載 多載很簡單。 p ......

    uj5u.com 2020-09-10 05:36:09 more
  • Python 資料驅動工具:DDT

    背景 python 的unittest 沒有自帶資料驅動功能。 所以如果使用unittest,同時又想使用資料驅動,那么就可以使用DDT來完成。 DDT是 “Data-Driven Tests”的縮寫。 資料:http://ddt.readthedocs.io/en/latest/ 使用方法 dd. ......

    uj5u.com 2020-09-10 05:36:13 more
  • Python里面的xlrd模塊詳解

    那我就一下面積個問題對xlrd模塊進行學習一下: 1.什么是xlrd模塊? 2.為什么使用xlrd模塊? 3.怎樣使用xlrd模塊? 1.什么是xlrd模塊? ?python操作excel主要用到xlrd和xlwt這兩個庫,即xlrd是讀excel,xlwt是寫excel的庫。 今天就先來說一下xl ......

    uj5u.com 2020-09-10 05:36:28 more
  • 當我們創建HashMap時,底層到底做了什么?

    jdk1.7中的底層實作程序(底層基于陣列+鏈表) 在我們new HashMap()時,底層創建了默認長度為16的一維陣列Entry[ ] table。當我們呼叫map.put(key1,value1)方法向HashMap里添加資料的時候: 首先,呼叫key1所在類的hashCode()計算key1 ......

    uj5u.com 2020-09-10 05:36:38 more
最新发布
  • 【中介者設計模式詳解】C/Java/JS/Go/Python/TS不同語言實作

    * 中介者模式是一種行為型設計模式,它可以用來減少類之間的直接依賴關系,
    * 將物件之間的通信封裝到一個中介者物件中,從而使得各個物件之間的關系更加松散。
    * 在中介者模式中,物件之間不再直接相互互動,而是通過中介者來中轉訊息。 ......

    uj5u.com 2023-04-20 08:20:47 more
  • 露天煤礦現場調研和交流案例分享

    他們集團的資訊化公司及研究院在一個礦區正在做智能礦山的統一平臺的 試點,專案投資大概1億,包括了礦山的各方面的內容,顯示得我們這次交流有點多余。他們2年前開始做智能礦山的規劃,有很多煤礦行業專家的加持,他們的描述是非常完美,但是去年底應該上線的平臺,現在還沒有看到影子。他們確實有很多場景需求,但是被... ......

    uj5u.com 2023-04-20 08:20:25 more
  • 《社區人員管理》實戰案例設計&個人案例分享

    設計是一個讓人夢想成真程序,開始編碼、測驗、除錯之前進行需求分析和架構設計,才能保證關鍵方面都做正確 ......

    uj5u.com 2023-04-20 08:20:17 more
  • 軟體架構生態化-多角色交付的探索實踐

    作為一個技術架構師,不僅僅要緊跟行業技術趨勢,還要結合研發團隊現狀及痛點,探索新的交付方案。在日常中,你是否遇到如下問題 “ 業務需求排期長研發是瓶頸;非研發角色感受不到研發技改提效的變化;引入ISV 團隊又擔心質量和安全,培訓周期長“等等,基于此我們探索了一種新的技術體系及交付方案來解決如上問題。 ......

    uj5u.com 2023-04-20 08:20:10 more
  • 【中介者設計模式詳解】C/Java/JS/Go/Python/TS不同語言實作

    * 中介者模式是一種行為型設計模式,它可以用來減少類之間的直接依賴關系,
    * 將物件之間的通信封裝到一個中介者物件中,從而使得各個物件之間的關系更加松散。
    * 在中介者模式中,物件之間不再直接相互互動,而是通過中介者來中轉訊息。 ......

    uj5u.com 2023-04-20 08:19:44 more
  • 露天煤礦現場調研和交流案例分享

    他們集團的資訊化公司及研究院在一個礦區正在做智能礦山的統一平臺的 試點,專案投資大概1億,包括了礦山的各方面的內容,顯示得我們這次交流有點多余。他們2年前開始做智能礦山的規劃,有很多煤礦行業專家的加持,他們的描述是非常完美,但是去年底應該上線的平臺,現在還沒有看到影子。他們確實有很多場景需求,但是被... ......

    uj5u.com 2023-04-20 08:19:07 more
  • 《社區人員管理》實戰案例設計&個人案例分享

    設計是一個讓人夢想成真程序,開始編碼、測驗、除錯之前進行需求分析和架構設計,才能保證關鍵方面都做正確 ......

    uj5u.com 2023-04-20 08:18:57 more
  • 軟體架構生態化-多角色交付的探索實踐

    作為一個技術架構師,不僅僅要緊跟行業技術趨勢,還要結合研發團隊現狀及痛點,探索新的交付方案。在日常中,你是否遇到如下問題 “ 業務需求排期長研發是瓶頸;非研發角色感受不到研發技改提效的變化;引入ISV 團隊又擔心質量和安全,培訓周期長“等等,基于此我們探索了一種新的技術體系及交付方案來解決如上問題。 ......

    uj5u.com 2023-04-20 08:18:49 more
  • 05單件模式

    #經典的單件模式 public class Singleton { private static Singleton uniqueInstance; //一個靜態變數持有Singleton類的唯一實體。 // 其他有用的實體變數寫在這里 //構造器宣告為私有,只有Singleton可以實體化這個類! ......

    uj5u.com 2023-04-19 08:42:51 more
  • 【架構與設計】常見微服務分層架構的區別和落地實踐

    軟體工程的方方面面都遵循一個最基本的道理:沒有銀彈,架構分層模型更是如此,每一種都有各自優缺點,所以請根據不同的業務場景,并遵循簡單、可演進這兩個重要的架構原則選擇合適的架構分層模型即可。 ......

    uj5u.com 2023-04-19 08:42:41 more