1. 車庫軼事

1.1. 1939年

1.2. 1976年

1.3. 1998年

2. 互聯網搜索歷史

2.1. 1945年

2.2. 1994年

2.3. 1995年

2.4. 1999年

3. 兩大主要任務

3.1. 匹配（matching）

3.2. 排名（ranking）

4. 匹配演算法

4.1. AltaVista：互聯網級別的第一種匹配演算法

4.2. 有效匹配只是高效搜索引擎的一大挑戰

4.3. 索引

5. 排名和鄰度

5.1. 查詢詞彼此相鄰的網頁比那些查詢詞相距很遠的網頁相關度更高

5.2. 搜索引擎在不斷地使用和鄰度有關的資訊，以提高搜索排名

5.3. “NEAR”（鄰近）關鍵詞

5.4. 搜索引擎的生死由其排名的質量決定，而通過利用網頁結構，排名質量能夠得到大幅提升

6. 元詞把戲

6.1. Metaword Trick

6.2. 創建一份索引時，囊括所有元詞是件很簡單的事

6.3. 標題查詢和其他取決于網頁結構的“結構查詢”類似于NEAR查詢

7. 排名演算法

7.1. PageRank

7.2. 基于鏈接的排名演算法（Link-based Ranking Algorithms）

7.3. 超鏈接

7.4. 權重

7.5. 隨機訪問者

7.6. 搜索引擎并非通過模擬隨機訪問者來計算PageRank值：它們使用像隨機訪問者模擬一樣給出相同答案的數學技巧，但計算成本要低很多

讀改變未來的九大演算法筆記07_搜索引擎

1. 車庫軼事

1.1. 1939年

1.1.1. 戴夫·休利特（Dave Hewlett）

1.1.1.1. 惠普（Hewlett-Packard）

1.2. 1976年

1.2.1. 蒂夫·喬布斯（Steve Jobs）和史蒂夫·沃茲尼亞克（Steve Wozniak）

1.2.1.1. 從一間臥室開始的，空間很快就不夠用了，于是他們轉移到了車庫

1.3. 1998年

1.3.1. 佩奇和布林

1.3.1.1. 谷歌

1.3.1.1.1. 門洛帕克車庫

2. 互聯網搜索歷史

2.1. 1945年

2.1.1. 超鏈接

2.1.1.1. 美國工程師范內瓦·布什（Vannevar Bush）

2.1.1.2. 論文《誠若所思》（As We May Think）

2.1.1.3. 一臺被稱作麥麥克斯（memex）的機器

2.1.1.3.1. 允許“關聯索引……任何被選中的東西都能立即自動選擇另一個東西”

2.1.1.3.2. 一種早期的超鏈接

2.2. 1994年

2.2.1. Infoseek

2.2.2. Lycos

2.3. 1995年

2.3.1. AltaVista

2.4. 1999年

2.4.1. AltaVista遞交的美國專利檔案《索引的限制搜索》（“Constrained searching of an index”）中描述了元詞把戲

3. 兩大主要任務

3.1. 匹配（matching）

3.2. 排名（ranking）

4. 匹配演算法

4.1. AltaVista：互聯網級別的第一種匹配演算法

4.1.1. 20世紀90年代中期，AltaVista是搜索引擎的王者

4.1.2. 有史以來第一次，有一個搜索引擎能完全索引互聯網上每個頁面的全部文本

4.2. 有效匹配只是高效搜索引擎的一大挑戰

4.3. 索引

4.3.1. 是所有搜索引擎背后最基礎的思想

4.3.2. 是計算機科學中最古老的有用思想

4.3.3. 互聯網搜索引擎的索引和一本書的索引有著相同的作業原理

4.3.3.1. “書頁”現在成了萬維網上的網頁

4.3.3.2. 搜索引擎則給互聯網上的每個網頁分配了一個不同的頁碼

4.3.4. 索引不僅應該存盤頁碼，還要存盤資訊在頁面內的位置

5. 排名和鄰度

5.1. 查詢詞彼此相鄰的網頁比那些查詢詞相距很遠的網頁相關度更高

5.2. 搜索引擎在不斷地使用和鄰度有關的資訊，以提高搜索排名

5.3. “NEAR”（鄰近）關鍵詞

5.3.1. NEAR查詢

5.4. 搜索引擎的生死由其排名的質量決定，而通過利用網頁結構，排名質量能夠得到大幅提升

6. 元詞把戲

6.1. Metaword Trick

6.2. 創建一份索引時，囊括所有元詞是件很簡單的事

6.3. 標題查詢和其他取決于網頁結構的“結構查詢”類似于NEAR查詢

7. 排名演算法

7.1. PageRank

7.1.1. 一種對網頁排名的演算法

7.1.2. 主要發明者拉里·佩奇的排名演算法

7.1.3. 學識訓議論文《決議大規模超文本網路搜索引擎》（The Anatomy of a Large-Scale Hypertextual Web Search Engine）

7.1.4. 核心思想

7.1.4.1. 權威性網頁通過超鏈接向其他網頁傳輸權重

7.2. 基于鏈接的排名演算法（Link-based Ranking Algorithms）

7.3. 超鏈接

7.3.1. 網頁上的一個短語，當你點擊它時，你將被帶到另一個網頁

7.3.2. 一個網頁的鏈入鏈接數可能成為該網頁“有用性”或“權威性”的指標

7.3.3. 人們可以濫用超鏈接把戲，人為地提高自己網頁的排名

7.3.3.1. 搜索引擎稱這種濫用為網路垃圾Web Spam

7.3.4. 一個有許多鏈入鏈接的網頁應該有高排名

7.4. 權重

7.4.1. 來自高權重網頁的鏈接排名要比來自低權重網頁鏈接的排名高

7.4.2. 所有網頁的初始權重值（Authority Score）都是1

7.4.2.1. 如果一個網頁有鏈入鏈接，在計算該網頁權重時就要加入指向其網頁的權重

7.4.2.2. 如果X和Y網頁鏈接Z網頁，那么Z網頁的權重就是X網頁和Y網頁權重相加的值

7.4.3. 和來自低權重網頁的鏈入鏈接相比，一個來自高權重網頁的鏈入鏈接應該更能證明一個網頁的排名

7.5. 隨機訪問者

7.5.1. 超鏈接很有可能形成“回圈”（cycle）

7.5.1.1. 隨機訪問者解決這個“雞生蛋還是蛋生雞”的問題

7.5.1.2. 不管超鏈接有沒有形成回圈，隨機訪問者把戲都能完美地運作

7.5.2. 關鍵點

7.5.2.1. 每次訪問一個網頁時，都有一個固定的重新訪問概率（大概是15%），讓訪問者不從已有的超鏈接中挑選一個并點擊

7.5.2.2. 網頁的訪問者權重值（Surfer Authority Score）

7.5.2.2.1. 一名隨機訪問者訪問該網頁的時間比例