主頁 >  其他 > 讀改變未來的九大演算法筆記07_搜索引擎

讀改變未來的九大演算法筆記07_搜索引擎

2023-06-09 08:01:49 其他

1. 車庫軼事

1.1. 1939年

1.1.1. 戴夫·休利特(Dave Hewlett)

1.1.1.1. 惠普(Hewlett-Packard)

1.2. 1976年

1.2.1. 蒂夫·喬布斯(Steve Jobs)和史蒂夫·沃茲尼亞克(Steve Wozniak)

1.2.1.1. 從一間臥室開始的,空間很快就不夠用了,于是他們轉移到了車庫

1.3. 1998年

1.3.1. 佩奇和布林

1.3.1.1. 谷歌

1.3.1.1.1. 門洛帕克車庫

2. 互聯網搜索歷史

2.1. 1945年

2.1.1. 超鏈接

2.1.1.1. 美國工程師范內瓦·布什(Vannevar Bush)

2.1.1.2. 論文《誠若所思》(As We May Think)

2.1.1.3. 一臺被稱作麥麥克斯(memex)的機器

2.1.1.3.1. 允許“關聯索引……任何被選中的東西都能立即自動選擇另一個東西”
2.1.1.3.2. 一種早期的超鏈接

2.2. 1994年

2.2.1. Infoseek

2.2.2. Lycos

2.3. 1995年

2.3.1. AltaVista

2.4. 1999年

2.4.1. AltaVista遞交的美國專利檔案《索引的限制搜索》(“Constrained searching of an index”)中描述了元詞把戲

3. 兩大主要任務

3.1. 匹配(matching)

3.2. 排名(ranking)

4. 匹配演算法

4.1. AltaVista:互聯網級別的第一種匹配演算法

4.1.1. 20世紀90年代中期,AltaVista是搜索引擎的王者

4.1.2. 有史以來第一次,有一個搜索引擎能完全索引互聯網上每個頁面的全部文本

4.2. 有效匹配只是高效搜索引擎的一大挑戰

4.3. 索引

4.3.1. 是所有搜索引擎背后最基礎的思想

4.3.2. 是計算機科學中最古老的有用思想

4.3.3. 互聯網搜索引擎的索引和一本書的索引有著相同的作業原理

4.3.3.1. “書頁”現在成了萬維網上的網頁

4.3.3.2. 搜索引擎則給互聯網上的每個網頁分配了一個不同的頁碼

4.3.4. 索引不僅應該存盤頁碼,還要存盤資訊在頁面內的位置

5. 排名和鄰度

5.1. 查詢詞彼此相鄰的網頁比那些查詢詞相距很遠的網頁相關度更高

5.2. 搜索引擎在不斷地使用和鄰度有關的資訊,以提高搜索排名

5.3. “NEAR”(鄰近)關鍵詞

5.3.1. NEAR查詢

5.4. 搜索引擎的生死由其排名的質量決定,而通過利用網頁結構,排名質量能夠得到大幅提升

6. 元詞把戲

6.1. Metaword Trick

6.2. 創建一份索引時,囊括所有元詞是件很簡單的事

6.3. 標題查詢和其他取決于網頁結構的“結構查詢”類似于NEAR查詢

7. 排名演算法

7.1. PageRank

7.1.1. 一種對網頁排名的演算法

7.1.2. 主要發明者拉里·佩奇的排名演算法

7.1.3. 學識訓議論文《決議大規模超文本網路搜索引擎》(The Anatomy of a Large-Scale Hypertextual Web Search Engine)

7.1.4. 核心思想

7.1.4.1. 權威性網頁通過超鏈接向其他網頁傳輸權重

7.3. 超鏈接

7.3.1. 網頁上的一個短語,當你點擊它時,你將被帶到另一個網頁

7.3.2. 一個網頁的鏈入鏈接數可能成為該網頁“有用性”或“權威性”的指標

7.3.3. 人們可以濫用超鏈接把戲,人為地提高自己網頁的排名

7.3.3.1. 搜索引擎稱這種濫用為網路垃圾Web Spam

7.3.4. 一個有許多鏈入鏈接的網頁應該有高排名

7.4. 權重

7.4.1. 來自高權重網頁的鏈接排名要比來自低權重網頁鏈接的排名高

7.4.2. 所有網頁的初始權重值(Authority Score)都是1

7.4.2.1. 如果一個網頁有鏈入鏈接,在計算該網頁權重時就要加入指向其網頁的權重

7.4.2.2. 如果X和Y網頁鏈接Z網頁,那么Z網頁的權重就是X網頁和Y網頁權重相加的值

7.4.3. 和來自低權重網頁的鏈入鏈接相比,一個來自高權重網頁的鏈入鏈接應該更能證明一個網頁的排名

7.5. 隨機訪問者

7.5.1. 超鏈接很有可能形成“回圈”(cycle)

7.5.1.1. 隨機訪問者解決這個“雞生蛋還是蛋生雞”的問題

7.5.1.2. 不管超鏈接有沒有形成回圈,隨機訪問者把戲都能完美地運作

7.5.2. 關鍵點

7.5.2.1. 每次訪問一個網頁時,都有一個固定的重新訪問概率(大概是15%),讓訪問者不從已有的超鏈接中挑選一個并點擊

7.5.2.2. 網頁的訪問者權重值(Surfer Authority Score)

7.5.2.2.1. 一名隨機訪問者訪問該網頁的時間比例

7.5.3. 一個有許多鏈入鏈接的網頁被訪問的概率較大

7.5.4. 和一個來自不知名網頁的鏈接相比,訪問者更有可能繼續點擊一個來自知名網頁的鏈入鏈接

7.5.5. 每個網頁鏈入鏈接的質量和數量都會被納入考慮范圍

7.6. 搜索引擎并非通過模擬隨機訪問者來計算PageRank值:它們使用像隨機訪問者模擬一樣給出相同答案的數學技巧,但計算成本要低很多

7.6.1. 商業搜索引擎中用來判定排名的演算法要比PageRank這類基于鏈接的排名演算法多得多

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/554704.html

標籤:其他

上一篇:也許這是你用過最最最好用的一款電源模塊(HGD01電源模塊)

下一篇:返回列表

標籤雲
其他(160646) Python(38218) JavaScript(25485) Java(18210) C(15237) 區塊鏈(8270) C#(7972) AI(7469) 爪哇(7425) MySQL(7238) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5873) 数组(5741) R(5409) Linux(5347) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4588) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2435) ASP.NET(2404) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) .NET技术(1984) 功能(1967) HtmlCss(1956) Web開發(1951) C++(1933) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1880) .NETCore(1863) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 讀改變未來的九大演算法筆記07_搜索引擎

    ![](https://img2023.cnblogs.com/blog/3076680/202306/3076680-20230608202206563-1748213850.png) # 1. 車庫軼事 ## 1.1. 1939年 ### 1.1.1. 戴夫·休利特(Dave Hewlett) ......

    uj5u.com 2023-06-09 08:01:49 more
  • 也許這是你用過最最最好用的一款電源模塊(HGD01電源模塊)

    不管是學生做畢業設計,還是DIY做一些好玩的東西,只要是電子產品,都需要電源來給系統供電,往往一個系統中需要的電壓不止一種,這個時候就需要使用到電源模塊來給系統提供各種所需的電壓。

    本次分享的是一款自己設計并大量投入使用的DCDC電源模塊,設計此模塊是因為市面上很難找到滿足我們需求的電源模塊。 ......

    uj5u.com 2023-06-09 08:01:28 more
  • 【技識訓累】演算法中的貪心演算法【一】

    博客推行版本更新,成果積累制度,已經寫過的博客還會再次更新,不斷地琢磨,高質量高數量都是要追求的,工匠精神是學習必不可少的精神。因此,大家有何建議歡迎在評論區踴躍發言,你們的支持是我最大的動力,你們敢投,我就敢肝 ......

    uj5u.com 2023-06-09 08:01:17 more
  • 7.1 套接字(socket)

    套接字(socket)是計算機之間進行通信的一種技術,它允許不同主機上的行程之間進行資料交換。在Python中,我們可以使用`socket`模塊來創建和使用套接字。 首先,我們需要匯入`socket`模塊: ```python import socket ``` 在網路編程中,有兩種主要型別的套接字 ......

    uj5u.com 2023-06-09 08:01:11 more
  • 國企真的這么香嗎?軟體測驗工程師國企真物體驗:“每天過的像打仗一

    還記得,之前一名在國企上班的程式員在匿名社區發了一個帖子,瞬間爆了。
    帖子中的這位程式員表示,他在的國企,稅前工資25萬,一周實際作業時間5個小時,一個一萬行代碼的專案,寫了一年。平時上班,除了早晨做做樣子看專案計劃,一整天都在逛論壇搞副業等等…
    中午睡到兩點下午五點半走人,沒有kpi壓力,工會還時... ......

    uj5u.com 2023-06-09 08:00:58 more
  • 網路傳輸中的重要引數(1)

    # 網路傳輸中的重要引數(1) 目前從事于音視頻流媒體領域的我,主要作業在傳輸層與應用層的交界處,研究如何針對流媒體場景實作高效而可靠的傳輸協議。作業兩年比較深刻的體會之一就是網路傳輸是個看似簡單清晰實則到處是坑的領域,本系列將首先對網路傳輸中重要的幾個引數進行梳理,討論各個引數的實際意義,以及各自 ......

    uj5u.com 2023-06-09 08:00:51 more
  • k8s~RKE的方式升級Rancher集群

    # kubectl安裝 在主機或者遠程訪問的筆記本上安裝kubectl命令列工具 rancher-cluster.yml(RKE組態檔) 通過RKE創建kubernetes集群,需要預先設定rancher-cluster.yml組態檔,通過這個組態檔安裝kubernetes集群,同時可以指定 ......

    uj5u.com 2023-06-09 08:00:44 more
  • 【技識訓累】演算法中的動態規劃【一】

    博客推行版本更新,成果積累制度,已經寫過的博客還會再次更新,不斷地琢磨,高質量高數量都是要追求的,工匠精神是學習必不可少的精神。因此,大家有何建議歡迎在評論區踴躍發言,你們的支持是我最大的動力,你們敢投,我就敢肝 ......

    uj5u.com 2023-06-09 08:00:36 more
  • 10.1. Java性能調優

    Java性能調優是一個復雜且重要的主題,它涉及到了JVM、垃圾收集器、記憶體管理、多執行緒、代碼優化等多個方面。在本節中,我們將對Java性能調優的基本概念和方法進行簡要介紹。 #### 10.1.1. 理解性能指標 在進行性能調優之前,我們首先需要了解主要的性能指標。以下是一些常見的性能指標: 1. ......

    uj5u.com 2023-06-09 08:00:30 more
  • EndNote參考文獻格式Output Styles界面介紹

    本文對**EndNote**軟體修改論文參考文獻**參考格式**的界面與各選項引數加以詳細介紹。 利用**EndNote**軟體進行論文參考文獻的插入可以說是非常方便;但其亦具有一個問題,就是對中文文獻的支持不太友好;之前也用過**NoteExpress**,這一國產軟體對于中文參考文獻的支持性很好 ......

    uj5u.com 2023-06-09 07:59:53 more