2020-2021年度山東大學軟體學院資訊檢索考試
開學的時候上這門課時老師說很多同學都覺得這門課程難(范圍廣且多,不過這倒是符合資訊檢索的定義“融合了~~~的綜合學科”,哈哈哈),最終期末考試是“貝多芬(背多分)”,純記憶力考試,寫這個回憶版也耗費了我巨大的記憶力,我如何記得住這么多題(無它,答完后還剩50分鐘,背就完了),如果我考前不喝紅牛或許還記不住這么多題,復習的時候獲得了學長的回憶版,可惜沒有填空題,傳承“傳統”也就有了這個回憶版,話不多說,開始我的回憶……
考試時間:2020年12月22日 14:00-16:00
保證所有題目順序的正確性
去年題(2019-2020):https://download.csdn.net/download/qq_40422851/12054761
一、填空題(每空1分,共38分)
- 資訊檢索實質上融合了文本及多媒體檢索、資料挖掘、_____ 和 ______ 的綜合學科,
- 資訊檢索技術可以解決互聯網上的 _____ 問題,
- 爬蟲是一種 _____ 程式,
- 爬蟲從一個或若干個網頁的URL開始,抽取URL放入 _____ 中,
- 爬蟲可以采用 _____ 判重,
- 爬蟲的搜索策略有 _____ 和 _____ ,
- 爬蟲禮貌性體現在 _____ ,
- 使用python語言中的Pandas模塊里的 _____ 函式,可以直接提取網頁中的表格,
- 搜索引擎的主要組成部分為:爬蟲和爬取、_____ 、搜索詞處理、排序,搜索引擎的核心資料結構為 _____ ,
- 消除停用詞的方法: _____ 和 _____,
- _____ 在一般情況下,將多個派生詞合并在一起,
- 基于詞典的分詞方法,也叫“ _____ ” 法,根據掃描方向,匹配策略有 _____ 和 _____ ,
- 布爾模型建立在 _____ 和 _____ 的基礎上,
- 精確的Top K搜索的加速方法有(1)_____ ; (2) _____ ;(3)_____ ,
- L2R中的檔案方法損失函式評估 _____ ,
- PageRank是基于 _____ 的回歸關系來判定所有網頁的重要性,
- HITS演算法中,每個網頁計算兩個值:_____ 和 _____ ,
- SVD也就是 _____ ,可以用于 _____ ,
- BM25由三個部分組成: _____ 、_____ 和 _____ ,
- 詞的向量表示有 _____ 和 _____ ,
- 用于大量檔案查重的區域敏感哈希演算法有 _____ 和 _____ ,
- 形狀的描述符大題可以分為兩大類,基于 _____ 的和基于 _____ 的,
二、名次解釋(每個6分,共30分)
- 正則運算式
- 影像BoW
- 統計語言模型
- pLSA
- LBR
三、簡答題(每個8分,共32分)
- 簡述向量空間模型及其特點
- 什么是HMM?簡述HMM用于中文分詞的方法
- 簡述資訊檢索評價的主要指標
- 網站反爬蟲的方法有哪些?應對策略是什么?
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/239039.html
標籤:其他
