做了一個類似新聞的推薦系統專案,使用的是基于內容和協同過濾的混合推薦演算法,就只說說我怎么做的吧,好多期刊上也有具體的演算法實作。
資料是從搜狐新聞中爬取的,一開始沒有考慮到分類,后面要用的時候發現之前太多資料沒有標注分類,而且很多新聞在原網站上分類就挺模糊的,很多熱點新聞、還有其他網站的新聞,沒有辦法系統的給出分類。
看了很多博文,發現了搜狗實驗室中有2012年的整理的搜狐新聞資料集,里面有url標簽,可以當做類別資訊,就訓練了一個分類器,最終分類的F1值在0.87左右,11類,也差不多是當前搜狐新聞的類別了。(訓練這個分類器前前后后進行了4次,每次都是有一點小錯誤,哎)
使用的tf-idf值和余弦相似度,得到分類資訊的同時,也有了新聞關鍵詞。
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/66720.html
標籤:其他技術專區
上一篇:求教:強連通分量演算法題,哪位大神可以幫忙解答,在線等
下一篇:我靠這樣自學了計算機
