大家好，我是小小明，

今天大家期待已久的熱榜追蹤神器上線了，包含歷史熱榜搜索器和近兩日熱榜排名等，

歷史熱榜追蹤資料搜索：http://xxmdmst.top:8000/static/search.html

熱榜漲粉榜top50：http://xxmdmst.top:8000/rankfollow/

熱榜追蹤程式演示

下面我們分別來看看這兩個網頁：

歷史熱榜追蹤資料搜索

打開網頁后界面如下：

該網頁默認展示最近上榜的20條資料，我們可以通過搜索找到我們需要的資料，

例如我們想查看昵稱中包含java的用戶上榜情況，可以再昵稱輸入框輸入java后回車：

可以看到上榜時間，小時數，以及在熱榜期間的漲粉量都一目了然，我們可以通過表格組件對查詢結果進行二次排序：

這就是按漲粉量排序后的結果，

當前目前我截圖的資料熱度鏈接比較長，我目前已經更新按照萬為單位保留一位小數進行追加，

還可以搜索近20條標題包含python的上榜資料，多個條件也支持組合查詢，

關于排名有一些搜索小技巧，這里的排名是根據排名鏈接進行搜索的，我們可以根據條件,1,搜索近期上過榜一的文章(不包含僅一上榜就到榜1的)：

注意：上榜時長為null表示該條資料當前還在熱榜中，

我們還可以通過_搜索上過榜前9的資料：

最后根據日期我們可以搜索指定日期上榜的資料，例如搜索11月4號上過榜前9的資料：

熱榜追蹤熱榜漲粉top50

在另一個頁面http://xxmdmst.top:8000/rankfollow/則顯示今日熱榜的漲粉top50：

繼續往下劃還可以看到昨日熱榜漲粉top50：

然后可以看到歷史熱榜漲粉top50：

目前歷史漲粉榜情況不佳是因為資料庫重建后，采集程式昨天下午2點才重新啟動，再過一星期，相信大家都能看到一個完全不一樣的歷史漲粉熱榜，

最下面還有一個模塊近10天上榜次數與漲粉量top50：

不過從昨天下午兩點到現在還沒有人能連續兩次上榜，相信過兩天后，我們能夠看到上榜次數超過2次的用戶出現，

熱榜追蹤程式的開發思路

采集程式開發

相信很多小伙伴更好奇該程式如何開發，那么下面我簡單介紹一下該程式的開發思路與代碼，

思路：有一個采集程式每小時執行一次，每次執行都獲取當前熱榜和歷史熱榜進行差異比較，劃分為三類：

同時存在當前熱榜和歷史熱榜中，說明是正在熱榜的資料
不在當前熱榜均在歷史熱榜中，說明是已下榜的資料
在當前熱榜不在歷史熱榜中，說明是新上榜的資料

對于這三類資料，有不同的處理策略：

對正在熱榜的資料追加更新排名鏈路和熱度鏈路
對已下榜的資料，根據鏈接逐條采集當前粉絲數，填入下榜粉絲數欄位中；同時根據當前時間更新下榜時間，
對于新上榜的資料，根據當前時間填入上榜時間，采集當前粉絲數填入上榜粉絲數欄位中，

對于新上榜的每條資料，使用文章ID作為主鍵進行存盤，

下面是以上思路的完整代碼：

from sqlalchemy import create_engine
import pandas as pd
from datetime import datetime

from check_func import pares_url
from database import databases

uri = f'mysql+pymysql://{databases["USER"]}:{databases["PASSWORD"]}@{databases["HOST"]}:{databases["PORT"]}/{databases["NAME"]}'
engine = create_engine(uri)

# 更新當前熱榜鏈條
sql = """UPDATE hot_rank_circle a,(SELECT
  distinct n.id,
  CONCAT(h.`排名鏈路`,',',n.`排名`) 排名鏈路,
  CONCAT(h.`熱度鏈路`,',',ROUND(n.熱度/10000,1)) 熱度鏈路
FROM hot_rank n JOIN hot_rank_circle h ON n.id=h.id
WHERE SUBSTRING_INDEX(h.熱度鏈路,',',-1)!=n.熱度) b 
SET a.排名鏈路=b.排名鏈路,a.熱度鏈路=b.熱度鏈路 WHERE a.id=b.id;"""
engine.execute(sql)

# 更新下榜時的粉絲數
sql = """SELECT id,鏈接 FROM hot_rank_circle
WHERE id NOT IN (SELECT DISTINCT id FROM hot_rank)
AND 下榜時間 IS NULL;"""
id2url = pd.read_sql(sql, engine)
if id2url.shape[0] != 0:
    fan_nums = []
    for url in id2url.鏈接.values:
        data = pares_url(url)
        # print(url, data)
        fan_nums.append(data.get('粉絲'))
    id2url['鏈接'] = fan_nums
    id2url.to_sql(name="tmp", con=engine, if_exists="replace", index=False)
    sql = "UPDATE hot_rank_circle, tmp SET hot_rank_circle.下榜粉絲數=tmp.鏈接 WHERE hot_rank_circle.id=tmp.id;"
    engine.execute(sql)

# 更新下榜時間
sql = """UPDATE hot_rank_circle SET 下榜時間=NOW()
WHERE id NOT IN (SELECT distinct id FROM hot_rank)
AND 下榜時間 IS NULL;"""
engine.execute(sql)

# 增加新上榜資料
sql = """SELECT distinct n.昵稱, n.標題, n.鏈接, n.排名 排名鏈路, ROUND(n.熱度/10000,1) 熱度鏈路
FROM hot_rank n
LEFT JOIN hot_rank_circle h
ON n.id=h.`id`
WHERE h.id IS NULL;"""
hot_rank = pd.read_sql(sql, engine)
idx = hot_rank.鏈接.apply(lambda s: s[s.rfind("/") + 1:]).astype("int")
hot_rank.insert(0, "id", idx)
# hot_rank.熱度鏈路 = (hot_rank.熱度鏈路 / 10000).round(1)
# date = str(datetime.now())[5:13]
hot_rank["上榜時間"] = datetime.now()
hot_rank["下榜時間"] = None
fan_nums = []
for url in hot_rank.鏈接.values:
    data = pares_url(url)
    # print(url, data)
    fan_nums.append(data.get('粉絲'))
hot_rank['上榜粉絲數'] = fan_nums
hot_rank['下榜粉絲數'] = None
hot_rank.to_sql(name="hot_rank_circle", con=engine, if_exists="append", index=False)

資料查詢頁開發

restful介面開發：

def rank_follow_search(request):
    if request.method == "POST":
        return HttpResponse("不支持的請求型別")
    args = []
    name = request.GET.get("name", "").replace("'", "").replace('"', "").replace(";", "")
    if name:
        args.append(f"昵稱 LIKE '%%{name}%%'")
    title = request.GET.get("title", "").replace("'", "").replace('"', "").replace(";", "")
    if title:
        args.append(f"標題 LIKE '%%{title}%%'")
    rank = request.GET.get("rank", "").replace("'", "").replace('"', "").replace(";", "")
    if rank:
        args.append(f"排名鏈路 LIKE '%%{rank}%%'")
    date = request.GET.get("date", "").replace("'", "").replace('"', "").replace(";", "")
    if date:
        args.append(f"上榜時間 LIKE '%%{date}%%'")
    args = " AND ".join(args)
    if not args:
        args = "1=1"
    # print(args)
    sql = f"""SELECT 昵稱,標題,鏈接,排名鏈路,熱度鏈路,
        SUBSTRING(上榜時間,6,8) 上榜時間,
        (TO_DAYS(下榜時間)-TO_DAYS(上榜時間))*24+HOUR(下榜時間)-HOUR(上榜時間) 上榜時長,
        上榜粉絲數,下榜粉絲數-上榜粉絲數 漲粉量 FROM hot_rank_circle
    WHERE {args}
    ORDER BY 上榜時間 DESC,上榜粉絲數 DESC LIMIT 20;"""
    try:
        df = pd.read_sql(sql, engine)
        df.fillna("null", inplace=True)
        return JsonResponse(df.to_dict(orient="records"), safe=False)
    except Exception as e:
        return JsonResponse({'status': -1, 'msg': str(e)})

雖然本程式完全無所謂SQL注入，但是防SQL注入還是得養成習慣，這里我就簡單粗暴的采用了去掉查詢條件中引號和分號來達到防SQL注入的目的，當然這種方法也可能一些特殊的方案防不住，期待大佬們能夠指出，

前端展示頁開發：

<!DOCTYPE html>
<html lang="zh">
<head>
    <meta charset="UTF-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>熱榜追蹤資料搜索</title>
    <link href="/static/css/bootstrap.min.css" rel="stylesheet">
    <link rel="stylesheet" type="text/css" href="/static/css/demo.css">
    <link rel="stylesheet" href="/static/dist/excel-bootstrap-table-filter-style.css"/>
    <script type="text/javascript" src="/static/js/jquery-1.11.0.min.js"></script>
    <script src="/static/js/vue.min.js"></script>
    <script type="text/javascript" src="/static/dist/excel-bootstrap-table-filter-bundle.js"></script>
</head>
<body>

<div class="container">
    <div class="row">
        <div class="col-md-12">
            <h4>作者主頁：<a href='https://xxmdmst.blog.csdn.net/' target="_blank">@小小明-代碼物體</a></h4>
            <h2>歷史熱榜追蹤資料搜索</h2>
            <h4>（最大只顯示最近上榜的前20條資料，可以通過下面鏈接查看當前熱榜）</h4>
            <h4>資料來源：<a href="/hotrank/all/" target="_blank">全站綜合熱榜（含熱榜標題詞云）</a></h4>
            <h4>今日熱榜追蹤：<a href="/rankfollow/" target="_blank">今日熱榜追蹤</a></h4>
            <div id="in">
                <p>昵稱：<input id="name">標題：<input id="title"></p>
                <p>排名：<input id="rank">時間：<input id="date"></p>
            </div>
            <p>
                <button id="run">搜索</button>
            </p>
        </div>
    </div>
    <table id="table1" class="table table-bordered table-intel">
        <thead>
        <tr>
            <th class="no-filter">昵稱</th>
            <th class="no-sort no-filter">標題</th>
            <th class="no-sort no-filter">排名鏈路</th>
            <th class="no-sort no-filter">熱度鏈路</th>
            <th class="no-filter">上榜時間</th>
            <th class="no-filter">上榜時長</th>
            <th class="no-filter">上榜粉絲數</th>
            <th class="no-filter">漲粉量</th>
        </tr>
        </thead>
        <tbody>
        <tr v-for="row in rows">
            <td>{{ row.昵稱 }}</td>
            <td><a href='{{ row.鏈接 }}' target="_blank">{{ row.標題 }}</a></td>
            <td>{{ row.排名鏈路 }}</td>
            <td>{{ row.熱度鏈路 }}</td>
            <td>{{ row.上榜時間 }}</td>
            <td>{{ row.上榜時長 }}</td>
            <td>{{ row.上榜粉絲數 }}</td>
            <td>{{ row.漲粉量 }}</td>
        </tr>
        </tbody>
    </table>
</div>


<script type="text/javascript">
    $(function () {
        $('#table1').excelTableFilter({
            'captions': {a_to_z: '升序排列', z_to_a: '降序排列', search: '搜索', select_all: '全部選擇'}
        });
    });
    $(function () {
        var vm = new Vue({
            el: '#table1',
            data: {
                rows: []
            }
        });
        window.vm = vm;
        $.get("/api/rank_follow_search/", function (data) {
            vm.rows = data;
        });
    });

    let func = function () {
        let name = $('#name').val();
        let title = $('#title').val();
        let rank = $('#rank').val();
        let date = $('#date').val();
        var url = `/api/rank_follow_search/?name=${name}&title=${title}&rank=${rank}&date=${date}`;
        console.log(url)
        $.get(url, function (data) {
            vm.rows = data;
        });
    };
    $("#in").keypress(function (even) {
        if (even.which == 13) {
            func()
        }
    });
    $('#run').click(func);
</script>
</body>
</html>

這里我使用了vue進行資料系結，這樣就可以大幅度簡化代碼，原本幾十行JavaScript代碼才是實作的動態資料修改變成了vm.rows = data;這一行，而且HTML部分的代碼也變得和后端模板渲染的代碼類似，非常方便，

排名頁面開發

排名頁面的寫法比較簡單粗暴，直接模板渲染，后端視圖代碼：

def rank_follow(request):
    context = {}
    context["date"] = str(date.today())
    # 今日漲粉top50
    sql = """SELECT 昵稱,LEFT(標題,40) `標題(最大展示前40字)`,鏈接,排名鏈路,熱度鏈路,
    SUBSTRING(上榜時間,6,8) 上榜時間,
    (TO_DAYS(下榜時間)-TO_DAYS(上榜時間))*24+HOUR(下榜時間)-HOUR(上榜時間) 上榜時長,
    上榜粉絲數,下榜粉絲數-上榜粉絲數 漲粉量 FROM hot_rank_circle
    WHERE TO_DAYS(上榜時間)=TO_DAYS(CURDATE()) AND 下榜時間 IS NOT NULL
    ORDER BY 漲粉量 DESC
    LIMIT 50;"""
    df = pd.read_sql(sql, engine)
    context["today"] = df.values.tolist()
    # 昨日漲粉top50
	...
    # 歷史漲粉榜top50
	...
    # 近7天上榜次數與漲粉量top50(過濾掉上榜時間低于2小時的資料)
    sql = """SELECT 昵稱,COUNT(標題) `上榜次數`,GROUP_CONCAT(SUBSTRING(上榜時間,6,8)) 上榜時間匯總,
    GROUP_CONCAT((TO_DAYS(下榜時間)-TO_DAYS(上榜時間))*24+HOUR(下榜時間)-HOUR(上榜時間)) 上榜小時數匯總,
    MAX(下榜粉絲數)-MIN(上榜粉絲數) 漲粉量
     FROM hot_rank_circle
    WHERE (TO_DAYS(下榜時間)-TO_DAYS(上榜時間))*24+HOUR(下榜時間)-HOUR(上榜時間)>2
    AND TO_DAYS(上榜時間)>=TO_DAYS(DATE_SUB(CURDATE(), INTERVAL 9 DAY)) AND 下榜時間 IS NOT NULL
    GROUP BY 昵稱
    HAVING COUNT(標題)>1
    ORDER BY 上榜次數 DESC,漲粉量 DESC
    LIMIT 50;"""
    df = pd.read_sql(sql, engine)
    context["recent"] = df.values.tolist()
    return render(request, 'rank_follow.html', context)

四個SQL獲取了四個部分的資料，然后模塊渲染代碼大致都是如下格式：

<table id="table1" class="table table-bordered table-intel">
    <thead>
    <tr>
        <th class="no-filter">昵稱</th>
        <th class="no-sort no-filter">標題(最大展示前40字)</th>
        <th class="no-sort no-filter">排名鏈路</th>
        <th class="no-sort no-filter">熱度鏈路</th>
        <th class="no-filter">上榜時間</th>
        <th class="no-filter">上榜時長</th>
        <th class="no-filter">上榜粉絲數</th>
        <th class="no-filter">漲粉量</th>
    </tr>
    </thead>
    <tbody>
    {% for obj in today %}
    <tr>
        <td>{{ obj.0 }}</td>
        <td><a href='{{ obj.2 }}' target="_blank">{{ obj.1 }}</a></td>
        <td>{{ obj.3 }}</td>
        <td>{{ obj.4 }}</td>
        <td>{{ obj.5 }}</td>
        <td>{{ obj.6 }}</td>
        <td>{{ obj.7 }}</td>
        <td>{{ obj.8 }}</td>
    </tr>
    {% endfor %}
    </tbody>
</table>

這就是上面程式的完整開發思路和代碼，

轉載請註明出處，本文鏈接：https://www.uj5u.com/ruanti/351034.html

標籤：其他

上一篇：Typora,世界上最漂亮的寫作App

下一篇：設計模式（二）————觀察者模式