主頁 > 資料庫 > 自制爬蟲框架

自制爬蟲框架

2020-10-20 12:19:35 資料庫

自制python爬蟲程式模板(爬蟲小白亦可用)

        • 1.mysql資料庫鏈接
        • 2. 頁面請求程序
        • 3. 資料提取處理
        • 4. 資料保存處理,

??在平時揮手大干專案的程序中,時不時會有一些小的爬蟲任務需要處理,因此專門寫了一個爬蟲框架,基本覆寫平常用到的網站,覺得使用效果不錯,分享出來給大家使用,也請各路大神走過路過提些好的意見,
??接下來為大家簡單介紹一下每個模塊實作程序及思路,本文結束后處會附全部代碼,前面代碼只是便于大家理解,無需挨個粘貼,

1.mysql資料庫鏈接

??本程式使用mysql資料庫讀取和保存資料,為了作業程序中的安全和方便,我們通過另外一個程式將資料庫鏈接賬號密碼等資料,保存中windows注冊表中,可通過 win+regedit 調出查看,(此塊僅適用于windows系統,若需在linux上使用,則不使用此模塊鏈接資料庫),本模塊中資料庫鏈接方式見代碼:

    def read_setttings_zhuce(self, file, winn_c_u=winreg.HKEY_CURRENT_USER):
        """
            讀取注冊表中的設定
        """
        parentkey = winreg.OpenKey(winn_c_u, file)
        # 獲取該鍵的所有鍵值,因為沒有方法可以獲取鍵值的個數,所以只能用這種方法進行遍歷
        item = dict()
        try:
            i = 0
            while True:
                # EnumValue方法用來列舉鍵值,EnumKey用來列舉子鍵
                name, value, type = winreg.EnumValue(parentkey, i)
                item[name] = value
                i += 1
        except Exception as e:
            pass
        return item
    
    def __init__(self, start_p):
        # 注意,super().__init__() 一定要寫
        # 而且要寫在最前面,否則會報錯,
        super().__init__()
        self.item_fwq = self.read_setttings_zhuce("Software\lxl\lxl_program")
        # 鏈接資料庫
        self.conn = pymysql.connect(
            user=self.item_fwq["user"], password=self.item_fwq["password"], host=self.item_fwq["host"], port=int(self.item_fwq["port"]),
            database=self.item_fwq["database"], use_unicode=True,
            charset="utf8")
        self.start_p = start_p
        print("資料庫開啟中......")
        # 獲取游標
        self.cursor = self.conn.cursor()

2. 頁面請求程序

??此處說明一下,整個模塊是通過dict來傳遞資料的,因此在使用程序中,可以隨時隨地添加我們需要傳遞的引數,我們平常用到的頁面一般是get或post請求方式,get方式通過修改傳遞的url鏈接即可請求獲取資料,post方式通過data引數傳遞獲取資料,因此將兩種方式分開處理,同時將請求回來的資料做deocde解碼處理,一般遇到的有utf8或者GBK的,我寫了兩種,如果你們使用程序中出現其他的解碼,添加上去即可,此處代碼比較low我就不貼在此處了,各位結尾處直接復制即可,(我貼幾行重點吧,否則好像顯得此處特殊),

        item_fwq_ip = read_setttings_zhuce("Software\lxl\lxl_program")
        # 讀取實時寫入windows注冊表中的ip代理  本人喜歡使用無憂代理 不是打廣告,而是品質確實好
        proxies = {"http": "%s" % item_fwq_ip["ip"], "https": "%s" % item_fwq_ip["ip"]}
        headers = {
             "user-agent": item_fwq_ip['user_agent']
        }
        try:
            response = requests.get(url=url, headers=headers, timeout=20).content
            if response:
                return response
        except Exception as f:
            print("重新請求")
        try:
            response = requests.post(url=url, headers=headers, data=data,timeout=20).content
            if response:
                return response
        except Exception as f:
            print("重新請求")

3. 資料提取處理

??頁面請求成功之后,會回傳三種格式,一種是html格式,一種是json格式,還有一種是我請求不到資料回傳的無資料結果(未針對此處如何處理,若有需要,自行處理),針對html格式我們使用xpath決議資料(本來想著能不能通過代碼去自動處理xpath,太忙沒時間,以后補上吧);針對json格式,就簡單許多了,直接對應讀取出來即可,兩種格式處理之后,將資料以dict格式傳遞至資料保存處理中即可 見代碼:

    def response_json(self, response, meta={}):
        """
            json 格式決議
        """
        list_data = response['result']['data']
        for ds in list_data:
            item = dict()
            """
                此處可以對資料進行處理,若不需特殊處理的 則直接合并到item字典中,保存入資料庫
                列: item["pid] = ds['id']
            """
            item = {**item, **meta}
            where_list = ["pid"]  # 此處添加mysql保存判斷條件中查詢的欄位 可寫多個欄位
            table_name = 'your_databases_tablename'  # 此處添加你需要保存的資料表名稱 注: 若沒有新建資料表, 代碼可自動建立新的資料表
            self.mysql_f_item(item, table_name=table_name, where_list=where_list)
    
    def response_html(self, response, meta={}):
        """
            html 格式決議
        """
        list_response = response.xpath('//div[@class="name"]')
        for resp in list_response:
            item = dict()
            """
                此處可以對資料進行xpath決議處理,保存入資料庫
                列: item["pid] = resp.xpath('./a/@href')[0]
            """
            print(item)
            item = {**item, **meta}
            where_list = ["pid"]  # 此處添加mysql保存判斷條件中查詢的欄位 可寫多個欄位
            table_name = "your_databases_tablename" # 此處添加你需要保存的資料表名稱 注: 若沒有新建資料表, 代碼可自動建立新的資料表
            self.mysql_f_item(item, table_name, where_list=where_list)

4. 資料保存處理,

??資料庫選用mysql保存,在此模塊中,我加入了自動創建表和自動拼接sql的功能,傳入一個資料表名稱,若存在則進行下一步處理,不存在會進行資料表創建,此時dict中的欄位名稱就起到了一定的作用,我通過欄位中所帶的值,作為創建欄位的型別(此處也可自行添加);同時資料保存程序中,有時會需要做判重,通過在指定串列 where_list 中添加欄位即可(默認為空,不判重,其他的沒什么了都是一些常規操作了,見代碼:

        sql = "insert into %s(" % table_name
        for item in lst:
            sql = sql + "`%s`," % item
        sql = sql.strip(',') + ") values ("
        if list_flag is False:
            for item in lst:
                sql = sql + "'{%s}'," % item
        else:
            for i in range(len(lst)):
                sql = sql + "'{0[%s]}'," % i
        sql = sql.strip(',') + ")"
        return sql

                sql_begin = """CREATE TABLE `%s` (  `id` int(11) NOT NULL AUTO_INCREMENT,""" % table_name
        sql_end = """ PRIMARY KEY (`id`)
                    ) ENGINE=%s AUTO_INCREMENT=0 DEFAULT CHARSET=%s;""" % (engine, charset)
        sql_temp = " `%s` varchar(256) DEFAULT NULL,"
        sql_temp_time = "`%s` datetime DEFAULT NULL,"
        sql_temp_content = "`%s` text,"
        sql_temp_sgin = "`%s` enum('0','1') DEFAULT '0',"
        sql = str()
        for item in lst:
            # 生成新的資料表時 可根據item中的欄位名稱 來決定資料庫中欄位的型別
            if "time" in item:
                sql += sql_temp_time % item
            elif "content" in item:
                sql += sql_temp_content % item
            elif "sgin" in item:
                sql += sql_temp_sgin % item
            else:
                sql += sql_temp % (item)

        sql = sql_begin + sql + sql_end
        return sql

??好了,這次就寫到這里吧,如果之后對這個模塊做大的更新或調整再說吧, 如果對以上代碼有不懂之處,可以發送至郵件 xiang_long_liu@163.com,大家共同探討吧,
結尾處付全部代碼:

import requests, winreg, pymysql, re, json
from lxml import etree
from threading import Thread
import settings  # 將服務器資料庫等鏈接方式寫入windows注冊表中,然后再在該程式中讀取出來


def read_setttings_zhuce(file, winn_c_u=winreg.HKEY_CURRENT_USER):
    """
        讀取注冊表中的設定
    """
    parentkey = winreg.OpenKey(winn_c_u, file)
    # 獲取該鍵的所有鍵值,因為沒有方法可以獲取鍵值的個數,所以只能用這種方法進行遍歷
    item = dict()
    try:
        i = 0
        while True:
            # EnumValue方法用來列舉鍵值,EnumKey用來列舉子鍵
            name, value, type = winreg.EnumValue(parentkey, i)
            # print(name, value)
            item[name] = value
            i += 1
    except Exception as e:
        pass
    return item


class ALi_Main(Thread):

    def read_setttings_zhuce(self, file, winn_c_u=winreg.HKEY_CURRENT_USER):
        """
            讀取注冊表中的設定
        """
        parentkey = winreg.OpenKey(winn_c_u, file)
        # 獲取該鍵的所有鍵值,因為沒有方法可以獲取鍵值的個數,所以只能用這種方法進行遍歷
        item = dict()
        try:
            i = 0
            while True:
                # EnumValue方法用來列舉鍵值,EnumKey用來列舉子鍵
                name, value, type = winreg.EnumValue(parentkey, i)
                item[name] = value
                i += 1
        except Exception as e:
            pass
        return item

    def __init__(self, start_p):
        # 注意,super().__init__() 一定要寫
        # 而且要寫在最前面,否則會報錯,
        super().__init__()
        self.item_fwq = self.read_setttings_zhuce("Software\lxl\lxl_program")
        # 鏈接資料庫
        self.conn = pymysql.connect(
            user=self.item_fwq["user"], password=self.item_fwq["password"], host=self.item_fwq["host"], port=int(self.item_fwq["port"]),
            database=self.item_fwq["database"], use_unicode=True,
            charset="utf8")
        self.start_p = start_p
        print("資料庫開啟中......")
        # 獲取游標
        self.cursor = self.conn.cursor()

    def main(self, url="https://www.baidu.com/", formdata={}, meta={}):
        """
            開關
        """
        response = self.url_f_requests(url, formdata)
        if response != "無結果":
            # 對回傳的結果解碼
            response = self.response_decode(response)
            print(response)
            response, fangshi = self.t_f_response_json_html(response)
            if fangshi is "json":
                self.response_json(response, meta)
            elif fangshi is "html":
                self.response_html(response, meta)
            else:
                print(fangshi)
                print("回傳的頁面資料有誤請檢查")
        else:
            print("資料無結果,未獲取到")
            
    def url_f_requests(self, url, formdata):
        """
            get / post 請求發送
        """
        if formdata == {}:
            response = self.requests_url(url)
            print("{INFO}:url以 get 方式請求")
            # print(response)
        else:
            response = self.requests_url_post(url, formdata)
            print("{INFO}:url以 post 方式請求")
            # print(response)
        return response
            
    def t_f_response_json_html(self, response):
        """
            判斷回傳的結果
        """
        try:
            response = json.loads(response)
            print("{INFO}:資料以json格式回傳")
            return response, "json"
        except Exception as f:
            try:
                response = etree.HTML(response)
                print("{INFO}:資料以html格式回傳")
                return response, "html"
            except Exception as f:
                response = response
                return response, "None"
        
    def response_decode(self, response):
        """
            對回傳的結果解碼
        """
        try:
            response = response.decode()
            print("{INFO}:資料以utf-8解碼")
        except Exception as f:
            try:
                response = response.decode("GBK")
                print("{INFO}:資料以 GBK 解碼")
            except Exception as f:
                print("{INFO}:資料以未指定解碼方式回傳")
                response = response
        return response
        
    def response_json(self, response, meta={}):
        """
            json 格式決議
        """
        list_data = response['result']['data']
        for ds in list_data:
            item = dict()
            """
                此處可以對資料進行處理,若不需特殊處理的 則直接合并到item字典中,保存入資料庫
                列: item["pid] = ds['id']
            """
            item = {**item, **meta}
            where_list = ["pid"]  # 此處添加mysql保存判斷條件中查詢的欄位 可寫多個欄位
            table_name = 'your_databases_tablename'  # 此處添加你需要保存的資料表名稱 注: 若沒有新建資料表, 代碼可自動建立新的資料表
            self.mysql_f_item(item, table_name=table_name, where_list=where_list)
    
    def response_html(self, response, meta={}):
        """
            html 格式決議
        """
        list_response = response.xpath('//div[@class="name"]')
        for resp in list_response:
            item = dict()
            """
                此處可以對資料進行xpath決議處理,保存入資料庫
                列: item["pid] = resp.xpath('./a/@href')[0]
            """
            print(item)
            item = {**item, **meta}
            where_list = ["pid"]  # 此處添加mysql保存判斷條件中查詢的欄位 可寫多個欄位
            table_name = "your_databases_tablename" # 此處添加你需要保存的資料表名稱 注: 若沒有新建資料表, 代碼可自動建立新的資料表
            self.mysql_f_item(item, table_name, where_list=where_list)
        
    def mysql_f_item(self, item, table_name="new_table_name", where_list=[]):
        """
            保存創建mysql資料庫
        """
        lst = item.keys()
        # print(lst)
        insert_sql = self.create_insert_sql_for_list(table_name=table_name, lst=lst)
        insert_sql = insert_sql.format(**item)
        # print(insert_sql)
        select_sql = self.create_select_sql(table_name=table_name, where_list=where_list)
        select_sql = select_sql.format(**item)
        # print(select_sql)
        self.insert_mysql(insert_sql=insert_sql, select_sql=select_sql, table_name=table_name, lst=lst)
        print("--------------------------------")

    def create_insert_sql_for_list(self, table_name, lst, list_flag=False):
        """
        動態生成sql文(單條)
        :param table_name:表名
        :param lst:插入的資料串列
        :param list_flag: true:代表lst欄位是 list嵌套list,   false:代表list嵌套dict
        :return:回傳單條插入的sql
        """
        sql = "insert into %s(" % table_name
        for item in lst:
            sql = sql + "`%s`," % item
        sql = sql.strip(',') + ") values ("
        if list_flag is False:
            for item in lst:
                sql = sql + "'{%s}'," % item
        else:
            for i in range(len(lst)):
                sql = sql + "'{0[%s]}'," % i
        sql = sql.strip(',') + ")"
        return sql

    def create_select_sql(self, table_name, where_list):
        """
            動態生成sql文
        """
        if where_list == []:
            return ""
        else:
            sql = 'select id from %s where' % table_name
            for i in range(len(where_list)):
                sql = sql + " `%s` = '{%s}' and " % (where_list[i], where_list[i])
            sql = sql.strip('and ')
            # print(sql)
            return sql

    def create_table(self, table_name, lst, engine='MyISAM', charset='utf8'):
        """
        生成建表sql
        :param table_name:表名
        :param lst:欄位串列
        :param engine:資料庫型別
        :param charset:字符集
        :return:sql
        """
        sql_begin = """CREATE TABLE `%s` (  `id` int(11) NOT NULL AUTO_INCREMENT,""" % table_name
        sql_end = """ PRIMARY KEY (`id`)
                    ) ENGINE=%s AUTO_INCREMENT=0 DEFAULT CHARSET=%s;""" % (engine, charset)
        sql_temp = " `%s` varchar(256) DEFAULT NULL,"
        sql_temp_time = "`%s` datetime DEFAULT NULL,"
        sql_temp_content = "`%s` text,"
        sql_temp_sgin = "`%s` enum('0','1') DEFAULT '0',"
        sql = str()
        for item in lst:
            # 生成新的資料表時 可根據item中的欄位名稱 來決定資料庫中欄位的型別
            if "time" in item:
                sql += sql_temp_time % item
            elif "content" in item:
                sql += sql_temp_content % item
            elif "sgin" in item:
                sql += sql_temp_sgin % item
            else:
                sql += sql_temp % (item)

        sql = sql_begin + sql + sql_end
        return sql

    def insert_mysql(self, insert_sql, select_sql='', update_sql='', table_name='', lst=()):
        """
            保存資料
        """
        while True:
            # 獲取游標
            self.conn.ping(reconnect=True)
            if select_sql:
                try:
                    self.cursor.execute(select_sql)
                    if self.cursor.fetchone() is None:
                        print(insert_sql)
                        try:
                            self.cursor.execute(insert_sql)
                            self.conn.commit()
                            print("資料保存中......")
                            if update_sql:
                                self.cursor.execute(update_sql)
                                self.conn.commit()
                                print("資料更新中......")
                            break
                        except Exception as f:
                            # print(insert_sql)
                            print(f)
                            print("資料保存失敗")
                            break
                    else:
                        print("資料已存在")
                    break
                except Exception as f:
                    print(f)
                    # 首次執行 創建一個新的資料表
                    if "Table" in str(f) and "doesn't exist" in str(f):
                        print("*" * 100)
                        print("創建資料庫中......")
                        sql = self.create_table(table_name=table_name, lst=lst)
                        self.cursor.execute(sql)
                        self.conn.commit()
                    else:
                        break
            else:
                try:
                    print(insert_sql)
                    print("資料保存中......")
                    self.cursor.execute(insert_sql)
                    self.conn.commit()
                    break
                except Exception as f:
                    print(f)
                    # 首次執行 創建一個新的資料表
                    if "Table" in str(f) and "doesn't exist" in str(f):
                        print("*" * 100)
                        print("創建資料庫中......")
                        sql = self.create_table(table_name=table_name, lst=lst)
                        self.cursor.execute(sql)
                        self.conn.commit()
                    else:
                        print("保存失敗")
                        break

    def getDropStr(self, l_strHtml):
        """清洗字串"""
        strList = re.findall(
            r'[\u4e00-\u9fa5a-zA-Z0-9,.;?!_\]\'\"\[{}+-\u2014\u2026\uff1b\u3002\uff1b\uff0c\uff1a\u201c\u201d\uff08\uff09\u3001\uff1f\u300a\u300b]',
            l_strHtml)
        return "".join(strList)

    def requests_url(self, url, data=None):
        """
            發送請求,回傳相應
        """
        item_fwq_ip = read_setttings_zhuce("Software\lxl\lxl_program")
        # 讀取實時寫入windows注冊表中的ip代理  本人喜歡使用無憂代理 不是打廣告,而是品質確實好
        proxies = {"http": "%s" % item_fwq_ip["ip"], "https": "%s" % item_fwq_ip["ip"]}
        headers = {
             "user-agent": item_fwq_ip['user_agent']
        }
        try:
            response = requests.get(url=url, headers=headers, timeout=20).content
            if response:
                return response
        except Exception as f:
            print("重新請求")
            i = 0
            while True:
                i += 1
                if i >= 5:
                    return "無結果"
                try:
                    response = requests.get(url=url, headers=headers, proxies=proxies, timeout=20).content
                    if response:
                        return response
                except Exception as f:
                    print("重新請求")
        
    def requests_url_post(self, url, data):
        """
            發送請求,回傳相應
        """
        item_fwq_ip = read_setttings_zhuce("Software\lxl\lxl_program")
        # 讀取實時寫入windows注冊表中的ip代理  本人喜歡使用無憂代理 不是打廣告,而是品質確實好
        proxies = {"http": "%s" % item_fwq_ip["ip"], "https": "%s" % item_fwq_ip["ip"]}
        headers = {
            "user-agent": item_fwq_ip['user_agent']
        }
        try:
            response = requests.post(url=url, headers=headers, data=data,timeout=20).content
            if response:
                return response
        except Exception as f:
            print("重新請求")
            i = 0
            while True:
                i += 1
                if i >= 5:
                    return "無結果"
                try:

                    response = requests.post(url=url, headers=headers, data=data, proxies=proxies, timeout=20).content
                    if response:
                        return response
                except Exception as f:
                    print("重新請求")
    
    def __del__(self):
        self.cursor.close()
        self.conn.close()
        print("資料庫關閉中......")


def main_thread(number_p):
    """
        多執行緒啟動
        若使用多執行緒爬取是 將 main 函式改為 run 函式 傳遞引數控制url使用個數從而決定多執行緒條數
    """
    print("多執行緒啟動程式")
    list_thread = list()
    for p in range(0, number_p+1000, 1000):
        thread = ALi_Main(p)
        list_thread.append(thread)
    
    for threads in list_thread:
        threads.start()
    
    for threads in list_thread:
        threads.join()


if __name__ == '__main__':
    # 初始化
    # settings.main()
    
    alm = ALi_Main(0)

    meta = dict()
    meta["key_name"] = "傳值"
    url = "https://search.sina.com.cn/?range=title&q=" + str(meta["key_name"]) + "&c=news&time=&ie=utf-8&col=&source=&from=&country=&size=&a=&page=1&pf=0&ps=0&dpc=1"
    print(url)
    alm.main(url=url, meta=meta)

轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/182030.html

標籤:其他

上一篇:Python零基礎入門學習筆記

下一篇:在CentOS7上安裝 MariaDB Galera Cluster 多主集群

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • GPU虛擬機創建時間深度優化

    **?桔妹導讀:**GPU虛擬機實體創建速度慢是公有云面臨的普遍問題,由于通常情況下創建虛擬機屬于低頻操作而未引起業界的重視,實際生產中還是存在對GPU實體創建時間有苛刻要求的業務場景。本文將介紹滴滴云在解決該問題時的思路、方法、并展示最終的優化成果。 從公有云服務商那里購買過虛擬主機的資深用戶,一 ......

    uj5u.com 2020-09-10 06:09:13 more
  • 可編程網卡芯片在滴滴云網路的應用實踐

    **?桔妹導讀:**隨著云規模不斷擴大以及業務層面對延遲、帶寬的要求越來越高,采用DPDK 加速網路報文處理的方式在橫向縱向擴展都出現了局限性。可編程芯片成為業界熱點。本文主要講述了可編程網卡芯片在滴滴云網路中的應用實踐,遇到的問題、帶來的收益以及開源社區貢獻。 #1. 資料中心面臨的問題 隨著滴滴 ......

    uj5u.com 2020-09-10 06:10:21 more
  • 滴滴資料通道服務演進之路

    **?桔妹導讀:**滴滴資料通道引擎承載著全公司的資料同步,為下游實時和離線場景提供了必不可少的源資料。隨著任務量的不斷增加,資料通道的整體架構也隨之發生改變。本文介紹了滴滴資料通道的發展歷程,遇到的問題以及今后的規劃。 #1. 背景 資料,對于任何一家互聯網公司來說都是非常重要的資產,公司的大資料 ......

    uj5u.com 2020-09-10 06:11:05 more
  • 滴滴AI Labs斬獲國際機器翻譯大賽中譯英方向世界第三

    **桔妹導讀:**深耕人工智能領域,致力于探索AI讓出行更美好的滴滴AI Labs再次斬獲國際大獎,這次獲獎的專案是什么呢?一起來看看詳細報道吧! 近日,由國際計算語言學協會ACL(The Association for Computational Linguistics)舉辦的世界最具影響力的機器 ......

    uj5u.com 2020-09-10 06:11:29 more
  • MPP (Massively Parallel Processing)大規模并行處理

    1、什么是mpp? MPP (Massively Parallel Processing),即大規模并行處理,在資料庫非共享集群中,每個節點都有獨立的磁盤存盤系統和記憶體系統,業務資料根據資料庫模型和應用特點劃分到各個節點上,每臺資料節點通過專用網路或者商業通用網路互相連接,彼此協同計算,作為整體提供 ......

    uj5u.com 2020-09-10 06:11:41 more
  • 滴滴資料倉庫指標體系建設實踐

    **桔妹導讀:**指標體系是什么?如何使用OSM模型和AARRR模型搭建指標體系?如何統一流程、規范化、工具化管理指標體系?本文會對建設的方法論結合滴滴資料指標體系建設實踐進行解答分析。 #1. 什么是指標體系 ##1.1 指標體系定義 指標體系是將零散單點的具有相互聯系的指標,系統化的組織起來,通 ......

    uj5u.com 2020-09-10 06:12:52 more
  • 單表千萬行資料庫 LIKE 搜索優化手記

    我們經常在資料庫中使用 LIKE 運算子來完成對資料的模糊搜索,LIKE 運算子用于在 WHERE 子句中搜索列中的指定模式。 如果需要查找客戶表中所有姓氏是“張”的資料,可以使用下面的 SQL 陳述句: SELECT * FROM Customer WHERE Name LIKE '張%' 如果需要 ......

    uj5u.com 2020-09-10 06:13:25 more
  • 滴滴Ceph分布式存盤系統優化之鎖優化

    **桔妹導讀:**Ceph是國際知名的開源分布式存盤系統,在工業界和學術界都有著重要的影響。Ceph的架構和演算法設計發表在國際系統領域頂級會議OSDI、SOSP、SC等上。Ceph社區得到Red Hat、SUSE、Intel等大公司的大力支持。Ceph是國際云計算領域應用最廣泛的開源分布式存盤系統, ......

    uj5u.com 2020-09-10 06:14:51 more
  • es~通過ElasticsearchTemplate進行聚合~嵌套聚合

    之前寫過《es~通過ElasticsearchTemplate進行聚合操作》的文章,這一次主要寫一個嵌套的聚合,例如先對sex集合,再對desc聚合,最后再對age求和,共三層嵌套。 Aggregations的部分特性類似于SQL語言中的group by,avg,sum等函式,Aggregation ......

    uj5u.com 2020-09-10 06:14:59 more
  • 爬蟲日志監控 -- Elastc Stack(ELK)部署

    傻瓜式部署,只需替換IP與用戶 導讀: 現ELK四大組件分別為:Elasticsearch(核心)、logstash(處理)、filebeat(采集)、kibana(可視化) 下載均在https://www.elastic.co/cn/downloads/下tar包,各組件版本最好一致,配合fdm會 ......

    uj5u.com 2020-09-10 06:15:05 more
最新发布
  • day02-2-商鋪查詢快取

    功能02-商鋪查詢快取 3.商鋪詳情快取查詢 3.1什么是快取? 快取就是資料交換的緩沖區(稱作Cache),是存盤資料的臨時地方,一般讀寫性能較高。 快取的作用: 降低后端負載 提高讀寫效率,降低回應時間 快取的成本: 資料一致性成本 代碼維護成本 運維成本 3.2需求說明 如下,當我們點擊商店詳 ......

    uj5u.com 2023-04-20 08:33:24 more
  • MySQL中binlog備份腳本分享

    關于MySQL的二進制日志(binlog),我們都知道二進制日志(binlog)非常重要,尤其當你需要point to point災難恢復的時侯,所以我們要對其進行備份。關于二進制日志(binlog)的備份,可以基于flush logs方式先切換binlog,然后拷貝&壓縮到到遠程服務器或本地服務器 ......

    uj5u.com 2023-04-20 08:28:06 more
  • day02-短信登錄

    功能實作02 2.功能01-短信登錄 2.1基于Session實作登錄 2.1.1思路分析 2.1.2代碼實作 2.1.2.1發送短信驗證碼 發送短信驗證碼: 發送驗證碼的介面為:http://127.0.0.1:8080/api/user/code?phone=xxxxx<手機號> 請求方式:PO ......

    uj5u.com 2023-04-20 08:27:27 more
  • 快取與資料庫雙寫一致性幾種策略分析

    本文將對幾種快取與資料庫保證資料一致性的使用方式進行分析。為保證高并發性能,以下分析場景不考慮執行的原子性及加鎖等強一致性要求的場景,僅追求最終一致性。 ......

    uj5u.com 2023-04-20 08:26:48 more
  • sql陳述句優化

    問題查找及措施 問題查找 需要找到具體的代碼,對其進行一對一優化,而非一直把關注點放在服務器和sql平臺 降低簡化每個事務中處理的問題,盡量不要讓一個事務拖太長的時間 例如檔案上傳時,應將檔案上傳這一步放在事務外面 微軟建議 4.啟動sql定時執行計劃 怎么啟動sqlserver代理服務-百度經驗 ......

    uj5u.com 2023-04-20 08:26:35 more
  • 云時代,MySQL到ClickHouse資料同步產品對比推薦

    ClickHouse 在執行分析查詢時的速度優勢很好的彌補了MySQL的不足,但是對于很多開發者和DBA來說,如何將MySQL穩定、高效、簡單的同步到 ClickHouse 卻很困難。本文對比了 NineData、MaterializeMySQL(ClickHouse自帶)、Bifrost 三款產品... ......

    uj5u.com 2023-04-20 08:26:29 more
  • sql陳述句優化

    問題查找及措施 問題查找 需要找到具體的代碼,對其進行一對一優化,而非一直把關注點放在服務器和sql平臺 降低簡化每個事務中處理的問題,盡量不要讓一個事務拖太長的時間 例如檔案上傳時,應將檔案上傳這一步放在事務外面 微軟建議 4.啟動sql定時執行計劃 怎么啟動sqlserver代理服務-百度經驗 ......

    uj5u.com 2023-04-20 08:25:13 more
  • Redis 報”OutOfDirectMemoryError“(堆外記憶體溢位)

    Redis 報錯“OutOfDirectMemoryError(堆外記憶體溢位) ”問題如下: 一、報錯資訊: 使用 Redis 的業務介面 ,產生 OutOfDirectMemoryError(堆外記憶體溢位),如圖: 格式化后的報錯資訊: { "timestamp": "2023-04-17 22: ......

    uj5u.com 2023-04-20 08:24:54 more
  • day02-2-商鋪查詢快取

    功能02-商鋪查詢快取 3.商鋪詳情快取查詢 3.1什么是快取? 快取就是資料交換的緩沖區(稱作Cache),是存盤資料的臨時地方,一般讀寫性能較高。 快取的作用: 降低后端負載 提高讀寫效率,降低回應時間 快取的成本: 資料一致性成本 代碼維護成本 運維成本 3.2需求說明 如下,當我們點擊商店詳 ......

    uj5u.com 2023-04-20 08:24:03 more
  • day02-短信登錄

    功能實作02 2.功能01-短信登錄 2.1基于Session實作登錄 2.1.1思路分析 2.1.2代碼實作 2.1.2.1發送短信驗證碼 發送短信驗證碼: 發送驗證碼的介面為:http://127.0.0.1:8080/api/user/code?phone=xxxxx<手機號> 請求方式:PO ......

    uj5u.com 2023-04-20 08:23:11 more