主頁 > 資料庫 > 機器學習之樸素貝葉斯演算法原理+Python實作

機器學習之樸素貝葉斯演算法原理+Python實作

2020-11-11 18:36:50 資料庫

樸素貝葉斯

1.簡介

? 貝葉斯分類演算法是統計學中的一種概率分類方法,樸素貝葉斯分類是貝葉斯分類中最簡單的一種,其分類原理就是利用貝葉斯公式根據某特征的先驗概率計算出其后驗概率,然后選擇具有最大后驗概率作為該特征所屬的類,

? 之所以稱之為“樸素”,是因為貝葉斯分類只做最原始、最簡單的假設:所有的特征之間是相對獨立的,

2.數學基礎

2.1相對獨立

? 假設X有x1,x2,…xn個特征,P(x) = P(x1)P(x2)…P(xn)

2.2條件概率

假設有A,B兩個事件,在B事件發生的條件下,A事件發生的概率,

P ( A ∣ B ) = P ( A B ) P ( A ) P(A|B)=\frac{P(AB)}{P(A)} P(AB)=P(A)P(AB)?

2.3全概率公式(從原因到結果)

考察在每一種情況下事件A發生的概率,計算A的概率,

P ( B ) = ∑ i = 1 n P ( A i ) P ( B ∣ A i ) P(B)=\sum_{i=1}^{n} P(A_{i} )P(B|A_{i} ) P(B)=i=1n?P(Ai?)P(BAi?)
公式表示若事件A1,A2,…,An構成一個完備事件組且都有正概率,則對任意一個事件B都有公式成立,

2.4貝葉斯公式(從結果到原因)

在事件A發生的條件下,考察每種情況出現的條件概率

P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ∣ A ) P ( A ) + P ( B ∣ A ′ P ( A ′ ) ) P(A|B)=\frac{P(B|A)P(A)}{P(B|A)P(A)+P(B|A^{'} P(A^{'} ))} P(AB)=P(BA)P(A)+P(BAP(A))P(BA)P(A)?
其中樣本空間由A和A’組成,

3.演算法原理

3.1樸素貝葉斯公式推導

由條件概率公式:
P ( B ∣ A ) = P ( A B ) P ( A ) P(B|A)=\frac{P(AB)}{P(A)} P(BA)=P(A)P(AB)?
可以推匯出:
P ( A B ) = P ( B ∣ A ) P ( A ) P(AB)=P(B|A)P(A) P(AB)=P(BA)P(A)
同理可得:
P ( A B ) = P ( A ∣ B ) P ( B ) P(AB)=P(A|B)P(B) P(AB)=P(AB)P(B)
由于(5)和(6)相等:
P ( B ∣ A ) P ( A ) = P ( A ∣ B ) P ( B ) P(B|A)P(A)=P(A|B)P(B) P(BA)P(A)=P(AB)P(B)
可以推出貝葉斯公式:
P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B)=\frac{P(B|A)P(A)}{P(B)} P(AB)=P(B)P(BA)P(A)?

3.2公式分析

P(A):為先驗概率,即在B事件發生之前,對A事件發生概率的預判,

P(A|B):為后驗概率,即在B事件發生之后,對A事件發生概率的重新評估,

P(B|A)/P(B):為可能性函式,是一個調整因子,使得預估概率更加接近真實概率,

所以貝葉斯公式可以表示為:后驗概率=先驗概率 * 調整因子

如果調整因子>1,則表示先驗概率被增強,事件A發生的可能性變大,

如果調整因子=1,則表示事件B對判斷事件A發生的概率沒有幫助,

如果調整因子<1,則表示先驗概率被削弱,事件A發生的可能性變小,

注意:用樸素貝葉斯演算法對案例進行分類時,主要是通過求分類目標的最大后驗概率來進行分類,由于在同種情況下貝葉斯公式的分母是相同的,所以在計算是可以將分母忽略,以減少計算,

y = a r g m a x P ( y ) ∏ i = 1 n P ( x i ∣ y ) y = argmaxP(y)\prod_{i=1}^{n} P(x_{i} |y) y=argmaxP(y)i=1n?P(xi?y)

4.案例(根據天氣情況預測出行)

已知某人的出行記錄和氣象記錄,來預判這個人是否會出行,

天氣溫度濕度是否出門
雨天有風出門
晴天有風出門
雨天適中無風不出門
雨天有風不出門
晴天適中無風出門
晴天有風不出門

我們來分析一下這個記錄:

由上述表格可知,類別一共有兩個:出門和不出門,特征一共有四個:天氣、溫度、濕度和風,

根據樸素貝葉斯模型:
P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B)=\frac{P(B|A)P(A)}{P(B)} P(AB)=P(B)P(BA)P(A)?
對樸素貝葉斯進行優化:
P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P(A|B)=P(B|A)P(A) P(AB)=P(BA)P(A)
將案例轉換成分類任務的運算式:
P ( 類 別 ∣ 特 征 ) = P ( 類 別 ) P ( 特 征 ∣ 類 別 ) P(類別|特征)=P(類別){P(特征|類別)} P()=P()P()
我們來預測一下在雨天、熱、濕度高、無風的情況下,這個人是否出門,

通過(11)中的運算式可以得出:
P ( 出 門 ∣ 雨 天 / 熱 / 高 / 無 風 ) = P ( 出 門 ) P ( 雨 天 ∣ 出 門 ) P ( 熱 ∣ 出 門 ) P ( 高 ∣ 出 門 ) P ( 無 風 ∣ 出 門 ) P(出門|雨天/ 熱/ 高/ 無風)=P(出門){P(雨天|出門)P(熱|出門)P(高|出門)P(無風|出門)} P(///)=P()P()P()P()P()

P ( 不 出 門 ∣ 雨 天 / 熱 / 高 / 無 風 ) = P ( 不 出 門 ) P ( 雨 天 ∣ 不 出 門 ) P ( 熱 ∣ 不 出 門 ) P ( 高 ∣ 不 出 門 ) P ( 無 風 ∣ 不 出 門 ) P(不出門|雨天/ 熱/ 高/ 無風)=P(不出門){P(雨天|不出門)P(熱|不出門)P(高|不出門)P(無風|不出門)} P(///)=P()P()P()P()P()

根據表格可知:

P(出門)=0.5

P(不出門)=0.5

P(雨天|不出門)P(熱|不出門)P(高|不出門)P(無風|不出門)=4/81

P(雨天|出門)P(熱|出門)P(高|出門)P(無風|出門)=2/81

最終可得出:

P(出門|雨天/ 熱/ 高/ 無風)=1/81

P(不出門|雨天/ 熱/ 高/ 無風)=2/81

最大后驗概率為:P(不出門|雨天/ 熱/ 高/ 無風)

可以得出結論:在雨天、熱、濕度高、無風的天氣狀況下,這個人不會出門,

5.樸素貝葉斯種類

現在樸素貝葉斯演算法一共有3種:高斯樸素貝葉斯、多項式樸素貝葉斯和伯努利樸素貝葉斯,

5.1高斯樸素貝葉斯(Gaussian NB)

在處理連續資料的分類時,我們通常選用高斯樸素貝葉斯演算法,Gaussian NB就是先驗概率為高斯分布的樸素貝葉斯,假設每一個特征的資料都服從高斯分布,
P ( X j = x j ∣ Y = C k ) = 1 2 π σ 2 e ( ? ( x j ? μ k ) 2 2 σ k 2 ) P(X_{j} =x_{j} |Y=C_{k} )=\frac{1}{\sqrt{2\pi \sigma ^{2} } } e^{(-\frac{(x_{j} -\mu _{k} )^{2} }{2\sigma _{k} ^{2} } )} P(Xj?=xj?Y=Ck?)=2πσ2 ?1?e(?2σk2?(xj??μk?)2?)
其中,Ck是Y的第k個類別,μ和σ為訓練集的均值和標準差,

5.2多項式樸素貝葉斯(Multinomial NB)

多項式樸素貝葉斯就是先驗概率為多項式分布的樸素貝葉斯,假設特征是由一個簡單多項式分布生成的,多項式分布可以描述各種型別樣本出現次數的概率,因此多項式樸素貝葉斯非常適合用于描述出現次數或者出現次數比例的特征,該模型常用于文本分類,特征值表示的是次數,公式如下:
P ( X j = x j l ∣ Y = C k ) = x j l + λ m k + n λ P(X_{j}=x_{jl} |Y=C_{k} )=\frac{x_{jl}+\lambda }{m_{k}+n\lambda } P(Xj?=xjl?Y=Ck?)=mk?+nλxjl?+λ?
其中,p(Xj=xjl|Y=Ck)是第k個類別的第j維特征的第l個取值的條件概率,mk是訓練集中輸出為第k類的樣本個數, n為資料的維度,λ是一個大于0的常數,當λ=1是,為拉普拉斯平滑,

5.3伯努利樸素貝葉斯(Bernoulli NB)

伯努利樸素貝葉斯就是先驗概率為伯努利分布的樸素貝葉斯,假設特征的先驗概率為二元博獨立分布,
P ( X j = x j l ∣ Y = C k ) = x j l + λ m k + 2 λ P(X_{j}=x_{jl} |Y=C_{k} )=\frac{x_{jl}+\lambda }{m_{k}+2\lambda } P(Xj?=xjl?Y=Ck?)=mk?+2λxjl?+λ?

在伯努利模型中,每個特征的取值只有True和False,在文本分類中,就是一個特征有沒有出現在一個檔案中,

5.4拉普拉斯平滑

在某個分類下, 為防止訓練集中某個特征值和某個類別未同時出現過,導致預測概率為0,所以需要進行平滑處理 ,當平滑系數為1時,為拉普拉斯平滑,

5.4總結

一般來說,如果樣本特征的分布大部分是連續值,使用高斯樸素貝葉斯會比較好,

如果樣本特征的分布大部分是多元離散值,使用多項式樸素貝葉斯比較合適,

如果樣本特征是二元離散值或者很稀疏的多元離散值,應該使用伯努利樸素貝葉斯比較合適,

6.代碼實作

6.1鳶尾花分類(高斯樸素貝葉斯)

6.1.1匯入模塊

import numpy as np
import pandas as pd
import random

6.1.2資料集匯入

dataSet =pd.read_csv('iris.txt',header = None)
dataSet.head()

6.1.3將資料集切分為訓練集和測驗集

def randSplit(dataSet, rate):
    l = list(dataSet.index) #提取出索引
    random.shuffle(l) #隨機打亂索引
    dataSet.index = l #將打亂后的索引重新賦值給原資料集
    n = dataSet.shape[0] #總行數
    m = int(n * rate) #訓練集的數量
    train = dataSet.loc[range(m), :] #提取前m個記錄作為訓練集
    test = dataSet.loc[range(m, n), :] #剩下的作為測驗集
    dataSet.index = range(dataSet.shape[0]) #更新原資料集的索引
    test.index = range(test.shape[0]) #更新測驗集的索引
    return train, test

6.1.4構建樸素貝葉斯分類器

def gnb_classify(train,test):
    labels = train.iloc[:,-1].value_counts().index #提取訓練集的標簽種類
    mean =[] #存放每個類別的均值
    std =[] #存放每個類別的方差
    result = [] #存放測驗集的預測結果
    for i in labels:
        item = train.loc[train.iloc[:,-1]==i,:] #分別提取出每一種類別
        m = item.iloc[:,:-1].mean() #當前類別的平均值
        s = np.sum((item.iloc[:,:-1]-m)**2)/(item.shape[0]) #當前類別的方差
        mean.append(m) #將當前類別的平均值追加至串列
        std.append(s) #將當前類別的方差追加至串列
    means = pd.DataFrame(mean,index=labels) #變成DF格式,索引為類標簽
    stds = pd.DataFrame(std,index=labels) #變成DF格式,索引為類標簽
    for j in range(test.shape[0]):
        iset = test.iloc[j,:-1].tolist() #當前測驗實體
        iprob = np.exp(-1*(iset-means)**2/(stds*2))/(np.sqrt(2*np.pi*stds)) #正態分布公式
        prob = 1 #初始化當前實體總概率
        for k in range(test.shape[1]-1): #遍歷每個特征
            prob *= iprob[k] #特征概率之積即為當前實體概率
            cla = prob.index[np.argmax(prob.values)] #回傳最大概率的類別
        result.append(cla)
    test['predict']=result
    acc = (test.iloc[:,-1]==test.iloc[:,-2]).mean() #計算預測準確率
    print(f'模型預測準確率為{acc}')
    return test

6.1.5測驗分類模型

for i in range(20):#測驗20次,對比測驗成功的概率
    train,test = randSplit(dataSet,0.8)
    gnb_classify(train,test)

6.2社區評論是否為侮辱類詞語(伯努利樸素貝葉斯)

6.2.1匯入numpy

import numpy as np

6.2.2創建實驗資料集

def loadDataSet():
    dataSet=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
             ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
             ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
             ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
             ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
             ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']] #切分好的詞條
    classVec = [0,1,0,1,0,1] #類別標簽向量,1代表侮辱性詞匯,0代表非侮辱性詞匯
    return dataSet,classVec

6.2.3創建詞匯表

利用Python中的set集合特性,將詞條中重復的詞去掉,創建無詞匯重復的詞匯表,

def createVocabList(dataSet):
    vocabSet = set() #創建一個空的集合
    for doc in dataSet: #遍歷dataSet中的每一條言論
        vocabSet = vocabSet | set(doc) #取并集
        vocabList = list(vocabSet)
    return vocabList

6.2.4獲得訓練集向量

根據vocabList詞匯表,將inputSet向量化,向量的每個元素為1或0.

引數說明:

? vocabList:詞匯表

? inputSet:切分好的詞條串列中的一天

回傳:

? returnVec:檔案向量

def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0] * len(vocabList) #創建一個其中所含元素都為0的向量
    for word in inputSet: #遍歷每個詞條
        if word in vocabList: #如果詞條存在于詞匯表中,則變為1
            returnVec[vocabList.index(word)] = 1
        else:
            print(f" {word} is not in my Vocabulary!" )
    return returnVec #回傳檔案向量

6.2.5生成訓練集向量串列

引數說明:

? dataSet:切分好的詞條

回傳:

? trainMat:所有的詞條向量組成的表

def get_trainMat(dataSet):
    trainMat = [] #初始化向量串列
    vocabList = createVocabList(dataSet) #生成詞匯表
    for inputSet in dataSet: #遍歷樣本詞條中的每一條樣本
        returnVec=setOfWords2Vec(vocabList, inputSet) #將當前詞條向量化
        trainMat.append(returnVec) #追加到向量串列中
    return trainMat

6.2.6樸素貝葉斯分類器訓練函式

引數說明:

? trainMat:訓練文本矩陣

? classVec:訓練類別標簽向量

回傳:

? p0V:非侮辱類的條件概率陣列

? p1V:侮辱類的條件概率陣列

? pAb:檔案屬于侮辱類的概率(侮辱類的先驗概率)

def trainNB(trainMat,classVec):
    n = len(trainMat) #計算訓練的檔案數目
    m = len(trainMat[0]) #計算每篇檔案的詞條數
    pAb = sum(classVec)/n #檔案屬于侮辱類的概率
    p0Num = np.ones(m) #詞條出現數初始化為1
    p1Num = np.ones(m) #詞條出現數初始化為1
    p0Denom = 2 #分母初始化為2
    p1Denom = 2 #分母初始化為2
    for i in range(n): #遍歷每一個檔案
        if classVec[i] == 1: #統計屬于侮辱類的條件概率所需的資料
            p1Num += trainMat[i]
            p1Denom += sum(trainMat[i])
        else: #統計屬于非侮辱類的條件概率所需的資料
            p0Num += trainMat[i]
            p0Denom += sum(trainMat[i])
    p1V = np.log(p1Num/p1Denom)
    p0V = np.log(p0Num/p0Denom)
    return p0V,p1V,pAb #回傳屬于非侮辱類,侮辱類和檔案屬于侮辱類的概率

6.2.7樸素貝葉斯分類器函式

引數說明:

? vec2Classify:待分類的詞條陣列

? p0V:非侮辱類的條件概率陣列

? p1V:侮辱類的條件概率陣列

? pAb:檔案屬于侮辱類的概率(侮辱類的先驗概率)

回傳:

? 0:非侮辱類

? 1:侮辱類

def classifyNB(vec2Classify, p0V, p1V, pAb):
    p1 = sum(vec2Classify * p1V) + np.log(pAb)    #對應元素相乘
    p0 = sum(vec2Classify * p0V) + np.log(1- pAb) #對應元素相乘
    if p1 > p0:
        return 1
    else:
        return 0

6.2.8樸素貝葉斯測驗函式

引數說明:

? testVec:測驗樣本

回傳:

? 測驗樣本的類別

def testingNB(testVec):
    dataSet,classVec = loadDataSet() #創建實驗樣本
    vocabList = createVocabList(dataSet) #創建詞匯表
    trainMat= get_trainMat(dataSet) #將實驗樣本向量化
    p0V,p1V,pAb = trainNB(trainMat,classVec) #訓練樸素貝葉斯分類器
    thisone = setOfWords2Vec(vocabList, testVec) #測驗樣本向量化
    if classifyNB(thisone,p0V,p1V,pAb)==1:
        print(testVec,'屬于侮辱類') #執行分類并列印分類結果
    else:
        print(testVec,'屬于非侮辱類') #執行分類并列印分類結果

6.2.9測驗用例

測驗樣本1

testVec1 = ['love', 'my', 'dalmation']
testingNB(testVec1)

測驗樣本2

testVec2 = ['stupid', 'garbage']
testingNB(testVec2)

6.3多項式樸素貝葉斯

多項式樸素貝葉斯也是多用于文本處理,其原理和計算的流程和伯努利樸素貝葉斯基本一致,唯一的區別在于單詞的計數方式, 在文本處理的環節中,我們將單詞是否出現在詞組作為特征,但在多項式樸素貝葉斯中,我們將單詞在詞組中出現的次數作為特征,因此只需要更改setOfWords2Vec的函式即可,變成如下方式:

def bagOfWords2VecMN(vocabList, inputSet):
    returnVec = [0] * len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1#單詞在單詞表中每出現一次,則加1
    return returnVec

轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/210912.html

標籤:其他

上一篇:Zabbix告警:SQL Instance MSSQLSERVER: Could not allocate a new page

下一篇:玩轉python?一文總結Python入門到進階的竅門和技巧!(建議收藏)

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • GPU虛擬機創建時間深度優化

    **?桔妹導讀:**GPU虛擬機實體創建速度慢是公有云面臨的普遍問題,由于通常情況下創建虛擬機屬于低頻操作而未引起業界的重視,實際生產中還是存在對GPU實體創建時間有苛刻要求的業務場景。本文將介紹滴滴云在解決該問題時的思路、方法、并展示最終的優化成果。 從公有云服務商那里購買過虛擬主機的資深用戶,一 ......

    uj5u.com 2020-09-10 06:09:13 more
  • 可編程網卡芯片在滴滴云網路的應用實踐

    **?桔妹導讀:**隨著云規模不斷擴大以及業務層面對延遲、帶寬的要求越來越高,采用DPDK 加速網路報文處理的方式在橫向縱向擴展都出現了局限性。可編程芯片成為業界熱點。本文主要講述了可編程網卡芯片在滴滴云網路中的應用實踐,遇到的問題、帶來的收益以及開源社區貢獻。 #1. 資料中心面臨的問題 隨著滴滴 ......

    uj5u.com 2020-09-10 06:10:21 more
  • 滴滴資料通道服務演進之路

    **?桔妹導讀:**滴滴資料通道引擎承載著全公司的資料同步,為下游實時和離線場景提供了必不可少的源資料。隨著任務量的不斷增加,資料通道的整體架構也隨之發生改變。本文介紹了滴滴資料通道的發展歷程,遇到的問題以及今后的規劃。 #1. 背景 資料,對于任何一家互聯網公司來說都是非常重要的資產,公司的大資料 ......

    uj5u.com 2020-09-10 06:11:05 more
  • 滴滴AI Labs斬獲國際機器翻譯大賽中譯英方向世界第三

    **桔妹導讀:**深耕人工智能領域,致力于探索AI讓出行更美好的滴滴AI Labs再次斬獲國際大獎,這次獲獎的專案是什么呢?一起來看看詳細報道吧! 近日,由國際計算語言學協會ACL(The Association for Computational Linguistics)舉辦的世界最具影響力的機器 ......

    uj5u.com 2020-09-10 06:11:29 more
  • MPP (Massively Parallel Processing)大規模并行處理

    1、什么是mpp? MPP (Massively Parallel Processing),即大規模并行處理,在資料庫非共享集群中,每個節點都有獨立的磁盤存盤系統和記憶體系統,業務資料根據資料庫模型和應用特點劃分到各個節點上,每臺資料節點通過專用網路或者商業通用網路互相連接,彼此協同計算,作為整體提供 ......

    uj5u.com 2020-09-10 06:11:41 more
  • 滴滴資料倉庫指標體系建設實踐

    **桔妹導讀:**指標體系是什么?如何使用OSM模型和AARRR模型搭建指標體系?如何統一流程、規范化、工具化管理指標體系?本文會對建設的方法論結合滴滴資料指標體系建設實踐進行解答分析。 #1. 什么是指標體系 ##1.1 指標體系定義 指標體系是將零散單點的具有相互聯系的指標,系統化的組織起來,通 ......

    uj5u.com 2020-09-10 06:12:52 more
  • 單表千萬行資料庫 LIKE 搜索優化手記

    我們經常在資料庫中使用 LIKE 運算子來完成對資料的模糊搜索,LIKE 運算子用于在 WHERE 子句中搜索列中的指定模式。 如果需要查找客戶表中所有姓氏是“張”的資料,可以使用下面的 SQL 陳述句: SELECT * FROM Customer WHERE Name LIKE '張%' 如果需要 ......

    uj5u.com 2020-09-10 06:13:25 more
  • 滴滴Ceph分布式存盤系統優化之鎖優化

    **桔妹導讀:**Ceph是國際知名的開源分布式存盤系統,在工業界和學術界都有著重要的影響。Ceph的架構和演算法設計發表在國際系統領域頂級會議OSDI、SOSP、SC等上。Ceph社區得到Red Hat、SUSE、Intel等大公司的大力支持。Ceph是國際云計算領域應用最廣泛的開源分布式存盤系統, ......

    uj5u.com 2020-09-10 06:14:51 more
  • es~通過ElasticsearchTemplate進行聚合~嵌套聚合

    之前寫過《es~通過ElasticsearchTemplate進行聚合操作》的文章,這一次主要寫一個嵌套的聚合,例如先對sex集合,再對desc聚合,最后再對age求和,共三層嵌套。 Aggregations的部分特性類似于SQL語言中的group by,avg,sum等函式,Aggregation ......

    uj5u.com 2020-09-10 06:14:59 more
  • 爬蟲日志監控 -- Elastc Stack(ELK)部署

    傻瓜式部署,只需替換IP與用戶 導讀: 現ELK四大組件分別為:Elasticsearch(核心)、logstash(處理)、filebeat(采集)、kibana(可視化) 下載均在https://www.elastic.co/cn/downloads/下tar包,各組件版本最好一致,配合fdm會 ......

    uj5u.com 2020-09-10 06:15:05 more
最新发布
  • day02-2-商鋪查詢快取

    功能02-商鋪查詢快取 3.商鋪詳情快取查詢 3.1什么是快取? 快取就是資料交換的緩沖區(稱作Cache),是存盤資料的臨時地方,一般讀寫性能較高。 快取的作用: 降低后端負載 提高讀寫效率,降低回應時間 快取的成本: 資料一致性成本 代碼維護成本 運維成本 3.2需求說明 如下,當我們點擊商店詳 ......

    uj5u.com 2023-04-20 08:33:24 more
  • MySQL中binlog備份腳本分享

    關于MySQL的二進制日志(binlog),我們都知道二進制日志(binlog)非常重要,尤其當你需要point to point災難恢復的時侯,所以我們要對其進行備份。關于二進制日志(binlog)的備份,可以基于flush logs方式先切換binlog,然后拷貝&壓縮到到遠程服務器或本地服務器 ......

    uj5u.com 2023-04-20 08:28:06 more
  • day02-短信登錄

    功能實作02 2.功能01-短信登錄 2.1基于Session實作登錄 2.1.1思路分析 2.1.2代碼實作 2.1.2.1發送短信驗證碼 發送短信驗證碼: 發送驗證碼的介面為:http://127.0.0.1:8080/api/user/code?phone=xxxxx<手機號> 請求方式:PO ......

    uj5u.com 2023-04-20 08:27:27 more
  • 快取與資料庫雙寫一致性幾種策略分析

    本文將對幾種快取與資料庫保證資料一致性的使用方式進行分析。為保證高并發性能,以下分析場景不考慮執行的原子性及加鎖等強一致性要求的場景,僅追求最終一致性。 ......

    uj5u.com 2023-04-20 08:26:48 more
  • sql陳述句優化

    問題查找及措施 問題查找 需要找到具體的代碼,對其進行一對一優化,而非一直把關注點放在服務器和sql平臺 降低簡化每個事務中處理的問題,盡量不要讓一個事務拖太長的時間 例如檔案上傳時,應將檔案上傳這一步放在事務外面 微軟建議 4.啟動sql定時執行計劃 怎么啟動sqlserver代理服務-百度經驗 ......

    uj5u.com 2023-04-20 08:26:35 more
  • 云時代,MySQL到ClickHouse資料同步產品對比推薦

    ClickHouse 在執行分析查詢時的速度優勢很好的彌補了MySQL的不足,但是對于很多開發者和DBA來說,如何將MySQL穩定、高效、簡單的同步到 ClickHouse 卻很困難。本文對比了 NineData、MaterializeMySQL(ClickHouse自帶)、Bifrost 三款產品... ......

    uj5u.com 2023-04-20 08:26:29 more
  • sql陳述句優化

    問題查找及措施 問題查找 需要找到具體的代碼,對其進行一對一優化,而非一直把關注點放在服務器和sql平臺 降低簡化每個事務中處理的問題,盡量不要讓一個事務拖太長的時間 例如檔案上傳時,應將檔案上傳這一步放在事務外面 微軟建議 4.啟動sql定時執行計劃 怎么啟動sqlserver代理服務-百度經驗 ......

    uj5u.com 2023-04-20 08:25:13 more
  • Redis 報”OutOfDirectMemoryError“(堆外記憶體溢位)

    Redis 報錯“OutOfDirectMemoryError(堆外記憶體溢位) ”問題如下: 一、報錯資訊: 使用 Redis 的業務介面 ,產生 OutOfDirectMemoryError(堆外記憶體溢位),如圖: 格式化后的報錯資訊: { "timestamp": "2023-04-17 22: ......

    uj5u.com 2023-04-20 08:24:54 more
  • day02-2-商鋪查詢快取

    功能02-商鋪查詢快取 3.商鋪詳情快取查詢 3.1什么是快取? 快取就是資料交換的緩沖區(稱作Cache),是存盤資料的臨時地方,一般讀寫性能較高。 快取的作用: 降低后端負載 提高讀寫效率,降低回應時間 快取的成本: 資料一致性成本 代碼維護成本 運維成本 3.2需求說明 如下,當我們點擊商店詳 ......

    uj5u.com 2023-04-20 08:24:03 more
  • day02-短信登錄

    功能實作02 2.功能01-短信登錄 2.1基于Session實作登錄 2.1.1思路分析 2.1.2代碼實作 2.1.2.1發送短信驗證碼 發送短信驗證碼: 發送驗證碼的介面為:http://127.0.0.1:8080/api/user/code?phone=xxxxx<手機號> 請求方式:PO ......

    uj5u.com 2023-04-20 08:23:11 more