深度學習

以神經網路演算法為基礎的機器學習

深度學習演算法：
BP神經網路
卷積神經網路
回圈神經網路
基于注意的回圈神經網路
對抗神經網路

神經網路
腦神經網路

人工神經網路

一堆函式的網路

卷積神經網路

使用卷積運算作為神經元函式的神經網路，我們稱之為卷積神經網路

使用范圍：
二維的圖形特征提取

卷積神經網路的結構
常用層
輸入層：資料的輸入
關聯權重層(*可以加，可以不加)
卷積層：實作卷積程序
池化層：對主要特征降維
全連接層：將特征圖全連接
輸出層：獲取輸出結果

其他層
正則化層
高級層(激活函式/其他的函式)

超引數:在機器學習中，需要反復迭代求得的引數，稱之為超引數，

卷積層：
卷積運算：
作用：
1.特征提取
2.特征降維

卷積核：
卷積核：也叫過濾器

卷積核的移動
卷積核在輸入矩陣中移動的格子數，稱之為步長，
步長 >= 1

卷積核的大小
卷積核的大小也是一個超引數，一般會選擇奇數行列，

卷積核的內容
卷積核的內容也需要反復迭代求得，

常見的卷積核
->水平邊緣檢測濾波器
->垂直邊緣檢測濾波器
->增強圖片中心濾波器

輸入資料于卷積核不匹配的問題：
填充，填充的大小也是超引數，
填充的程序：
在輸入矩陣外圍填充一圈0

填充大小為p = (f - 1)/2

f為卷積核的大小

一次卷積后，卷積得到的輸出矩陣(特征圖)的大小：
s：步幅
f：卷積核的大小
n：輸入矩陣的大小
p：填充

輸出矩陣的大小為:（n + 2p -f）/s + 1

n f
5x5 3x3 s=1 p=0 (5+0-3)/1 + 1 = 3

5x5 3x3 s=2 p=1 (5+2-3)/2 + 1 = 3
多通道卷積如何實作:
日常生活中，圖片都是彩色的，是RGB圖片，
320*240
RGB24：一個像素點占24bit位：
R:G:B : 8:8:8

320 * 240 * 3

按RGB不同的通道，就能得到3個像素資訊矩陣，

然而對彩色圖片的卷積，就變成了對三個不同通道的矩陣進行卷積，我們把這種卷積方式稱之為多通道卷積，

如何處理多通道卷積：
此時就需要對不同通道使用不同的卷積核，而多個卷積核我們放在同一層面上進行卷積時，通常將其放入同一個卷積核組，
真實情況是會使用不同的卷積核組分別對多通道資料進行卷積，

多通道卷積結果的運算：
每個卷積核組卷積完成后的輸出，等同于單通道卷積
但是輸出多個特征圖，特征圖的個數取決于卷積核組的個數，

單通道卷積案例：
n：32*32 = 1024
s : 1
f : 5
p : 0

(n + 2p -f)/s + 1 = 27/1 + 1 = 28

28 * 28 = 784
2*2的采樣控制元件
14 * 14 = 196

導致模型失敗的原因：
過擬合：
模型需要的特征值過于詳細，導致模型沒有泛化能力，
案例：
白馬非馬
白天鵝不是天鵝

欠擬合：
模型提取的特征值太少，導致識別錯誤，
案例：
指鹿為馬

池化層：(采樣)
池化的作用：
1.池化層在CNN中，可以用來減小尺寸、提高運算速度以及減小噪聲影響，讓各特征更具有健壯性，
2.降低網路訓練引數及模型的過擬合程度
什么是池化：
池化(Pooling)又稱為下采樣，通過卷積層獲得圖像的特征后，理論上可以直接使用這些特征訓練分類器(如softmax)，但是，這樣做將面臨巨大的計算量的挑戰，而且容易產生過擬合的現象，
池化的手段：
->最大池化
在池化區域中，取最大值，代表該區域的特征值
->均值池化
在池化區域中，取平均值值，代表該區域的特征值
->隨機池化
在池化區域中，隨機取一個值，代表該區域的特征值

池化區域的大小：是反復迭代求得的，

激活函式：
什么是激活函式：
sigmod
Tanh函式
ReLU函式

激活函式的作用：
卷積神經網路與標準神經網路類似，為了保證其非線性，也需要使用激活函式，即在卷積運算后，把輸出值另加偏移量，輸入到激活函式，然后作為下一層的輸入

全連接：
進行多通道卷積/單通道卷積之后，會得到一些張量矩陣，將多維張量連接成一個一維張量，這個程序稱之為全連接，

常見的卷積神經網路結構：
Le-Net5：串聯型卷積神經網路

GoogLeNet：Inception模型：并聯型卷積神經網路

卷積神經網路的目的：
1.得到最優的神經網路結構
2.得到最優的超引陣列
3.解決特征提取和特征降維的問題

opencv

圖形影像處理庫，C++、Python等編程語言的介面

如何安裝：
pip install opencv-python -i https://mirrors.aliyun.com/pypi/simple/

使用opencv采集視頻并且進行人臉檢測定位

        import cv2 as cv

        #打開系統中默認第一個攝像頭類似于linux下打開/dev/video0
        cap = cv.VideoCapture(0)
        path = "D:\\Program Files\\Python36\\Lib\\site-packages\\cv2\\data\\"

        face_class = cv.CascadeClassifier(path+"haarcascade_frontalface_default.xml")
        while True:
            #讀取攝像頭采到的資料
            ret,img = cap.read()
            #將采集到的彩色圖片轉換為灰度圖片
            img_gray = cv.cvtColor(img, cv.COLOR_RGB2GRAY)
            faces = face_class.detectMultiScale(img_gray, 1.3, 5)
            for (x,y,w,h) in faces:
                cv.rectangle(img,(x,y),(x+w,y+h),(0,0,255),3)
            #想要確保圖片顯示沒有問題，建議先創建一個namedWindow
            cv.namedWindow("pic",cv.WINDOW_AUTOSIZE)
            cv.imshow("video",img)
            #判斷是否按下q鍵
            if cv.waitKey(1) & 0xFF == ord('q'):
                break 
        #銷毀顯示的所有表單
        cv.destroyAllWindows()
        #釋放掉創建出來的攝像頭物件
        cap.release()

使用python實作錄音功能

庫：pyaudio
安裝：pip install pyaudio

例子：

    import pyaudio
    import wave

    #一個管理PyAudio實體的說明(每一幀的大小)
    CHUNK = 1024
    #采集樣例的位深度
    FORMAT = pyaudio.paInt16
    #通道數
    CHANNELS = 2
    #樣例的速率
    RATE = 44100
    #錄音時間
    RECORD_SECONDS = 5
    WAVE_OUTPUT_FILENAME = "output.wav"

    p = pyaudio.PyAudio()

    stream = p.open(format=FORMAT,
                    channels=CHANNELS,
                    rate=RATE,
                    input=True,
                    frames_per_buffer=CHUNK)

    print("* recording")

    frames = []

    for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
        data = stream.read(CHUNK)
        frames.append(data)

    print("* done recording")

    stream.stop_stream()
    stream.close()
    p.terminate()

    wf = wave.open(WAVE_OUTPUT_FILENAME, 'wb')
    wf.setnchannels(CHANNELS)
    wf.setsampwidth(p.get_sample_size(FORMAT))
    wf.setframerate(RATE)
    wf.writeframes(b''.join(frames))
    wf.close()

python 語音播放

語音播放包 pygame
包的安裝：pip install pygame
例子：

        import pygame
        import time

        #音頻初始化
        pygame.mixer.init()
        #加載音頻
        pygame.mixer.music.load("auido.mp3")
        #開始播放
        pygame.mixer.music.play()
        #等待播放(播放的程序)
        time.sleep(3)
        #停止播放
        pygame.mixer.music.stop()

        #注意：延時一定要有，不然聽不到聲音

百度AI平臺的使用

人臉對比

EasyDL

"""
EasyDL 影像分類 呼叫模型公有云API Python3實作
"""

import json
import base64
import requests
"""
使用 requests 庫發送請求
使用 pip（或者 pip3）檢查我的 python3 環境是否安裝了該庫，執行命令
  pip freeze | grep requests
若回傳值為空，則安裝該庫
  pip install requests
"""


# 目標圖片的 本地檔案路徑，支持jpg/png/bmp格式
IMAGE_FILEPATH = "1.jpg"

# 可選的請求引數
# top_num: 回傳的分類數量，不宣告的話默認為 6 個
PARAMS = {"top_num": 2}

# 服務詳情 中的 介面地址
MODEL_API_URL = "https://aip.baidubce.com/rpc/2.0/ai_custom/v1/classification/mycheckface"

# 呼叫 API 需要 ACCESS_TOKEN，若已有 ACCESS_TOKEN 則于下方填入該字串
# 否則，留空 ACCESS_TOKEN，于下方填入 該模型部署的 API_KEY 以及 SECRET_KEY，會自動申請并顯示新 ACCESS_TOKEN
ACCESS_TOKEN = ""
API_KEY = "gPhZUzA3yk70zSplKKhw5Itb"
SECRET_KEY = "GlSQaRcgDlmALq2CkTUD1XbAA9QanCYb"


print("1. 讀取目標圖片 '{}'".format(IMAGE_FILEPATH))
with open(IMAGE_FILEPATH, 'rb') as f:
    base64_data = base64.b64encode(f.read())
    base64_str = base64_data.decode('UTF8')
print("將 BASE64 編碼后圖片的字串填入 PARAMS 的 'image' 欄位")
PARAMS["image"] = base64_str


if not ACCESS_TOKEN:
    print("2. ACCESS_TOKEN 為空，呼叫鑒權介面獲取TOKEN")
    auth_url = "https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials"               "&client_id={}&client_secret={}".format(API_KEY, SECRET_KEY)
    auth_resp = requests.get(auth_url)
    auth_resp_json = auth_resp.json()
    ACCESS_TOKEN = auth_resp_json["access_token"]
    print("新 ACCESS_TOKEN: {}".format(ACCESS_TOKEN))
else:
    print("2. 使用已有 ACCESS_TOKEN")


print("3. 向模型介面 'MODEL_API_URL' 發送請求")
request_url = "{}?access_token={}".format(MODEL_API_URL, ACCESS_TOKEN)
response = requests.post(url=request_url, json=PARAMS)
response_json = response.json()
response_str = json.dumps(response_json, indent=4, ensure_ascii=False)
print("結果:{}".format(response_str))
print(response_json['results'][0]['name'])

語音合成

from aip import AipSpeech

""" 你的 APPID AK SK """
APP_ID = '24873305'
API_KEY = 'uzWDokZaiYxGTH5Sn1UKnN85'
SECRET_KEY = 'H3l5DBSfGbq7QsFgHAfPri04azPWVITs'

client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)

result  = client.synthesis('你這黑廝，甚是囂張，不知是燒窯的還是賣炭的', 'zh', 1, {
    'vol': 8, 'per':3, 'spd':4,
})

# 識別正確回傳語音二進制 錯誤則回傳dict 參照下面錯誤碼
if not isinstance(result, dict):
    with open('audio.mp3', 'wb') as f:
        f.write(result)

語言識別

from aip import AipSpeech

""" 你的 APPID AK SK """
APP_ID = '24873305'
API_KEY = 'uzWDokZaiYxGTH5Sn1UKnN85'
SECRET_KEY = 'H3l5DBSfGbq7QsFgHAfPri04azPWVITs'

client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)

# 讀取檔案
def get_file_content(filePath):
    with open(filePath, 'rb') as fp:
        return fp.read()

# 識別本地檔案
ret = client.asr(get_file_content('audio.wav'), 'wav', 16000, {
    'dev_pid': 1737,
})

print(ret['result'][0])

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/301431.html

標籤：AI

上一篇：決策樹演算法

下一篇：論文必備 | 12個神經網路可視化工具

人工智能------＞第四天，深度學習，人工神經網路，卷積神經網路，opencv，音頻采集、播放，百度AI平臺的使用