主頁 >  其他 > 在MacM1上運行ChatGLM-6B推理

在MacM1上運行ChatGLM-6B推理

2023-06-15 08:21:36 其他

1. 簡介

ChatGLM 6B是清華大學和智譜合作的一個62億引數的大語言模型,基于清華的GLM模型開發,和Meta的LLaMA模型還不是一種模型,

由于LLaMA缺乏中文語料,中文能力不佳,在中文大模型中,ChatGLM 6B引數較小,運行硬體要求較低,而表現可謂出色,所以這里作為一個基礎模型先讓他運行起來看看有多大的能力,

2. 準備環境

在這里我們一般使用miniconda來做python的包管理,

新建一個Python3.10環境,環境名叫chatglm-6b

conda create -n chatglm-6b python=3.10

激活這個環境,從此之后都在這個環境chatglm-6b中操作

conda activate chatglm-6b

 

3. 下載代碼

執行下列命令

git clone https://github.com/THUDM/ChatGLM-6B

這里沒有什么花哨的地方,下載下來就可以了,

 

4. 安裝Python依賴

python環境切到chatglm-6b, 在上面克隆下來的ChatGLM-6B代碼目錄中執行下列命令

pip install -r requirements.txt

根據ChatGLM-6B的官方檔案,需要安裝Pytorch Nightly(似乎不安裝nightly也可以),所以我們在裝完上面的依賴包之后,洗掉torch,重新安裝pytorch nightly,

安裝方法:鏈接

執行命令

pip uninstall torch
pip install --pre torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/nightly/cpu

 

然后,我們看下下載下來的pytorch是不是支持m1的gpu加速

執行python進入python命令列

輸入命令

import torch; torch.backends.mps.is_available()

輸出True即為可以用M1的GPU加速,但是這里int4量化后的版本不支持MPS GPU加速,而非量化的版本雖然支持MPS GPU加速,但是如果沒有32G記憶體的話,記憶體不足導致執行速度非常的慢,所以在用int4量化后的模型后,有沒有MPS GPU加速都會使用CPU推理,

Python 3.10.11 (main, Apr 20 2023, 13:58:42) [Clang 14.0.6 ] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import torch; torch.backends.mps.is_available()
True
>>> 

 

安裝icetk

奇怪的是運行web_demo.py需要icetk包,但是沒有寫在requirements.txt里

補上

pip install icetk

這樣就把包依賴安裝好了,

 

5. 使用模型推理

5.1. 使用int4量化模型

Mac M1上如果沒有32G及32G以上記憶體,一般還是int4量化模型會快一點,

5.1.1. 下載模型到本地

先運行huggingface.co下的ChatGLM 6B 4int量化后的模型,這個模型推理需要6G記憶體,finetune需要7G記憶體,對于小記憶體用戶來說是最小硬體需求的模型,

huggingface.co克隆git repo需要git-lfs

所以先運行

git lfs install

如果沒有裝過git-lfs,可以看這個鏈接安裝git-lfs

克隆int4量化model

git clone https://huggingface.co/THUDM/chatglm-6b-int4

Mac上沒有CUDA可以用,而量化模型是基于CUDA開發的,所以M1/M2的MPS GPU加速也不可用,這里只能用CPU推理,CPU推理需要安裝g++和openmp

由于本機安裝的g++版本是14.x,所以可以按照鏈接的指示安裝openmp

然后把THUDM/chatglm-6b-int4拷貝到代碼的ChatGLM-6B下,所以在本地克隆下來的代碼目錄下,模型放在

代碼目錄/THUDM/chatglm-6b-int4下

5.1.2. 修改代碼

打開web_demo.py,修改代碼,

把下面代碼

tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True)
model = AutoModel.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True).half().cuda()

改為

tokenizer = AutoTokenizer.from_pretrained("./THUDM/chatglm-6b-int4/", trust_remote_code=True)
model = AutoModel.from_pretrained("./THUDM/chatglm-6b-int4/", trust_remote_code=True).float()

5.1.3. 執行推理

執行命令

python web_demo.py

輸出

Arguments: (RuntimeError('Unknown platform: darwin'),)
No compiled kernel found.
Compiling kernels : ...
Compiling clang -O3 -fPIC -pthread -Xclang -fopenmp -lomp -std=c99 /Users/heye/.cache/huggingface/modules/transformers_modules/quantization_kernels_parallel.c -shared -o ...
Load kernel : ...
Setting CPU quantization kernel threads to 4
Using quantization cache
Applying quantization to glm layers
Running on local URL:  http://127.0.0.1:7860

自動彈出瀏覽器:http://127.0.0.1:7860/

就可以用了,

可以試試輸入幾個問題

1. 方程和函式有什么區別

方程和函式有什么區別


 

 

2.

6. 性能

由于用CPU推理,一個詞一個詞往外蹦,每個詞耗時大約是3-4秒,

如果在Windows下用GPU推理的話速度大約會提升十倍,

量化和非量化版本在表現上差異很少,這點比LLaMA要好很多,LLaMA的7Bint4量化版本表現比較差,

7. 評價

這個模型部署的坑非常少,清大的工程能力可謂出色,整體完成度很高,

 

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/555210.html

標籤:其他

上一篇:SRE 的作業介紹

下一篇:返回列表

標籤雲
其他(161014) Python(38230) JavaScript(25495) Java(18240) C(15237) 區塊鏈(8270) C#(7972) AI(7469) 爪哇(7425) MySQL(7251) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5875) 数组(5741) R(5409) Linux(5347) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4593) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2435) ASP.NET(2404) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) .NET技术(1984) 功能(1967) HtmlCss(1966) Web開發(1951) C++(1940) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1881) .NETCore(1863) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 在MacM1上運行ChatGLM-6B推理

    1. 簡介 ChatGLM 6B是清華大學和智譜合作的一個62億引數的大語言模型。基于清華的GLM模型開發。和Meta的LLaMA模型還不是一種模型。 由于LLaMA缺乏中文語料,中文能力不佳。在中文大模型中,ChatGLM 6B引數較小,運行硬體要求較低。而表現可謂出色。所以這里作為一個基礎模型先 ......

    uj5u.com 2023-06-15 08:21:36 more
  • SRE 的作業介紹

    哈嘍大家好,我是咸魚 今天看到了一篇很不錯的文章,作者是一名 SRE 工程師,在 Shopee 作業,base 新加坡 分享出來給大家看看 作者:卡瓦邦噶 原文鏈接:https://www.kawabangga.com/posts/4481 **原文如下:** 有很多人問過我想了解一下 SRE 這個 ......

    uj5u.com 2023-06-15 08:21:27 more
  • 聲音克隆,精致細膩,人工智能AI打造國師“一鏡到底”鬼畜視頻,基

    電影《滿江紅》上映之后,國師的一段采訪視頻火了,被無數段子手惡搞做成鬼畜視頻,誠然,國師的這段采訪文本相當經典,他生動地描述了一個牛逼吹完,大家都信了,結果發現自己沒辦法完成最后放棄,隨后瘋狂往回找補的程序。 最離譜的是,他這段采訪用極其豐富的細節描述了一個沒有發生且沒有任何意義的事情,堪比單口相聲 ......

    uj5u.com 2023-06-15 08:21:16 more
  • 萬物云原生下的服務進化

    在萬物云原生下的環境下,Java的市場份額也因耗資源、啟動慢等缺點,導致在云原生環境里被放大而降低,通過這篇文章,讀者可以更好地了解如何在云原生環境下通過升級相關版本和使用GraalVM打出原生鏡像到方式,優化Java應用的性能和資源利用率,使Java應用更好地適應云原生環境。 ......

    uj5u.com 2023-06-15 08:21:02 more
  • 利用 PHP 特性繞 WAF 測驗

    在測驗繞過 WAF 執行遠程代碼之前,首先構造一個簡單的、易受攻擊的遠程代碼執行腳本。這個腳本部署在 Cloudflare WAF 和 ModSecurity + OWASP CRS3 之后。 ......

    uj5u.com 2023-06-15 08:20:29 more
  • 618大促|決議平臺、商家和消費者必須面對的三大風險

    618大促再次開啟,各平臺及商家的促銷大戰如火如荼。 2023年618,京東推出百億補貼晚8點5折專區,還有超級新品日、超級直播日,讓消費者逛不停,買不停,省不停。淘寶天貓自然也不示弱。官方表示本屆618是歷史上最大投入的一屆,有6000萬商品參與打折,300萬新品首發,參與商家達145萬。 618 ......

    uj5u.com 2023-06-15 08:20:01 more
  • [AGC055A] ABC Identity 題解

    # [AGC055A] ABC Identity 題解 ## 題目描述 給定長度為 $3n (1 \le n \le 2e5)$ 的序列,其中字母 A,B,C 各有 $n$ 個。 一個合法序列 $T$ 滿足以下條件: - 其長度為 $3k (1 \le k \le n)$。 - $T_1 = T_2 ......

    uj5u.com 2023-06-15 08:19:54 more
  • 自然語言處理 Paddle NLP - 文本語意相似度計算(ERNIE-Gram)

    基于預訓練模型 ERNIE-Gram 實作語意匹配 ## 1. 背景介紹 文本語意匹配任務,簡單來說就是給定兩段文本,讓模型來判斷兩段文本是不是語意相似。 在本案例中以權威的語意匹配資料集 [LCQMC](http://icrc.hitsz.edu.cn/Article/show/171.html) ......

    uj5u.com 2023-06-15 08:19:43 more
  • 建設數字工廠:生產物料齊套檢查的實作方法

    摘要: 本期介紹如何在華為云數字工廠平臺上,通過擴展配置生產工單的資訊模型和邏輯流程模型,實作在生產工單下發前,輕松透視生產物料齊套狀況。 本文分享自華為云社區《數字工廠深入淺出系列(四):生產物料齊套檢查的實作方法》,作者:云起MAE 。 隨著市場個性化需求不斷發展,多品種小批量生產加工模式已經形 ......

    uj5u.com 2023-06-15 08:19:07 more
  • 經典webshell流量特征

    # 開門見山,不說廢話 ## 判斷條件 ```apl 是否符合通信的特征 請求加密的資料和回應包加密的型別一致 是否一直向同一個url路徑發送大量符合特征的請求,并且具有同樣加密的回應包 ``` # 一 、蟻劍 ##### 特征為帶有以下的特殊欄位 ``` 第一個:@ini_set("display ......

    uj5u.com 2023-06-15 08:18:36 more