過去一周,AI大模型的快速演進仍然在繼續上演,今天繼續介紹GitHub上的一些實用的大模型開源專案,
1. ChatGLM-6B:Open Source ChatGPT Alternative
ChatGLM-6B是一個基于GLM架構的開源對話語言模型,支持中英雙語,有62億引數,結合模型量化技術,可以在消費級顯卡上本地部署,效果堪比ChatGPT,2023年3月開源,3周時間已經積累超過100萬次下載,目前全球接近300萬次下載量,
2. CodeGeeX:Open Source Github Copilot Alternative
CodeGeeX是一個基于AI大模型的代碼生成神器,擁有130億引數,支持23種編程語言,CodeGeeX可以根據自然語言或代碼片段生成完整的代碼,“Ask CodeGeeX”功能可以在IDE中通過對話的方式直接操作代碼,開發者普遍認為是Github Copilot的平替產品,CodeGeeX是開源免費的,支持VS Code和IDEAs平臺,目前全球安裝使用的用戶量超過100,000+,
3. Meta open source AI generative music model
這是Meta在GitHub上開源的名為Audiocraft的Python庫,可以直接用人工智能生成音樂,其中主要使用了一個名為MusicGen的音樂生成模型,MusicGen是一個基于單階自回歸Transformer的預訓練模型,使用32kHz EnCodec tokenizer,并以50Hz采樣的方式生成了4個codebooks,
與現有的方法(如MusicLM)不同,MusicGen不需要自監督語意學習,而是一次性生成了所有4個codebooks,在文本生成和文生圖之后,看看用文本生成音樂的效果如何,
4. Diffusers發布重要更新
Diffusers v0.17.0正式發布,改進了LoRA、Kandinsky 2.1、Torch編譯加速等功能,Diffusers是一個在GitHub上的Diffusion Model預訓練模型常用庫,廣受歡迎,可用于生成影像、音頻,甚至是分子的3D結構,
無論是尋找簡單的推理解決方案還是訓練自己的Diffusion Models,Diffusers作為一個模塊化工具包提供支持,
庫的設計更注重易用性和可定制性,主要提供以下三個核心組件:
- 先進的Diffusion pipeline,只需幾行代碼即可進行推理;
- 可互換的noise schedulers,用于不同的Diffusion速度和輸出質量;
- 預訓練模型可用作構建模塊,并與schedulers結合使用,創建自己的端到端Diffusion Systems,
這個專案是由Hugging Face免費開源的,可以使用它來快速訓練ControlNet,進一步提高AI繪畫的效果和質量,
5. Everything is identifiable
Meta之前在GitHub上開源了一個名為Segment Anything Model的影像分割模型,可以自動實作影像分割,然而,該模型在影像定位方面表現良好,但在影像識別方面的表現卻一般,
為此,復旦大學與OPPO的研究人員以及International School of Digital Economy,共同在GitHub上開源了一個基礎影像標注模型:Recognize Anything Model (RAM),采用了一種新的影像標注范式,可以識別各種常見類別,而且用來訓練的資料,是通過大規模的影像自動生成文本來進行標注,取代了手動標注,
經過基準評估,RAM的標記能力表現優秀,效果明顯優于CLIP和BLIP,有用戶認為RAM甚至超過了完全監督的方法,與Google API相當,同時,專案中還包含一個名為Tag2Text的工具,可以批量直接為影像中的指定物件生成標簽,如果與Meta的開源SAM模型結合使用,我們可以批量洗掉影像中的指定物件,進一步提高影像處理效率,
本文由博客一文多發平臺 OpenWrite 發布!
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/555378.html
標籤:其他
上一篇:形式化分析之BAN邏輯
下一篇:返回列表
