6個開源資料科學專案-有解無憂

作者|PRANAV DAR
編譯|VK
來源|Analytics Vidhya

概述

利用這段時間，用這些頂級的開源專案來制作你的資料科學簡歷
從Facebook AI的計算機視覺框架到OpenAI的GPT-3模型，我們涵蓋了廣泛的開源資料科學專案

介紹

“到目前為止，你完成了多少資料科學專案？”

這是面試者在資料科學面試中經常問的問題，我曾進行了幾次這樣的面試，這個問題基本上開門見山就會詢問，如果你是一個資料科學的新手，尤其需要注意

僅僅學習課程或獲得證書是不夠的，我認識的幾乎每個人都持有資料科學各個方面的證書，如果你不把它和實際經驗結合起來，它就不會給你的簡歷增加任何價值，

而這正是開源資料科學專案發揮如此關鍵作用的地方，面試者喜歡那些接手這些專案并提出解決方案的申請人，這顯示了你對這個領域的好奇心、熱情和熱情，相信我，在簡歷中加入資料科學專案會增加你被錄用的機會，

但你應該選擇哪些資料科學專案呢？我收集了前幾個月最好的專案并把它們帶給你，在本月的版本中，我們將涵蓋廣泛的主題，從Facebook人工智能的game-changing DEtection TRansformer（DETR）框架到OpenAI的GPT-3，

Facebook AI的DEtection TRansformer (DETR)

鏈接：https://github.com/facebookresearch/detr

Facebook人工智能的DETR很容易成為5月份發布的最有趣的開源專案，它在一周內積累了近3000顆star，這一事實很能說明問題，

DETR（DEtection TRansformer的縮寫）是計算機視覺空間中的一個變化轉換器，該框架是解決目標檢測問題的一種創新和有效的方法，DETR速度極快，效率極高，

正如我們的常駐資料科學家Prateek Joshi所說：

“DETR模型非常簡單，不需要安裝任何庫就可以使用它，借助于基于transformers的編碼器-解碼器體系結構，DETR將目標檢測問題視為直接集合預測問題，”

我們在這里詳細介紹了DETR，以幫助你了解它在下面是如何作業的，以及如何將它用于物件檢測任務，你還可以查看Facebook人工智能團隊發布的Colab Notebook，查看DETR模型的實際應用，

https://colab.research.google.com/github/facebookresearch/detr/blob/colab/notebooks/detr_demo.ipynb

Real-Time Image Animation

實時影像影片：https://github.com/anandpawara/Real_Time_Image_Animation

另一個有趣的開源計算機視覺專案，顧名思義，是讓我們使用OpenCV實時執行影像影片，看看我從專案的GitHub存盤庫中獲取的這個示例：

模型模擬了人在鏡頭前的表情，并相應地改變了影像，這是計算機視覺的一個杰出應用，我們肯定會在內部嘗試這個專案，這類專案將在業界有大量的應用，從時裝和零售到營銷和廣告，

最初的開發人員已經很友好地發布了源代碼以及Colab Notebook，去嘗試下吧

https://colab.research.google.com/github/AliaksandrSiarohin/first-order-model/blob/master/demo.ipynb

OpenAI的GPT-3

鏈接：https://github.com/openai/gpt-3

OpenAI又實作了一個！在去年發布了GPT-2并掀起了一股熱潮之后，他們已經開放了他們最新的自然語言處理（NLP）框架GPT-3！

簡單地說，GPT-3是同類中最大的NLP模型，它有1750億個引數（沒錯，你讀得沒錯），而且體積龐大，幾乎有350GB，GPT-3幾乎是歷史上最昂貴的模型之一（訓練費用約為1200萬美元），

語言模型需要大量的資料來訓練人類在幾秒鐘內就能完成的任務，這已經不是什么秘密了，升級–GPT-3，在討論GPT-3如何在引擎蓋下作業的官方論文中，OpenAI展示了擴展語言模型如何極大地提高任務無關性和少量鏡頭的性能，

現在這一部分可能會涉及到很多資料科學倫理人士——GPT-3可以很容易地生成新聞文章的樣本，而人類很難將其識別為假新聞，在當今相互關聯的世界，這可能是災難性的，為了公平起見，他們在論文中討論了這個問題，

基于PyAudio的實時音頻分析

鏈接：https://github.com/tr1pzz/Realtime_PyAudio_FFT

這個開源的資料科學專案是個人的最愛，這個Python庫由Xander Steenbrugge創建并發布，他是前兩次DataHack峰會上備受尊敬的演講者，它使我們能夠執行實時音頻分析，

正如Xander在他的GitHub存盤庫中所說：

這是一個簡單的包，用于在本機Python中進行實時音頻分析，它使用PyAudio和Numpy從實時音頻流中提取和可視化FFT特征

這里的FFT代表快速傅立葉變換，它是一個出色的工具，在你的資料科學技能集，因為它解答了廣泛的問題，你可以使用它，

TextShot，獲取文本的Python工具

鏈接：https://github.com/ianzhao05/textshot

你有沒有遇到過圖片或截圖有文字，但不能完全提取文字？我知道有一些工具是為這個目的而存在的，但我不想在我的機器上安裝任何額外的軟體，

現在，我們可以簡單地使用這個Python工具抓取螢屏截圖并從中提取文本，稱為TextShot（好名字），這是一個很好的工具，可以快速收集我們的資料科學專案所需的任何文本資料，以下是一個演示TextShot的作業原理：

TextShot要求你在計算機上安裝谷歌的Tesseract，

Machine Learning Visuals-資料科學專業人士交流的絕佳方式

鏈接：https://github.com/dair-ai/ml-visuals

我喜歡這個開源存盤庫，許多新來的人（甚至是有經驗的人）經常在技術和科學交流上有矛盾，

ML Visuals是一個開源的協作專案，旨在幫助資料科學界理解和改進技術交流，這個出色的存盤庫提供了大量的視覺、模板和圖形，幫助你構建一個完美的演示文稿或研究論文，

這個專案最棒的部分是你可以在谷歌的幻燈片上找到所有東西，看看我從這些幻燈片中拍攝的幾張圖片：

很棒！

結尾

在這個月我收集了很多有趣的開源資料科學專案！例如Facebook人工智能的DETR上和OpenAI的GPT-3，

原文鏈接：https://www.analyticsvidhya.com/blog/2020/06/6-open-source-data-science-projects-interviewer/

歡迎關注磐創AI博客站：
http://panchuang.net/

sklearn機器學習中文官方檔案：
http://sklearn123.com/

歡迎關注磐創博客資源匯總站：
http://docs.panchuang.net/

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/14696.html

標籤：其他

上一篇：機器學習：梯度下降

下一篇：寫給程式員的機器學習入門 (六) - 應用遞回模型的例子