一個老程式員的計算機視覺蹣跚學習之路-有解無憂

一、前言

老猿是個 C++的老程式員，到底有多老呢，估計現在各平臺發技術文章的博主中，很難有年齡比老猿大的，程式員這個活，是年輕人干的，并不怎么適合象我這種年紀的人，作業中也很少需要自己動手開發的，

2019 年，各種因緣際會，老猿想學習一下 Python，4 月入駐CSDN博客，開啟了老猿學習 Python 并分享學習體會之路，先是 Python 基礎，接著是 Python 爬蟲，然后是 Python 影像界面開發的 PyQt，再接著是 Python 的音視頻剪輯 Moviepy，前后花費了 1 年半左右的時間，這期間發布了近 1000 篇博客，當然有灌水的內容，也有精華的文章，都是老猿自己學習的總結，

老猿是個對細節蠻糾結的人，很容易鉆到各種學習的細節中去，優點就是有些深度的認識和識訓，發布的博客文章有區別于別人的內容，缺點有兩條，一是學習進展慢，二是有時耗時很久都鉆不出某個問題，人很抓狂，不管怎么說，由于文章是老猿從小白的基礎上去學習知識的總結，還是圈了一群粉，目前在博客網站粉絲已超 5 萬，并且獲得了該網站 2020 年博客之星評選的季軍，也算是無心插柳了，

2020 年下半年，一個老同學聯系老猿，他開辦的公司主要負責計算機視覺應用類軟體的開發，例如用于石油行業鉆井平臺的監控，識別違規操作，提醒作業人員遵章守紀，主要使用 OpenCV 和人工智能 YOLO3 進行開發，但是遇到了一些難以解決的問題，一是基于 AI 的目標檢測，依靠訓練資料產生的目標識別能力存在不可控的問題，可能絕大多數情況識別都沒有問題，但一旦存在問題時很難去解決，無法說出所以然，二是目標識別在多目標出現交叉重疊時無法精準識別，如多個人用不同姿勢前后交叉站立，后排人員被遮擋后有些場景無法識別出來每個人，他想基于 AI 的目標識別加上物件組件化來解決這個問題，利用 AI 識別各個組件，如人的腦袋、手、足、軀干等，然后再基于這些組件去識別一個人，而不是用 AI 直接識別一個人，這樣應該更精確，

老猿對 AI 根本沒有研究，連影像處理都沒學過，感覺幫不上他多少忙，但他給我打開了計算機視覺這扇門，于是從 2020 年 8 月開啟了計算機視覺的學習之路，

二、計算機視覺涵蓋的范圍

在介紹學習經歷前，我們先簡單介紹一下計算機視覺，而在研究計算機視覺前，一個必須探討的課題就是數字影像處理，數字影像處理從簡單的影像對比度增強到影像識別再到計算機視覺，從簡單影像處理到 AI，涉及的領域跨度很大，并且沒有明顯的界限，但這一廣袤的范圍并不全都屬于數字影像處理研究的范圍，

一種常見的方法是將數字影像處理到計算機視覺這一廣袤的范圍劃分成低級、中級、高級三個階段：

低級處理：涉及影像的初級操作，如降噪處理、對比度增強、銳化處理，其特征是輸入、輸出都是影像；
中級處理：輸入為影像，但輸出是從影像中提取的特征，如邊緣、輪廓、物體標識的識別；
高級處理：識別影像整體、與視覺相關的認知，

這一年多的學習，老猿學習進展緩慢，還停留在數字影像處理的低級處理的初始階段，目前學習了影像處理的部分基礎概念和一些基礎操作，包括影像處理的步驟、像素間的關系、影像空間相關和卷積、影像濾波、灰度變換、形態變換、影像直方圖等相關概念，以及影像讀取、保存、滑鼠操作、事件捕獲、閾值處理、算術運算、影像形態變換以及直方圖均衡等 OpenCV-Python 的操作方法，可見學習進展緩慢，

三、老猿的計算機視覺學習程序

老猿離開大學太多年，高等數學知識已經忘光，同時以前沒有學習過影像處理相關知識，導致在計算機視覺學習程序中步履艱難，老猿這一年多的學習程序基本分為三個階段：

老猿 2020 年 8 月開始學習 OpenCV，從基本的影像讀寫開始、到影像顯示視窗的回呼處理、閾值處理及自適應閾值處理、幾何影像繪制、顏色空間轉換到影像的算術運算、位運算、腐蝕膨脹等形態變換，在這階段學習基本都很順利，但形態變換中的擊中擊不中變換理解還是有些困難的，這個花了老猿 1 個多星期的時間才真正理解，這些知識的學習到 2020 年 12 月上旬；
2020 年 12 月開始學習仿射變換、透視變換，發現自己線性代數完全忘光了，導致仿射變換、幾何變換難以理解，于是在 2021 年 1 月開始重新學習高數集合、極限、線性代數相關知識，學完再回頭研究仿射變換、透視變換；
2021 年 4 月學習空間變換，發現自己影像處理基礎知識太弱，理解相關知識太困難，為此從 4 月開始學習岡薩雷斯的《數字影像處理》，在學習到《數字影像處理》直方圖處理概念時，發現需要導數和微積分的知識，于是 2021 年 6 月重頭學習導數、微分、不定積分、定積分相關知識，到 2021 年 8 月才學習完這些數學知識，又開始學習直方圖的相關知識，包括直方圖基礎知識、直方圖匹配、區域直方圖處理以及 OpenCV 的實作，到 10 月底學習到 OpenCV 對比度受限的自適應直方圖均衡 CLAHE 演算法時，發現存在幾個沒有想明白的地方，特別是關于 CLAHE 演算法的插值處理，沒有查到相關資料，只好下載原始碼，撿起已經丟棄了 10 多年的 C++，反復測驗，花了 4 個月時間到最近才終于將 CLAHE 演算法完全理解，關于這方面的介紹請參考專欄《OpenCV-Python初學者疑難問題集》博文《計算機視覺演算法探究：OpenCV CLAHE 插值演算法詳解》，在這個付費專欄的內容都是類似老猿自己總結的知識文章，對剛剛入門[OpenCV-Python學習同樣存在老猿這些問題的初學者可以避免少走點彎路，想來不會多少人能象老猿這樣有這么多時間去琢磨的，

以上是老猿學習的艱難程序，導致這么進展緩慢的原因主要有三個方面，一是缺乏數學知識，二是沒有好的可以指導的老師，三是老猿自己過于糾結，鉆到一些很多人沒關注的細節，并且不弄清楚不放棄，雖然從某種角度講是個好精神，但在缺乏指導的情況下，這種方式效率太低，

四、學習計算機視覺需要的基礎知識

以老猿現階段已經學習的內容，談談計算機視覺學習需要掌握的基礎知識，因尚在初級階段學習，肯定不全，拋磚引玉罷了，

必須掌握好高數知識，計算機視覺和其他 AI 方向，都離不開高等數學

√ 影像的加減乘除、位運算、線性變換、影像相關與卷積、形態變換、仿射變換等，都與矩陣知識緊密相關；

√ 影像的集合運算需要用到集合運算相關知識；

√ 影像灰度變換用到的插值需要用到插值相關知識；

√ 影像灰度處理經常使用概率論相關知識；

√ 影像直方圖處理需要了解直方圖相關的概率統計知識以及微積分相關知識；

√ …，

老猿大學畢業已經好多年，高數知識都忘光了，為此斷斷續續花了 4 個月時間將集合、線性代數、導數、微積分知識的基礎知識全部重新學習了一遍，并且學習時自己被這些數學知識真正的吸引，比大學階段的被動學習完全不可同日而語，所以如果大學剛畢業沒多久，高數知識還在的同學，在學習計算機視覺和其他 AI 方向時就有很好的基礎，
必須有好的 C++語言基礎，計算機視覺及影像處理有多種開發庫，這些庫大部分都是 C++來實作的，因此掌握好 C++語言對于深入研究相關技術非常有必要，老猿使用的是 OpenCV 庫，才開始使用的是 OpenCV-Python，如果是光應用庫的 API 可以，但要理解其后的演算法和技術則非要閱讀 C++原始碼，老猿最近剛研究清楚 CLAHE 演算法，查各種資料都解決不了自己的疑問，沒辦法只好安裝 Visual Studio2019 的 VC++版本，下載 OpenCV 庫原始碼進行研究才弄清楚，其中的插值演算法就斷斷續續花了近四個月時間才終于弄明白（請參考《計算機視覺演算法探究：OpenCV CLAHE 插值演算法詳解》）；
必須有好的 Python 基礎知識，現在的人工智能庫，基本都是 Python 語言的，同時 Python 之上的開源庫很多，包括 OpenCV 都有 Python 庫，因此掌握 Python 是去進行實踐驗證的基礎，如果尚未學習 Python 的，個人推薦《Python 基礎教程》第 3 版（Magnus Lie Hetland 著，袁國忠譯）；
必須學習影像處理基礎知識，這方面岡薩雷斯《數字影像處理》是很好的參考資料，建議中英文版本一起對照學習；
計算機視覺是當代人工智能的一大方向，了解人工智能和機器學習的相關基礎知識對于計算機視覺的深入學習很有必要，這方面推薦周志華編著的《機器學習》；
學習 OpenCV 相關的操作，這方面參考 OpenCV 官方檔案的幫助檔案即可；
…

限于見識，就計算機視覺需要的基礎知識老猿目前僅能說這么多，希望于大家有益，

五、給準備學習計算機視覺的同好的三點個人建議

在上面介紹了老猿所知的學習計算機視覺需要掌握的基礎知識，在這里要談三點非技術方面的建議：

好好學習一下高數，特別是對于高效在校學生，如果想要在計算機視覺乃至人工智能方面有所建樹，一定不要浪費學校的時光，學習好高數；
找個好老師，這個老師不一定是真正意義上的身份上的老師，只要是在計算機視覺和人工智能方面有雜實基礎的先行者都可以，有個老師指導和自己瞎摸索完全是兩個不同的學習狀態，如果你有幸有這樣一個老師，那應該好好珍惜這難得的機會；
不光是對程式開發感興趣，而且要多學習點理論知識，計算機視覺乃至人工智能已經有很多系統化的理論知識，學習了這些理論知識再結合實操，進展肯定比單純的程式開發要快和好，

最后，衷心祝愿所有學習計算機視覺的同好們在虎年學習進步，大展宏圖！

更多影像處理請參考專欄《OpenCV-Python圖形影像處理》、《影像處理基礎知識》以及付費專欄《OpenCV-Python初學者疑難問題集》的介紹，

對于缺乏Python基礎的同仁，可以通過老猿的免費專欄《專欄：Python基礎教程目錄》從零開始學習Python，

如對文章內容存在疑問，可在博客評論區留言，或關注：老猿Python 微信公號發訊息咨詢：
老猿Python微信公號

也可以掃描博客左邊欄目的微信公號二維碼咨詢，

寫博不易，敬請支持：

如果閱讀本文于您有所獲，敬請點贊、評論、收藏，謝謝大家的支持！

關于老猿的付費專欄

付費專欄《https://blog.csdn.net/laoyuanpython/category_9607725.html 使用PyQt開發圖形界面Python應用》專門介紹基于Python的PyQt圖形界面開發基礎教程，對應文章目錄為《 https://blog.csdn.net/LaoYuanPython/article/details/107580932 使用PyQt開發圖形界面Python應用專欄目錄》；
付費專欄《https://blog.csdn.net/laoyuanpython/category_10232926.html moviepy音視頻開發專欄 )詳細介紹moviepy音視頻剪輯合成處理的類相關方法及使用相關方法進行相關剪輯合成場景的處理，對應文章目錄為《https://blog.csdn.net/LaoYuanPython/article/details/107574583 moviepy音視頻開發專欄文章目錄》；
付費專欄《https://blog.csdn.net/laoyuanpython/category_10581071.html OpenCV-Python初學者疑難問題集》為《https://blog.csdn.net/laoyuanpython/category_9979286.html OpenCV-Python圖形影像處理》的伴生專欄，是筆者對OpenCV-Python圖形影像處理學習中遇到的一些問題個人感悟的整合，相關資料基本上都是老猿反復研究的成果，有助于OpenCV-Python初學者比較深入地理解OpenCV，對應文章目錄為《https://blog.csdn.net/LaoYuanPython/article/details/109713407 OpenCV-Python初學者疑難問題集專欄目錄》
付費專欄《https://blog.csdn.net/laoyuanpython/category_10762553.html Python爬蟲入門》站在一個互聯網前端開發小白的角度介紹爬蟲開發應知應會內容，包括爬蟲入門的基礎知識，以及爬取CSDN文章資訊、博主資訊、給文章點贊、評論等實戰內容，

前兩個專欄都適合有一定Python基礎但無相關知識的小白讀者學習，第三個專欄請大家結合《https://blog.csdn.net/laoyuanpython/category_9979286.html OpenCV-Python圖形影像處理》的學習使用，

對于缺乏Python基礎的同仁，可以通過老猿的免費專欄《https://blog.csdn.net/laoyuanpython/category_9831699.html 專欄：Python基礎教程目錄）從零開始學習Python，

如果有興趣也愿意支持老猿的讀者，歡迎購買付費專欄，

老猿Python，跟老猿學Python！

? ? 前往老猿Python博文目錄 https://blog.csdn.net/LaoYuanPython ?

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/423865.html

標籤：AI

上一篇：機器學習分類演算法之XGBoost（集成學習演算法）

下一篇：簡歷專案描述程序詳解