作者:神的孩子在歌唱
大家好,我叫運智
這篇文章主要講的是我大三這一年的比賽生活
編程之路,須鑄金蟬之勢
- 大三初的我
- 初識軟體杯
- 迷茫和奮斗
- 金蟬的初顯
- 苦戰和內卷
- 感謝和成長
- 作品的展示
前言:
大三轉眼而逝,整整一個大三都在忙碌中度過,比賽,駕照等,這一年是我識訓最多的一年,也是我覺得最有意義的一年,五月份獲得了博客專家稱號:一年成為博客專家? 致!奮斗的自己
大三初的我
大三,對于很多專業來說,是一個能決定一個人未來的一年,很多人剛開始和我一樣都以為大學有四年時光,可其實不然,我老師對我說過,大三結束后你就得去實習,去找作業,留給你學習的時間其實不多了,很多人都會說到了作業后在學也一樣,可是誰又能堅持每天作業后晚上還要學習,你只學作業中用到的,趁著大三這段時間多學學,打好自己的基礎,
我其實對作業沒什么概念,因為我還沒實習過,不知道社會需要的是何種人,我就像一個井底之蛙,渴望著去外面的世界看看,雖然危險,可卻無悔,但我知道,你沒有匹配的實力,你連出去的機會都沒有,所以大三加入了我學校的一個實驗室,聽說這個實驗室會有隊員們自己組隊,老師帶隊比賽,所以大三剛開始我就報名進去了,值得一提的是當時報名進去人數有二十幾人,最后堅持下來能提交作品的也就9個人,不過這都是些小插曲,我在這里認識了盧老師,和很多跟我一樣為了夢想奮斗的同學,

大三,夢開始的地方,我選擇在這里開始!!!
初識軟體杯
大三上學期的時候,實驗室里還有幾個大四的學長,整學期基本都是那幾個大四學長在實驗室,老師很少見到,從學長那里我了解到,我們實驗室主要做的比賽是軟體杯,從這里開始,我才逐漸了解軟體杯這個比賽,它是在下學期的時候可以報名參加,不過現在就得提前準備,比賽用的最多的語言是Python,在這之前我沒接觸過Python這門語言,說到底在這之前我腦袋里的編程知識都是學校教的,都是些基礎的c語言入門和java語言入門,資料庫基礎我提前學了,可是還不會用到專案中(說到這里我都覺得自己菜),可是有了點基礎學Python語言也沒那么難,后來學了django,爬蟲,資料分析等,期間也做了一個小的可視化專案,獲得了省三,也算是練練手吧,

隨著上學期的結束,老師開始叫我們自己組隊,為下學期軟體杯做準備,我當時也不知道自己學的怎么樣,也不知道找誰,后來一個大四學長找到我,我叫他鵬哥,他是那個我第一次去實驗室帶我學Python的人,之后給學習資料后…人不見了,我還以為他作業去了,后來我,鵬哥和一個他找的隊友三個人組隊了,從這里還是,才是我軟體杯之旅的起點,
迷茫和奮斗
剛開始天真的我們報了百度的人形追蹤比賽,因為之前鵬哥學習過yolo演算法等,并且有些現成的模型可以用(這里說一下,剛開始我對于人工智能完全是小白,模型什么的都是不知道的),然后我就開始學習,好準備接下來的專案,我當時就很虎,直接跳過機器學習基礎,兩天時間去百度課堂過了一遍YOLO

花了一個多星期學深度學習,沒基礎學起來真的艱難,聽得糊里糊涂,然后找檔案各種研究卷積層,池化等,漸漸的有了眉目,也學了很多東西,就開始研究百度里給的那些代碼,比如手寫數字識別,一個個代碼研究,慢慢弄懂,最后全部都看懂了,當時的時候真的肝,一天都坐在電腦前,可是…,問題來了,看完百度的深度學習后,還是對這個人形追蹤比賽沒有一點頭緒,無法下手,你們問我鵬哥呢?他不是會么?其實他轉行學java了,Python只能說以前用過,也得從新開始學,

沒辦法,深度學習看完沒頭緒說明基礎不夠,得要找類似做這種人形追蹤的視頻學習一下,然后我又開始肝了,去b站上找了黑馬教程學習,看了整整一百集的深度學習的視頻,代碼一步步跟著敲,漸漸思路一步步理清,從開始的小白到懂得其原理,不過…,學完之后發現還是很難將這個人形追蹤做好,

后來…,你以為還有反轉?沒啦,后來就改題目了,實在是肝不動了,鵬哥說他一整天被迫摸魚,無從下手,于是我們及時止損換了題目,叫新聞文本分類,好了,新的目標又開始了,又得開始肝了,這回學自然語言處理NLP,不過有了深度學習的基礎,還是很好學的,還是去黑馬教程里面學,不就是112個視頻么,到醫院打幾瓶吊針就學會了,之后就是學了lstm,fsttext,seq2seq等文本處理的演算法,剛開始lstm處理官方文本準確率79%,用了fasttext直接飆到94%不過那是用了測驗集測驗的而已,驗證集就不咋地了,后來學完這些東西后,就開始自己調模型,說是調模型就是這里湊一點,那里湊一點,訓練完后效果還沒fasttext好,后來嘗試了textcnn,只能說我唯獨中意fasttext,這里學習時間就不說了,一直到比賽結束,我都在陶騰這個模型,就是效果不咋地,我人都傻了,然后訓練時間又久,很花時間,我的電腦兄弟都沒有好好休息過,我終于知道為什么把訓練模型的都叫煉丹師這一梗的由來了,

最后為了能更好的打好基礎,還是乖乖的去學了機器學習,掌握決策樹,線性回歸等演算法,能夠熟練的運用pandas和numpy進行資料處理
金蟬的初顯
有人會問了,一般比賽不是有隊名的么?小智你們隊名是什么?其實剛開始我們已經想好隊名,都報名上去了了,為什么不說呢?請由我慢慢道來,
因為我們的前端遲遲不來學校,沒有和我們一起做,畢竟比賽嘛,得要團隊合作,不然很難完成需求,所以我和鵬哥"跳槽"了,換了個人,這回我當隊長(激動中略帶點緊張),說起這個人,他是我的老鄉(都是海南的靚仔),我叫他能能,
他在實驗室也組隊了,也是弄得新聞文本分類題目,可是他們隊伍進度很慢,也很懶散,經常有事不能一起干活,然后就我們就上演了一波金蟬脫殼,三人合在一起組成新的隊伍,大家看到這里明白我題目金蟬的由來了吧!你想的沒錯,我們的隊名就叫金蟬,
金蟬初顯,條件給好,我們就要造勢,蓄力,開始準備,等待反擊,破殼而出,
苦戰和內卷
有人會問,為什么苦戰?內卷又是啥玩意?別急,在次聽我慢慢解釋,
原本軟體杯一般情況下都是在七月底前就要結束了,可是今年不一樣,突然通知七月八號交,好吧,沒關系,我七月三號放假,我肝到七月六號才回家不過分吧?回到軌道上來,鵬哥和能能兩個人真給力,一個新聞網站架構被他們一步步做出來了,點贊收藏推薦功能不缺,而我,為了讓模型效果更好,且分析出題方的想法,自己去寫了爬蟲代碼,爬取各大新聞文章,讓我們看看受害者名單:
(1)人民網: 教育,游戲
(2) 中國教育網:教育
(3) 3dm游戲,游民星空:游戲
(4) 和訊:汽車,房產
(5) 新浪:科技,軍事,財經,體育,娛樂
(6) 中華網:游戲
以上就是被我 “玷污” 過的網站.還有一些被我 “調戲” 過,可是不好下手,就放過它了,
不得不說資料集的收集太難了,撰寫了很多爬蟲代碼,通過lxml,re,selenium等爬蟲技術,期間還遇到反爬,設定代理ip,sleep,通過re正則獲取json格式的資料

以上是我爬取和訊新聞網時候的截圖,這是我印象最深刻的,獲取他的json資料后,無法決議,因為他的json格式不對,然后我通過正則,嘗試了好多次,才將它修改成json資料,而且由于訪問頻率過快過多ip還被攔截,我用上了代理,保險起見我還加了sleep,
值的一提的是百度paddle真香,免費算力可以用,之前去他那里學習深度學習沒白費,發現了個好東西,給我的電腦兄減少點壓力,不然什么東西都在電腦上跑,cpu得炸掉,

特征工程決定模型上限,模型只是讓他逼近這個上限而已,所以資料分析少不了,我通過pandas,numpy等資料分析工具,將爬取到的資料結合在一起,然后通過分析比較將資料劃分成等分,每一個類有三萬資料可以訓練,有2000條資料可以測驗,在對資料進行去重,去除標點符號等操作,剛開始我只對資料進行簡單的清洗,后來發現可以通過jieba來分詞,還可以使用停用詞來對資料進行操作

為了模型效果更好,我將英文字母和數字通過sub給去除了,可是效果沒想象中的好,我們在通過比較分詞好還是單個詞好,對模型進行訓練比較,
這還不夠,要不斷的進行煉丹訓練,尋找最優的結果,嘗試用不同的資料對模型進行測驗,這期間真是苦的不行,資料量不夠還得各種爬,有些網站能爬的也就幾百條,爬完還得找別的,資料也不能太老,最好是這一年的,剛開始寫爬蟲分析還挺開心的,最后一邊寫一邊說某某新聞網站的反爬真垃圾,
好了,說到這里苦已經說完了,不對,這苦是說不完的,只能說,最苦的也就這些,其他的就不一一解釋了
那么我們來講講關于如何內卷?上面不是說延遲到了七月八號么,到了七月底的時候又改了,改成七月十五號才交,完蛋了!本來我這個賽題報名的人又多,這一延長,大家又開始優化了,本來我們做的差不多了,有些瑕疵和功能也就那樣吧,現在不行了,我們親愛的盧老師囑咐我們要抓緊,不能松懈,一松懈就被人家落下了,所以內卷開始了,不斷的跟著假想敵斗爭,鵬哥就跟產品經理一樣,一直給我能哥加功能,加需求,一點時間都不能放過,這里說一件有趣的事情,由于我們已經買好機票了,這突然延遲打亂了我們陣腳,因為做專案是要一起的,不然無法很好的交流溝通,回家更加不方便了,老師也建議我們不要回家,退票錢他來出,不得不說老師真的很盡責,
不過我們最后還是回去了,其實回去也可以做,我把專案部署到服務器,讓前端呼叫,就是有點不方便交流,我通過pycharm軟體實時更新服務器上的代碼,因為我的模型要不斷做調整,而且我是通過django呼叫模型回傳給前端的,比如單條識別,批量識別,檔案的匯入匯出,現在才發現pycharm的香,
最后就是視頻整理,檔案整理,沒日沒夜花了三天,每天兩點才睡,一直到比賽結束的那天,交完之后,才終于安下心來,這里得夸一下能能,檔案一半以上都是他弄得,我就寫寫演算法而已,

至此,大三生活圓滿結束
感謝和成長
大三,如做夢般一下就過去了,現在回想起來,在專案上經歷的一切焦慮,憂愁,困難都是那么的珍惜難得,它讓我有了飛快的成長,促進了我的進步,如果沒有這次比賽,我也不能如此拼命去學,去探索,可能在學深度學習卷積層就放棄了,
我在這里認識了可愛的盧老師,說可愛這詞其實也不太行,不過我不知道用什么詞來表述,因為他亦師亦友,說話也很逗,我們有過錯,他從不會嚴厲的責罰我們,而是跟我們講道理,就如那種談人生,聊理想的感覺,在比賽的最后幾天,雖然他很忙,當會抽空叮囑著我們,幫我們這里檔案,一直到提交的那一刻,而且他給了我很多幫助,使我對自己的方向不迷茫,有動力學下去,很感謝老師的教導,
再有就是我的隊員了,鵬哥現在比賽完后就找作業了,作業還挺可以的,不得不說鵬哥組織能力真的可以,有時候雖然你知道他在吹牛皮,可是無形中卻給了你動力,如果沒有他,我的隊伍恐怕就和其他隊一樣是一盤散沙,無法做的很好,通過這次比賽和我的觀察,我才知道一個領袖是多么重要,至于能能,都是老鄉,就不說什么了
作品的展示
說了那么多,看看我們金蟬隊辛苦的成果吧,各位大佬勿噴,真的盡力了,其實我們自我感徑訓行,哈哈
這是用戶界面

這是管理員界面

這是手機端

本人csdn博客:https://blog.csdn.net/weixin_46654114
轉載說明:跟我說明,務必注明來源,附帶本人博客連接,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/289167.html
標籤:AI
上一篇:OpenCV4機器學習(一):OpenCV4+VS2017環境搭建與配置
下一篇:opencv檢測動態物體
