
我國目前并未出臺專門針對網路爬蟲技術的法律規范,但在司法實踐中,相關判決已屢見不鮮,K 哥特設了“K哥爬蟲普法”專欄,本欄目通過對真實案例的分析,旨在提高廣大爬蟲工程師的法律意識,知曉如何合法合規利用爬蟲技術,警鐘長鳴,做一個守法、護法、有原則的技術人員,
案情介紹
2018年10月,北京市公安局海淀分局警務支援大隊接到轄區某互聯網公司報案稱,發現有人在互聯網上兜售疑似為該公司的用戶資訊,根據這條線索,警方迅速開展調查,巧達科技(北京)有限公司非法竊取資訊的犯罪事實逐漸浮出水面,2019年3月,巧達科技被查封,涉案員工被警方依法刑事拘留,目前還沒有從公開資料中查到此案件的判決文書,
警方查明,與正規招聘網站的簡歷由用戶自己上傳不同,巧達科技的簡歷資料庫全部是通過非法手段爬取而來,“嫌疑人通過利用大量代理IP地址、偽造設備標識等技術手段,繞過招聘網站服務器防護策略,竊取存放在服務器上的用戶資料,”網安總隊辦案民警李文濤說,從不同網站竊取來的資訊被重新合并、排列,重名或是資訊不全的資訊經過“再比對”后形成完整的簡歷和用戶畫像,
針對爬蟲獲取簡歷的手段,一位巧達科技前員工告訴燃財經,巧達在智聯、獵聘等網站上,建立了上千個企業賬戶,每天訪問智聯、獵聘的網站次數百萬次,都是機器在模擬人工操作,這位員工稱,他去年離開巧達之前,巧達依然在用爬蟲手段獲取簡歷,
據悉,巧達科技非法獲取的簡歷超過2億條,基于這些資料,公司開發了“72招瀏覽器”,將其簡歷資料庫以13800元每年的價格賣給有需求的企業客戶,客戶就可以在瀏覽器上直接調取簡歷資訊,
辦案民警介紹,在巧達科技竊取資料程序中,還因傳輸資料量過大導致報案公司服務器數十次中斷服務,影響上千萬用戶正常訪問,帶來嚴重的經濟損失,
據網路上暴露的一份巧達資料給客戶的商務合作BP(商業計劃書),這份檔案宣稱:巧達科技旗下有38個B端招聘產品、超過170萬招聘者用戶,巧達科技資料庫有2.2億自然人的簡歷、簡歷累計總數37億份,此外,巧達科技還有超過10億份通訊錄,并且掌握著與此相關的社會關系、組織關系、家庭關系資料,結合簡歷、通訊錄,以及外部獲取的超過千億條其他用戶資料,巧達科技自稱擁有超過8億自然人的認知資料,也就是說,超過57%的中國人的資訊都在巧達科技的資料庫里面,

根據檔案介紹,巧達科技將這些資料用在教培、保險、招聘等行業,某大型地產公司、某職業教育培訓機構、某分類資訊網站和幾家招聘網站在這份檔案里被列為典型案例,資料生意為巧達科技帶來了大量收入,2016年,巧達科技全年收入1.2億元,凈利潤4800萬元;2017年,巧達科技全年收入4.11億元,凈利潤1.86億元,凈利潤率超過45%,
此外,這份商業計劃書中單獨有5頁來講述業務合規性,其中展示了資料的獲取來源于3個途徑,巧達科技自稱都是合法取得:
1,自有招聘網站:求職者用戶直接授權,包括簡歷中敏感資料和非敏感資料;
2,招聘工具產品:HR/獵頭用戶授權,包括簡歷中敏感資料和非敏感資料;
3,第三方資料源:合作方授權,包括用戶ID組合,通訊錄,行為標簽和偏好畫像,
獲得資料后,巧達科技將簡歷中敏感資料、用戶ID組合、通訊錄進行MD5脫敏,以及簡歷中非敏感資料、行為標簽、偏好畫像,一并放入資料庫中,資料通過建模計算,結合用戶的認知引擎,最后提供給客戶,

巧達科技提供的多項服務都指向用戶個人,不論是通過自有渠道還是第三方渠道,沒有經過用戶同意和違反用戶意愿的資料交易,都屬于擅自利用用戶資訊并可能侵犯隱私,

反思總結
我們知道招聘網站,普通用戶是無法查看他人簡歷的,所以巧達科技建立了上千個企業賬戶,通過企業賬戶能看到投遞人或網站上全量求職者的完整簡歷,這很正常,也完全合法,重點在于巧達科技通過爬蟲技術使用幾千個企業賬戶大批量檢索并獲取招聘網站上的簡歷資料,并未經求職者本人同意,將原始資料及其多項未經授權的關聯資料合并加工后對第三方開放交易且獲取巨額利潤,
此業務的合法前提:一是,要有求職者本人的授權,即便巧達科技是通過自有招聘入口合法獲取求職者的簡歷,使用用戶資訊也必須限于求職者投遞簡歷的目的范圍之內,超過為求職者直接推薦作業機會之外的行為都是違反用戶意愿,屬于擅自利用用戶資訊并侵犯用戶隱私,
二是,巧達科技是從第三方獲取求職者的簡歷資料,第三方既要合法獲得求職者的簡歷,同時需要取得求職者對公開和轉售簡歷的許可,這兩個條件缺乏其一都會導致其獲取、購買和再利用求職者簡歷資料的行為不具有合法性,
我們還注意到,在巧達科技獲取資料程序中,還因爬取的資料量過大導致報案公司的服務器數十次中斷服務,影響上千萬用戶正常訪問,帶來嚴重的經濟損失,這和K哥前期的案例《【k哥爬蟲普法】程式員183并發爬取官方網站,直接獲刑3年?》中介紹的一樣,里面的反思總結同樣適用于本案例,
個人用戶的隱私資料碰不得,這句話已經說了千百遍了,更何況求職者簡歷中包含了大量的個人和曾任職企業的隱私和商業資訊,了解規則,敬畏法律,利用爬蟲技識訓取資訊,應該嚴格遵守相關法律、行政法規、部門規章的規定,否則極易落入“非法獲取”公民個人資訊的法律風險范疇,
還值得一提的是,類似智聯、獵聘、boss直聘等涉及到求職者個人隱私資訊的平臺,應當重視對客戶資訊的保護作業,boss直聘前段時間因某些原因還被審查過,對于求職者個人用戶資訊的下載、獲取,應當設定嚴格的權限,對于企業客戶的注冊應當嚴格審查,對于后臺大量獲取簡歷的行為應當做好嚴格監控和反制,官方理應及時介入處理,巧達科技之所以能夠在這些平臺建立上千個企業賬戶肆無忌憚的大批量檢索、爬取、下載簡歷,無疑和平臺的監管機制缺漏脫不了關系,

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/520589.html
標籤:Python
