我投了份簡歷,接到了十八個騷擾電話

0 評論 6336 瀏覽 8 收藏 13 分鐘

是誰泄露了隱私信息?可能是你的簡歷。

都說金三銀四,最近打算換工作的蘇大強(qiáng)(蹭熱點(diǎn)式化名)在各大招聘平臺掛上了自己的簡歷。誰知道剛過兩天就接到了十八個騷擾電話,其中只有兩個來自獵頭。

我投了份簡歷,接到了十八個騷擾電話

在接起第十八個貸款推廣騷擾電話后,蘇大強(qiáng)崩潰了,誰!又是誰TM泄露了我的信息,沒錢不貸款還不起還不行嗎!

你有沒有想過,數(shù)據(jù)泄露可能源于那份簡歷。

貼條巧達(dá)

先說一起新聞。不久前網(wǎng)上有爆料稱簡歷大數(shù)據(jù)公司北京巧達(dá)科技被查封,全員被抓,隨后有部分員工被放出。

3月24日,三言財(cái)經(jīng)也實(shí)地走訪了巧達(dá)位于中關(guān)村辦公室,發(fā)現(xiàn)大門現(xiàn)已被封條封住,辦公室內(nèi)空無一人。該封條由中鋼國際廣場保安部張貼,時間為2019年3月14日。

于是有人好奇,這家公司做了啥突然被封?

根據(jù)公開信息,巧達(dá)科技號稱擁有中國最大的簡歷數(shù)據(jù)庫,其主要數(shù)據(jù)來源是“喬大招”。喬大招旗下則擁有“愛伙伴”、“簡歷時光機(jī)”等在內(nèi)10多款招聘相關(guān)產(chǎn)品。

“喬大招”可以做到通過一款工具匯總多家招聘網(wǎng)站賬號信息,企業(yè)客戶可以統(tǒng)一發(fā)布職位、收取簡歷;其次,該工具可以抓取簡歷的修改歷史,可以查看到對應(yīng)簡歷被查閱次數(shù)、修改記錄等信息;不僅如此,還可以將簡歷上傳至平臺,供其他企業(yè)、獵頭使用。

愛伙伴是一款提供“員工離職預(yù)測”的工具軟件,該軟件可以檢測到員工投遞簡歷、員工簡歷更新情況以及員工簡歷被查看次數(shù)等信息。企業(yè)用戶購買愛伙伴后,即可查看其收集匯總的簡歷數(shù)據(jù),依此判斷公司員工的離職傾向。

簡單說,這個一款給老板打小報告的軟件,哪個員工有離職的想法都可能被提前知道。

截至2015年6月30日,在喬大招的數(shù)據(jù)庫中,以人為計(jì)算,收入自然人的簡歷超過1.6億人。以版本來計(jì)算,簡歷超過18億個版本,超過25億行為軌跡。說不準(zhǔn)你精心準(zhǔn)備的簡歷就在其中!

這些數(shù)據(jù)都被這家公司用于牟利,甚至涉及違規(guī)收集個人信息。封條一帖,巧達(dá)涼涼。

不過,一家“巧達(dá)”倒下了,還有其他“巧達(dá)”站起來,打著智能招聘SaaS系統(tǒng)的簡歷公司披著偽善外衣,暗地做著吸血勾當(dāng)。

智能招聘SaaS系統(tǒng)

想要竊取招聘網(wǎng)站的簡歷數(shù)據(jù)有什么招數(shù)?

1. 利用公開數(shù)據(jù),通過爬蟲工具爬??;

2. 合法賬號內(nèi)部獲取數(shù)據(jù);

3. 利用網(wǎng)站平臺的漏洞進(jìn)入系統(tǒng)獲取數(shù)據(jù)。

其中,爬蟲技術(shù)運(yùn)用最為廣泛,因?yàn)椴恍枰W(wǎng)站有任何漏洞,只需要模擬正常用戶訪問操作,就可以抓取。

瑞數(shù)信息CSO馬蔚彥告訴雷鋒網(wǎng),一般黑產(chǎn)會通過腳本、自動化框架、手機(jī)等工具去訪問招聘網(wǎng)站平臺,通過分析招聘網(wǎng)站的接口,這些工具可以自動的進(jìn)行搜索關(guān)鍵字輸入、翻頁,對招聘網(wǎng)站內(nèi)容進(jìn)行抓取,然后通過腳本程序,將抓取到的原始數(shù)據(jù)進(jìn)行格式化處理,轉(zhuǎn)換成可閱讀的簡歷。后期爬蟲還可以同過定時機(jī)制,來進(jìn)行簡歷數(shù)據(jù)的定時獲取更新。

這種爬蟲技術(shù)與爬各大網(wǎng)站低價機(jī)票本質(zhì)是一個套路,不同點(diǎn)在于:機(jī)票是全公開的,誰都可以看。但部分簡歷數(shù)據(jù)需要登錄或者付費(fèi)后查看的,這時候就需要爬蟲組織囤積大量賬號進(jìn)行簡歷抓取。

這些賬號從何而來?于是打著智能招聘SaaS系統(tǒng)的簡歷公司出現(xiàn)了,聲稱該SaaS產(chǎn)品可以“幫助一個HR管理多個平臺上發(fā)布的職位和收到的簡歷”,只需要登錄一個平臺就能管理所有渠道的簡歷信息。

購買該產(chǎn)品后,HR手中各大招聘平臺的付費(fèi)賬號都被簡歷公司所掌握。

(注:目前很多招聘網(wǎng)站的商業(yè)模式都包括付費(fèi)下載簡歷進(jìn)行收費(fèi),花幾萬元可以下載幾千份簡歷,可以查看該招聘網(wǎng)站的無限量個人簡歷。)

筆者詢問了某做爬蟲技術(shù)的好友,對方稱,通過爬蟲技術(shù)抓簡歷一般要解決四個問題:

1. 登陸的問題,需要購買一些賬號;

2. 破解登陸的驗(yàn)證碼;

3. 購買ip代理、切換ip;

4. 控制好爬蟲的速度,因?yàn)榈卿浐?,一般網(wǎng)站后臺都會存有日志記錄,抓的太快的話,會被封。

而一套賣給HR的智能招聘SaaS系統(tǒng)就能解決前三個問題,把非法的變成合法的,破解賬戶變成買賣服務(wù)。這操作,這腦洞,編輯嘆為觀止。

我投了份簡歷,接到了十八個騷擾電話

有了賬號,之后的操作就更簡單了。利用HR的賬號托管,SaaS方可以去爬取各大招聘平臺的簡歷信息,并做到實(shí)時翻新。

馬蔚彥表示這種實(shí)時可以分為實(shí)時和準(zhǔn)實(shí)時。

實(shí)時的:有HR來招聘網(wǎng)站上進(jìn)行簡歷檢索的時候,除了會顯示自己本地的數(shù)據(jù),還會將搜索請求轉(zhuǎn)發(fā)給其他招聘網(wǎng)站的搜索接口進(jìn)行數(shù)據(jù)獲取,并且可以將爬來的數(shù)據(jù)進(jìn)行智能比對,更新簡歷。

準(zhǔn)實(shí)時:每個簡歷在招聘簡歷上都一個唯一的ID,爬蟲可以定時的,以ID為參數(shù)進(jìn)行簡歷數(shù)據(jù)獲取。也就是只要你更改簡歷,對方就會收到數(shù)據(jù),同步更改。

這時候,你的簡歷還只是你的嗎?

掛鉤黑產(chǎn)

潘多拉魔盒未打開時一片平靜,放在黑盒中的簡歷數(shù)據(jù)也是一樣。

你的簡歷上都有什么信息?生日、電話、地址、身份證信息、工作經(jīng)歷……這些詳細(xì)得不能再詳細(xì)得數(shù)據(jù)被分銷出去,可能賣給大數(shù)據(jù)分析公司,賣給獵頭,賣給貸款公司、賣給詐騙組織,這些都是黑產(chǎn)中的某一環(huán)節(jié)。

而信息裸奔的你可能接到N個騷擾電話卻還不知道問題出自簡歷。

即使沒有這些打著智能招聘SaaS名義的公司,你的簡歷就安全嗎?

不一定,邦盛科技產(chǎn)品總監(jiān)焦林俊向雷鋒網(wǎng)透露,某國內(nèi)top級別的招聘平臺曾表示,有些大商戶(付費(fèi)大企業(yè))利用在招聘平臺的賬號密碼,登錄后臺通過爬蟲刷新數(shù)據(jù),爬取簡歷。

之后將爬取下來的簡歷放進(jìn)自己的數(shù)據(jù)庫,在合適時機(jī)將這些簡歷數(shù)據(jù)出售給需要的機(jī)構(gòu),相當(dāng)于二道販子。

至于是哪些公司,各位可以自由猜測。

反爬頗難

招聘公司面對各種爬蟲技術(shù)是否有反爬技術(shù)呢?

“目前也有多種反爬蟲的技術(shù),如驗(yàn)證碼,IP黑名單,頻率限制,IP限制,單一賬號可閱讀量、需要購買,通過User-Agent控制等手段都能進(jìn)行一定限制。但越來越多的高級爬蟲,利用大量代理IP,并且與真實(shí)瀏覽器訪問的環(huán)境相似度很高,傳統(tǒng)的反爬技術(shù)在面對高級爬蟲時已經(jīng)基本無能為力?!瘪R蔚彥說道。

焦林俊也表示,招聘網(wǎng)站確有采取一些反爬蟲技術(shù),比如前端進(jìn)行加密,后端加入了大數(shù)據(jù)分析,機(jī)器學(xué)習(xí)等技術(shù)。但對大商戶爬取數(shù)據(jù)的行為招聘網(wǎng)站也有些頭疼,迫于營收壓力,他們不會采取直接攔截的措施。而且先通過后臺數(shù)據(jù)分析誰爬取了數(shù)據(jù),再針對不同對象采取相應(yīng)的反爬措施。

目前來說,爬蟲技術(shù)仍處于灰色地帶,對于利用爬蟲技術(shù)獲取公開數(shù)據(jù)這一行為的正誤,在認(rèn)知上也各有不同。目前更多的還是在道德層面,而非法律,比如:遵循robots,盡量放慢爬取速度,從而減少對提供數(shù)據(jù)查詢網(wǎng)站的壓力,不要造成拒絕服務(wù),不要公開爬蟲程序源碼,不要分享爬蟲數(shù)據(jù)等等。

(注:robots是網(wǎng)站跟爬蟲間的協(xié)議,用簡單直接的txt格式文本方式告訴對應(yīng)的爬蟲被允許的權(quán)限,也就是說robots.txt是搜索引擎中訪問網(wǎng)站的時候要查看的第一個文件。當(dāng)一個搜索蜘蛛訪問一個站點(diǎn)時,它會首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果存在,搜索機(jī)器人就會按照該文件中的內(nèi)容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁面。)

但這些在馬蔚彥看來,缺乏法律保障的約束力非常弱。

隨著涉及個人、企業(yè)的數(shù)據(jù)資源越來越多,提供這些數(shù)據(jù)的平臺、系統(tǒng)也越來越多,非常需要通過建立正確的爬蟲觀念、提升反爬技術(shù)手段、建立合理的爬蟲相關(guān)法律規(guī)定等都多方面的綜合努力,才能更好地提供對于惡意爬蟲的防御,保護(hù)企業(yè)和客戶數(shù)據(jù)資源。

對于終端用戶來說,除了接到手軟的騷擾電話,似乎是完全無感知的。

焦林俊表示,用戶應(yīng)該避免在不安全的招聘網(wǎng)站發(fā)布簡歷,遇到打電話稱自己是獵頭需要提供本人完整信息的說法也不要輕信。而對于招聘網(wǎng)站,應(yīng)該從業(yè)務(wù)方面進(jìn)行規(guī)范,搭建自己反爬蟲平臺,利用前沿的反爬蟲技術(shù),如大數(shù)據(jù)分析,根據(jù)訪問行為提取特征,通過設(shè)備指紋,人機(jī)識別,環(huán)境檢測等技術(shù)識別出人還是機(jī)器。這樣即可以去掉驗(yàn)證碼等降低用戶體驗(yàn)的操作,也避免了用戶有價值的信息被爬取。

做反爬不能誤傷正常用戶,這是反爬蟲技術(shù)的關(guān)鍵點(diǎn)。爬蟲與反爬蟲永遠(yuǎn)在對抗,沒有勝負(fù)。

 

作者:又田

參考來源:三言財(cái)經(jīng)

原文鏈接:https://mp.weixin.qq.com/s/9AOghHU–QLX8Z9LUnGXbQ

本文來源于人人都是產(chǎn)品經(jīng)理合作媒體 @雷鋒網(wǎng),作者@又田

題圖來自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!