八爪魚采集器產(chǎn)品調(diào)研分析報告
大家對于八爪魚采集器這個產(chǎn)品的了解有多少呢?下面這篇文章是筆者對這個產(chǎn)品的一個調(diào)研分析報告,大家一起來看看吧!
一、調(diào)研目的和背景
1. 調(diào)研背景
八爪魚是深圳視界信息技術(shù)有限公司開發(fā)的一款數(shù)據(jù)采集器,目前在網(wǎng)頁數(shù)據(jù)采集軟件領(lǐng)域內(nèi)占據(jù)領(lǐng)先的地位,與之相競爭得軟件還有火車頭、集搜客、神箭手云爬蟲等。對于搜索平臺,數(shù)據(jù)采集是數(shù)據(jù)集成關(guān)鍵的一環(huán),涉及到之后的數(shù)據(jù)建庫、數(shù)據(jù)分析、數(shù)據(jù)可視化;其次簡潔高效的可交互性對于用戶也能提升較大的使用體驗。
作為數(shù)據(jù)采集器的排頭兵,八爪魚的用戶群體廣泛,其產(chǎn)品有獨特的亮點,能夠比較好地滿足不同類型業(yè)務(wù)下對數(shù)據(jù)搜索的需求,基于此,開展八爪魚采集器產(chǎn)品調(diào)研。
2. 調(diào)研目的
通過對八爪魚采集器windows10下8.2.2版本進行深度體驗,首先對八爪魚進行定位分析;然后,對八爪魚進行產(chǎn)品分析,挖掘不同用戶的需求和場景,并通過完成主流用戶的操作任務(wù),還原產(chǎn)品的邏輯和結(jié)構(gòu);最后,通過市場上用戶反饋和競品對比分析,提出產(chǎn)品優(yōu)化的方向。
二、對八爪魚的定位分析
八爪魚的基本定位是互聯(lián)網(wǎng)數(shù)據(jù)采集軟件,通過提供不同的采集方式,讓用戶能夠在短期內(nèi)根據(jù)自己的業(yè)務(wù)需求,快速獲取自己所需求的數(shù)據(jù),并支持不同的導(dǎo)出方式進行數(shù)據(jù)分析和可視化。
在產(chǎn)品上線初期,市場上多數(shù)網(wǎng)頁數(shù)據(jù)采集技術(shù)主要是接收指定頁面,然后用正則表達(dá)式分析里面的網(wǎng)頁結(jié)構(gòu),獲取指定的數(shù)據(jù)。
采集不同網(wǎng)站的數(shù)據(jù),所用的正則表達(dá)式也不同。
但是八爪魚就以其傻瓜式采集的特點吸引眾多用戶,它簡略了這一過程,即使不會正則表達(dá)式或者說是不會代碼,也可以進行信息的采集,大大的降低了操作難度。
目前,八爪魚在采集上的核心功能是模板采集、智能采集、云采集、自定義采集四個方面。從最開始的簡單、快速化采集,到現(xiàn)在智能化、自動化采集,能夠在線5000臺云服務(wù)器,24*7小時不間斷的高效穩(wěn)定采集,提供30/100云節(jié)點高并發(fā)采集能力,能完成大規(guī)模數(shù)據(jù)的采集。
八爪魚,具有清晰的產(chǎn)品定位,在大數(shù)據(jù)自動化時代,掌握了用戶對數(shù)據(jù)的大量需求,配合以簡單易學(xué)的可視化操作界面,在爬蟲類軟件領(lǐng)域占據(jù)領(lǐng)先地位,目前,正處于穩(wěn)步優(yōu)化和發(fā)展的階段。
三、對八爪魚的產(chǎn)品分析
為了更加深入地了解產(chǎn)品,本調(diào)研從市場分析、競對分析、用戶畫像、產(chǎn)品核心架構(gòu)、產(chǎn)品業(yè)務(wù)流程圖、產(chǎn)品優(yōu)缺點及改進方向六個方面進行產(chǎn)品分析。
1. 市場分析
近年來,中國政府對大數(shù)據(jù)產(chǎn)業(yè)的支持力度不斷加大。2015年,國務(wù)院發(fā)布《促進大數(shù)據(jù)發(fā)展行動綱要》,明確提出推動大數(shù)據(jù)產(chǎn)業(yè)發(fā)展,加快建設(shè)數(shù)據(jù)強國。在此背景下,中國爬蟲軟件市場逐漸嶄露頭角。
市場規(guī)模方面,根據(jù)相關(guān)數(shù)據(jù),2019年中國爬蟲軟件市場規(guī)模為10.8億元,預(yù)計到2025年將達(dá)到50億元,年復(fù)合增長率達(dá)24.6%??梢钥闯觯老x軟件市場具有巨大的增長潛力。
競爭格局方面,目前中國爬蟲軟件市場主要由幾家頭部企業(yè)主導(dǎo),包括數(shù)倉、八爪魚、光年等。這些企業(yè)通過技術(shù)創(chuàng)新和精準(zhǔn)定位,在市場上占據(jù)了重要地位。
以下的圖表展示了全球爬蟲軟件在近十年的市場增長率變化:
2. 主流的爬蟲軟件競品分析
上一節(jié)分析到關(guān)于爬蟲軟件的市場占有率在不斷增長,在中國市場中,以下的5個產(chǎn)品在用戶體量、軟件知名度、市場占有率等指標(biāo)上表現(xiàn)不俗,以下為這5個產(chǎn)品的競品分析:
3. 用戶需求和場景
八爪魚的基本定位是數(shù)據(jù)抓取平臺,主要用戶有產(chǎn)品、運營、銷售、數(shù)據(jù)分析、政府機關(guān)、電商從業(yè)者、學(xué)術(shù)研究等多種身份職業(yè),對應(yīng)的業(yè)務(wù)場景也非常廣泛,這一類人對數(shù)據(jù)的利用程度和需求指數(shù)是不同的,并且受到教育程度和專業(yè)化程度不一樣。
通過對八爪魚采集器一段時間的使用,得到大致的用戶需求如下:
1) 數(shù)據(jù)采集的精準(zhǔn)性
對于用戶來說無論采集源是什么,通過配置要采集的數(shù)據(jù),將網(wǎng)頁中無用的信息忽略,只提取出用戶關(guān)心的關(guān)鍵數(shù)據(jù)點,是最為關(guān)鍵的。
2) 數(shù)據(jù)分析的有效性
完成數(shù)據(jù)采集后,就應(yīng)該有準(zhǔn)確的分析和使用數(shù)據(jù)能力,透過對采集數(shù)據(jù)的深入分析,建立分析模型,通過對數(shù)據(jù)進行分析,計算,統(tǒng)計,趨勢分析等等,從而幫助用戶做出正確的決策,洞察真實數(shù)據(jù)的變化。
3) 數(shù)據(jù)整合的自動化
最后整合數(shù)據(jù),實現(xiàn)數(shù)據(jù)源源不斷的進入系統(tǒng)。讓整個數(shù)據(jù)采集,分析,決策的過程實現(xiàn)自動化。針對以上的數(shù)據(jù)需求,參考類似競品調(diào)研,將八爪魚的用戶分為數(shù)據(jù)小白、數(shù)據(jù)行家、企業(yè)用戶,并總結(jié)了他們各自的使用場景和需求。
4. 產(chǎn)品核心架構(gòu)
為了更加全面地了解八爪魚產(chǎn)品,本調(diào)研梳理了產(chǎn)品的核心架構(gòu),具體內(nèi)容如下圖所示:
八爪魚的大致架構(gòu)比較清晰,主要是包括模板采集、智能采集、自定義采集、云采集四個板塊,以人的瀏覽行為為路徑,讓用戶在使用產(chǎn)品的時候比較容易上手。
首先模板采集內(nèi)置了上百種主流網(wǎng)站數(shù)據(jù)源,如京東、天貓、大眾點評等熱門采集網(wǎng)站,即對于一些搜集需求量大的一些數(shù)據(jù)源網(wǎng)站的匯總,包括常見的數(shù)據(jù)字段,和操作,對于一些初級操作者在一些數(shù)據(jù)字段不特殊的情況下使用,例如學(xué)生對于研究某一熱點現(xiàn)象或者影視作品的數(shù)據(jù)搜尋,或是電商從業(yè)者對不同商品的各類指數(shù)的研究,以及疫情下對于所有疫情情報的收集。
其次自定義采集是目前用戶采集數(shù)據(jù)的主要方式,其需要用戶具備一定網(wǎng)頁結(jié)構(gòu)的知識,或者通過八爪魚官方的教程來學(xué)習(xí)采集的流程,其最大的特點是模擬了人的瀏覽行為進行采集數(shù)據(jù),例如不管任何操作前都要輸入目標(biāo)網(wǎng)址,再對目標(biāo)內(nèi)容進行一一選中,同時進行額外的循環(huán)操作。
智能采集是在模板采集中缺少模板,同時不想在自定義采集下耗費精力的另外一種方式。輸入數(shù)據(jù)源網(wǎng)站后,支持一鍵識別網(wǎng)頁,該網(wǎng)頁內(nèi)的各字段即可被選中采集,之后可以進行增加翻頁和滾動操作,但僅限于單一網(wǎng)頁結(jié)構(gòu)下內(nèi)容的提取,若需要進一步的對某個鏈接內(nèi)部進行點擊操作,其程度類似于自定義,只不過不需要對采集字段一一選擇,而是由八爪魚自動識別后抓取。
云采集作為八爪魚的收費項目,必然有其亮點之處。通過云采集實現(xiàn)多任務(wù)并發(fā)和單任務(wù)加速的采集效果以便用戶快速的收集整理互聯(lián)網(wǎng)公開數(shù)據(jù)。
其主要功能點如下:
- 采集速度。
- 實現(xiàn)無人值守??申P(guān)閉電腦、軟件進行數(shù)據(jù)采集,真正實現(xiàn)無人值守。
- 定時采集。云采集星球是7*24小時,可設(shè)置任務(wù)的定時工作。
- 數(shù)據(jù)自動入庫。
- 通過數(shù)據(jù)導(dǎo)出API接口,實現(xiàn)秒級導(dǎo)出,無縫對接內(nèi)部系統(tǒng)。
5. 產(chǎn)品業(yè)務(wù)流程圖
從根本上來說八爪魚的特質(zhì),首先其原理就是模擬人的瀏覽行為,第一步永遠(yuǎn)是找到目標(biāo)網(wǎng)址并進行輸入,和與手機上的操作類似,需要對目標(biāo)數(shù)據(jù)進行點擊,翻頁,采集。
其次就是,八爪魚能夠根據(jù)不同的網(wǎng)站制定不同的采集規(guī)則,之后就能為用戶提供自動化采集的模板。因此,可以看出八爪魚的業(yè)務(wù)范圍和用戶群體都是相對大眾的,但是從制定規(guī)則處又能兼容更高層次采集業(yè)務(wù)的需要。
因此,本調(diào)研梳理了八爪魚自定義采集的業(yè)務(wù)流程圖。
由于八爪魚官方?jīng)]有關(guān)于微信公眾號文章的抓取模板,故采用自定義的方式進行抓取,由于模擬人的瀏覽習(xí)慣,在打開頁面后首先創(chuàng)建翻頁循環(huán),通過選擇Ajax技術(shù)和頁面刷新等待時間,更好匹配網(wǎng)頁加載的時間,接著創(chuàng)建列表循環(huán)并提取數(shù)據(jù),提取自己所需要的相應(yīng)字段后,啟動本地采集或是云采集,之后選擇導(dǎo)出數(shù)據(jù)。
在梳理“自定義采集”業(yè)務(wù)流程的過程中,發(fā)現(xiàn)具有幾個特點:
- 對于不同網(wǎng)站有不同的抓取規(guī)則,在制定好采集規(guī)則后,根據(jù)流程全自動采集數(shù)據(jù),下一次類似網(wǎng)站依舊能使用相同規(guī)則。
- 操作流程可視化。在進行采集的過程中,可以同步查看自己采集的流程圖。
- 智能化,支持自動識別網(wǎng)頁,采集網(wǎng)頁中可提取的各個字段。并在識別頁面操作之后,提示是否需要增加翻頁采集或者列表循環(huán)采集,如果采集字段并非所需,還可以切換識別結(jié)果。
- 上手難度比較低,有很多功能屬于隱藏款,需要在增加熟練度之后才能開發(fā)。比如配置xpath,要會查看網(wǎng)頁源代碼,理解網(wǎng)頁結(jié)構(gòu)之后才會使用。但也比一般的爬蟲工具易于理解。
6. 用戶反饋和優(yōu)化方向
通過對數(shù)據(jù)收集整理,剔除好評數(shù)據(jù)和無意義數(shù)據(jù),形成以上用戶反饋表格,本調(diào)研得出以下結(jié)論:
優(yōu)化方向:
- 用戶反饋數(shù)據(jù)偏少,可能未客觀全面反映出產(chǎn)品存在的問題。
- 產(chǎn)品的bug主要出現(xiàn)在采集數(shù)據(jù)的操作過程中,是產(chǎn)品的核心操作,直接影響用戶體驗,建議聯(lián)系反饋者,并測試bug是否存在,如果bug還原,及時處理,如果bug未還原,進入觀察期。
- 采集數(shù)據(jù)操作的簡易型是用戶選擇八爪魚的重要因素,對于模板采集需要增加更多的模板,可以從兩個方面入手,一是開設(shè)模板上傳功能,讓用戶在采集完成后覺得不錯,穩(wěn)定性高的模板采用積分鼓勵的方式上傳,二是創(chuàng)建官方的博客專區(qū),放置更多的模板和介紹,并讓用戶留言的方式增加互動性,也可以解決一部分的技術(shù)問題。
- 對于自定義采集,對于一些常用的網(wǎng)站可以在自定義識別后,自動保留上一次在該網(wǎng)站進行采集的流程,可以減少因為條件增加的基礎(chǔ)上導(dǎo)致規(guī)則崩潰的問題。
- 關(guān)于任務(wù)數(shù)上限的問題,在同時啟動多少個任務(wù)下效率最高,且不會卡死,是一個待解決的問題。
三、總結(jié)
總的來說,八爪魚的優(yōu)點是:簡單易用、規(guī)則好找、可視化界面、容易學(xué)習(xí)和模仿。
直觀看到網(wǎng)頁變化,不管是測試還是采集的時候都容易規(guī)避一些操作失誤;自定義規(guī)則相對較快,官方文檔詳細(xì)。而缺點則是:模板量不夠豐富,自定義規(guī)則容易因錯誤操作導(dǎo)致卡死,企業(yè)版出現(xiàn)采集速度緩慢等原因。
未來迭代方向及思路:
1)用戶引導(dǎo)方面
可以在用戶第一次使用之前就進行強制的操作教學(xué),分成若干的課程給用戶進行學(xué)習(xí),沒完成一項就給予積分鼓勵。積分可用來下載VIP模板或者提高采集速度。
2)智能化方面
若用戶在選擇進入采集頁面之后自動識別到該網(wǎng)頁在本模板庫中,可以先向用戶推薦使用該模板采集,若庫中沒有此類模板,則開啟自動化識別,之后為用戶提供是否需要翻頁采集,是否需要圖片采集等一系列功能。
3)模板采集方面
對于模板采集需要增加更多的模板,可以從兩個方面入手,一是開設(shè)模板上傳功能,讓用戶在采集完成后覺得不錯,穩(wěn)定性高的模板采用積分鼓勵的方式上傳,二是創(chuàng)建官方的博客專區(qū),放置更多的模板和介紹,并讓用戶留言的方式增加互動性,也可以解決一部分的技術(shù)問題。
4)基于同儕互助的問答社區(qū)
由于目前人工客服只對企業(yè)版開放,大多數(shù)普通用戶不到解答,就導(dǎo)致了用戶流失和惡意評價等問題,建立評論社區(qū)可以減少人工客服的負(fù)擔(dān),同樣可以為產(chǎn)品帶來更多效益。
本文由 @瓜皮結(jié)衣 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
競品分析沒結(jié)論嘛
結(jié)論這部分內(nèi)容在6用戶反饋和優(yōu)化總結(jié)
不黑,八爪魚的售后服務(wù)很差