關(guān)于開創(chuàng)性案例、重大事件與中國數(shù)據(jù)科技集團(tuán)的媒體報(bào)道
歷時(shí)三個(gè)月之久的中數(shù)經(jīng)緯爬蟲PK賽已圓滿結(jié)束。本次大賽面向全國開發(fā)者、爬蟲愛好者、在校學(xué)生展開爬蟲技能PK。大賽從啟動(dòng),推廣,招募,提交報(bào)名,作品實(shí)現(xiàn),改進(jìn),評(píng)選等整個(gè)流程,得到眾多企業(yè)和媒體的關(guān)注。
中數(shù)經(jīng)緯首席科學(xué)家、中數(shù)經(jīng)緯算法專家團(tuán)集中這3天時(shí)間,配置環(huán)境,執(zhí)行完所有參賽者提交的作品程序。從代碼是否可運(yùn)行、算法、數(shù)據(jù)質(zhì)量、數(shù)據(jù)抓取效率等四大方面進(jìn)行綜合打分。
在提到參賽作品質(zhì)量時(shí),專家團(tuán)表示:
“數(shù)據(jù)分析和展示這方面做的出乎意料,有幾位參賽者不僅有可視化展示,還搭建了web框架,這是難能可貴的。另外爬取數(shù)據(jù)源的范圍也比較廣泛,涉及新聞、影評(píng)、論壇、貼吧、視頻,圖片網(wǎng)站、簡歷、以及房產(chǎn)等各個(gè)行業(yè)的信息。然而有所欠缺的是反爬技術(shù)體現(xiàn)不是很充分,有些數(shù)據(jù)質(zhì)量還有待清洗。雖然比賽是關(guān)于爬蟲的,但是數(shù)據(jù)最終是拿來用的,價(jià)值挖掘始終是原則,我們公司也一直以“把無序變有序,讓數(shù)據(jù)有價(jià)值”的核心理念來為各個(gè)行業(yè)服務(wù)的。爬蟲與反爬蟲相互依賴,祝愿大家技術(shù)精進(jìn),工作順利!“
獲獎(jiǎng)名單
專家團(tuán)對(duì)可執(zhí)行的程序代碼進(jìn)行了逐一點(diǎn)評(píng)。
1、薛祥,ETL工程師。B站流量在中文網(wǎng)站排名中名列前茅, 視頻數(shù)量眾多, 用戶活躍度高, 對(duì)于B站的用戶和視頻抓取, 分析用戶和視頻信息, 對(duì)此進(jìn)行可視化, 可以幫助我們了解該網(wǎng)站。
專家點(diǎn)評(píng):這個(gè)項(xiàng)目是我們公認(rèn)最好最完整的,其中涉及到數(shù)據(jù)采集,清洗,分析,以及數(shù)據(jù)可視化,另外還有前端后端協(xié)同展現(xiàn),基本算得上是全棧開發(fā)了。
綜合得分:26分,榮獲一等獎(jiǎng)。
運(yùn)行結(jié)果如下圖
2、張建華,湖北師范大學(xué),計(jì)算機(jī)科學(xué)與技術(shù)專業(yè),大三學(xué)生,學(xué)Python快一年了。我爬取的是貓眼APP評(píng)論和用戶信息,公眾號(hào)主要分享學(xué)習(xí)筆記,認(rèn)識(shí)朋友。
專家點(diǎn)評(píng):這個(gè)項(xiàng)目也是比較優(yōu)秀的,前期跟進(jìn)的時(shí)候?qū)ψ髡呋居兴私猓?xiàng)目作者是一個(gè)自學(xué)能力和執(zhí)行力很強(qiáng)的在校生,項(xiàng)目涉及數(shù)據(jù)采集,數(shù)據(jù)分析和可視化,思路很清晰。
綜合得分:24分,榮獲二等獎(jiǎng)。
運(yùn)行結(jié)果如下圖
3、尹強(qiáng),Python爬蟲工程師。我爬取的是拉鉤/房產(chǎn)信息。
專家點(diǎn)評(píng):項(xiàng)目涉及拉鉤招聘信息和房產(chǎn)信息,爬蟲技術(shù)有驗(yàn)證碼識(shí)別,自建自維護(hù)代理。數(shù)據(jù)做了清洗質(zhì)量很好。看得出來是個(gè)爬蟲經(jīng)驗(yàn)者,有豐富的反阻爬經(jīng)驗(yàn)。希望作者以后能在數(shù)據(jù)分析方面取得更好的成就。
綜合得分:24分,榮獲二等獎(jiǎng)。
運(yùn)行結(jié)果截圖
4、盧文龍,數(shù)據(jù)產(chǎn)品經(jīng)理。我比較關(guān)注數(shù)據(jù)變現(xiàn)及數(shù)據(jù)價(jià)值挖掘,通過這次比賽,我在數(shù)據(jù)爬取內(nèi)容如何在個(gè)人層面變現(xiàn)進(jìn)行了一些思考,發(fā)現(xiàn)爬取東方財(cái)富股吧用于做為投資參考值的嘗試下,很多軟件也會(huì)提供一些類似的參考分析,但里面算法很多不知其所以然,且收費(fèi)的多,不如自己搞一搞。最后在爬蟲技術(shù),NLP技術(shù),數(shù)據(jù)挖掘,理財(cái)投資方面都得到了鍛煉和提高。
專家點(diǎn)評(píng):這是本次比賽中唯一一個(gè)爬取金融數(shù)據(jù)的項(xiàng)目,因?yàn)橹T多直接利益的驅(qū)動(dòng),目前金融行業(yè)大數(shù)據(jù)應(yīng)用是比較廣泛的,從數(shù)據(jù)挖掘到機(jī)器學(xué)習(xí)各種技術(shù)都在這個(gè)行業(yè)競相綻放。東方財(cái)富對(duì)爬蟲還算友好,數(shù)據(jù)質(zhì)量很好,希望能在分析方面及預(yù)測(cè)方面下功夫,找到突破,獲得更高的成就感。
綜合得分:23分,榮獲二等獎(jiǎng)。
運(yùn)行結(jié)果如下圖
5、杜寬 爬蟲愛好者
感謝中數(shù)經(jīng)緯舉辦的爬蟲PK賽,讓我重拾了自己的爬蟲項(xiàng)目,也認(rèn)識(shí)了很多做爬蟲的朋友,經(jīng)過這次比賽,自己對(duì)反爬蟲和反反爬蟲又有了新的認(rèn)知,也讓自己在這場(chǎng)沒有硝煙的戰(zhàn)爭中更上一層樓。
爬取京東、淘寶的商品數(shù)據(jù)和評(píng)論。感謝scrapy提供的分布式爬蟲框架,讓數(shù)據(jù)采集變得如此簡單,再龐大的數(shù)據(jù)汪洋,也能得心應(yīng)手。
專家點(diǎn)評(píng):從提交項(xiàng)目GitHub上來看,作者是一個(gè)經(jīng)驗(yàn)很豐富的爬蟲工程師,電商,問答,招聘網(wǎng)站都曾涉獵過。可以互相交流,共同學(xué)習(xí)。不足之處,項(xiàng)目運(yùn)行環(huán)境太復(fù)雜。
綜合得分:21分,榮獲三等獎(jiǎng)。
6、張正,軟件工程師。我爬的是一個(gè)網(wǎng)站,斗圖網(wǎng)吧,斗圖表情包。
專家點(diǎn)評(píng):現(xiàn)在微信群聊和自媒體平臺(tái)對(duì)表情圖都有一種依賴,表情圖確實(shí)有一種不言其義卻明其理的魔力,能有效提升社交效率。這個(gè)項(xiàng)目就是抓取斗圖吧的數(shù)據(jù),數(shù)據(jù)質(zhì)量還不錯(cuò),應(yīng)用價(jià)值比較高。
綜合得分:20分,榮獲三等獎(jiǎng)。
運(yùn)行結(jié)果如下圖
7、張俊川,爬蟲愛好者。我爬取的是豆瓣,10條數(shù)據(jù),url記錄,重在參與。
專家點(diǎn)評(píng):豆瓣是每個(gè)爬蟲初學(xué)者最喜歡的地方,因?yàn)樗偸悄敲吹挠押谩W髡呤莻€(gè)爬蟲愛好者,希望通過本次比賽你能學(xué)到更多爬蟲知識(shí),結(jié)識(shí)更多技術(shù)大牛。
綜合得分:19分,榮獲三等獎(jiǎng)。
8、符露,C++爬蟲工程師。參賽作品是爬取Facebook數(shù)據(jù)。
專家點(diǎn)評(píng):Facebook是在全球范圍內(nèi)使用比較廣泛的社交軟件,所以每天數(shù)據(jù)產(chǎn)量也是很大的。項(xiàng)目抓取了用戶發(fā)文信息,并做了清洗處理。
綜合得分:18分,榮獲三等獎(jiǎng)。
9、常懷德,Python爬蟲工程師。爬的微博用戶信息。
專家點(diǎn)評(píng):項(xiàng)目是通過某用戶關(guān)注和粉絲抓取微博用戶的個(gè)人信息,包括粉絲,關(guān)注,發(fā)文,地址,性別等字段。數(shù)據(jù)質(zhì)量很好,希望可以用大量數(shù)據(jù)做簡單分析及可視化。
綜合得分:18分,榮獲三等獎(jiǎng)。
10、張學(xué)文,運(yùn)維工程師。爬取今日頭條新聞數(shù)據(jù),只是我用到一個(gè)優(yōu)化textrank算法,主要就是針對(duì)這個(gè)算法解決問題。
專家點(diǎn)評(píng):這個(gè)項(xiàng)目作者提供了兩種抓取方案,一種是常規(guī)爬取,另外一種是seleniume結(jié)合JS爬取。希望能優(yōu)化textrank算法,能在數(shù)據(jù)分析和可視化方面有所提高。
綜合得分:17分,榮獲優(yōu)秀獎(jiǎng)。
運(yùn)行結(jié)果如下圖
11、李建國,PHP開發(fā)工程師。爬取金華當(dāng)?shù)乇容^知名的一個(gè)本地社區(qū)論壇。
專家點(diǎn)評(píng):這個(gè)項(xiàng)目是用PHP來爬取的,也是唯一一個(gè)python外的語言,很新穎,那……PHP真的是最好的語言嗎?從技術(shù)來看這個(gè)項(xiàng)目更像是個(gè)練手的項(xiàng)目,希望能完善各個(gè)功能。
綜合得分:16分,榮獲優(yōu)秀獎(jiǎng)。
12、劉海濱,C++爬蟲工程師。爬取網(wǎng)易云音樂評(píng)論。
專家點(diǎn)評(píng):抓取某熱門音樂的評(píng)論信息,有清洗處理,生成簡單云圖。
綜合得分:16分,榮獲優(yōu)秀獎(jiǎng)。
13、吳樂偉,Python爬蟲工程師。爬取新聞網(wǎng)站。
專家點(diǎn)評(píng):這個(gè)項(xiàng)目是抓取各大新聞網(wǎng)站,技術(shù)難點(diǎn)是各大新聞平臺(tái)的結(jié)構(gòu)和版式都是不一樣的,需要用算法盡量精準(zhǔn)地匹配各個(gè)字段。目前項(xiàng)目還不算很成熟,需要數(shù)據(jù)和經(jīng)驗(yàn)不斷積累的過程中不斷完善。
綜合得分:16分,榮獲優(yōu)秀獎(jiǎng)。
14、張乃馳,爬蟲愛好者。爬取微信公眾號(hào)內(nèi)容。
專家點(diǎn)評(píng):項(xiàng)目通過搜狗接口抓取指定公眾號(hào)歷史數(shù)據(jù),采集難度不大,有清洗處理,數(shù)據(jù)質(zhì)量很好。
綜合得分:16分,榮獲優(yōu)秀獎(jiǎng)。
15、任然然,PHP開發(fā)工程師。爬取大眾點(diǎn)評(píng)轟趴館點(diǎn)評(píng)數(shù)據(jù)。
專家點(diǎn)評(píng):大眾點(diǎn)評(píng)也是爬蟲訪問比較多的網(wǎng)站,但是最近大眾點(diǎn)評(píng)將評(píng)論信息加密處理了,爬取難度加大了不少。項(xiàng)目有解密過程但是不盡完善,數(shù)據(jù)有缺失。
綜合得分:15分,榮獲優(yōu)秀獎(jiǎng)。
16、黃帥,開發(fā)工程師。爬取CSDN首頁資訊。
專家點(diǎn)評(píng):抓取了CSDN的首頁信息,有清洗處理。希望能按技術(shù)類別抓取各個(gè)技術(shù)欄目的博文信息。
綜合得分:14分,榮獲優(yōu)秀獎(jiǎng)。
17、臧闊,運(yùn)維工程師。爬取貼吧內(nèi)容。
專家點(diǎn)評(píng):項(xiàng)目是抓取某個(gè)活躍貼吧的發(fā)帖內(nèi)容,并做了簡單的文本分析,數(shù)據(jù)中的表情符希望能處理一下。
綜合得分:14分,榮獲優(yōu)秀獎(jiǎng)。
18、楊振原,數(shù)據(jù)研究員。爬取天涯論壇數(shù)據(jù)。
專家點(diǎn)評(píng):項(xiàng)目通過某關(guān)鍵詞抓取相關(guān)論壇信息,能精準(zhǔn)抓取某行業(yè)談?wù)撔畔ⅰOM泻唵螖?shù)據(jù)分析及可視化展現(xiàn)。
綜合得分:13分,榮獲優(yōu)秀獎(jiǎng)。
19、秦猛,爬蟲愛好者。爬取騰訊新聞客戶端。
專家點(diǎn)評(píng):抓取首頁新聞鏈接信息,然后再深入爬取文章詳情頁。希望能添加簡單文本分析。
綜合得分:13分,榮獲優(yōu)秀獎(jiǎng)。
20、可心,Python爬蟲工程師。爬取京東評(píng)論內(nèi)容。
專家點(diǎn)評(píng):抓取某熱門商品的評(píng)論信息,希望能做簡單可視化分析處理。
綜合得分:12分,榮獲優(yōu)秀獎(jiǎng)。
21、郭繼超,時(shí)間原因,GitHub項(xiàng)目來不及完善了。
具體獎(jiǎng)勵(lì)機(jī)制查看大賽官網(wǎng):
http://m.trailery.net/reptilian_competition.html
請(qǐng)將收貨地址發(fā)送給中數(shù)經(jīng)緯小官(微信號(hào)xingbali123356789),我們將盡快為您郵寄大賽獎(jiǎng)品。截止到11月19日沒有發(fā)送地址的獲獎(jiǎng)?wù)邔⒁暈樽詣?dòng)放棄獎(jiǎng)品。再次感謝您對(duì)中數(shù)經(jīng)緯爬蟲PK賽的關(guān)注與支持! 如果您正在尋找就業(yè)機(jī)會(huì),歡迎加入我們。
http://m.trailery.net 把無序變有序 讓數(shù)據(jù)有價(jià)值
電話: 010-88430890