Welcome! 登入 註冊
ç¾Žå¯¶é¦–é  ç¾Žå¯¶ç™¾ç§‘ 美寶論壇 美寶è½æ ¼ 美寶地圖

Advanced

Change History

Message: ã€æŽ¨è–¦æ”¶è—ï¼ã€‘數據分æžå¸«å¿…備的10大技能,大多數人åªçŸ¥é“一åŠ

Changed By: frlily
Change Date: October 27, 2019 08:35AM

ã€æŽ¨è–¦æ”¶è—ï¼ã€‘數據分æžå¸«å¿…備的10大技能,大多數人åªçŸ¥é“一åŠ
[img]http://www.finereport.com/tw/wp-content/themes/BusinessNews/images/2019/10/tw-191023/2019102301Y.jpg[/img]
昨天有ä½å‰›å…¥è¡Œè³‡æ–™åˆ†æžçš„朋å‹è·Ÿæˆ‘å槽,自己入門到ç¾åœ¨åªæœƒç”¨Excelå’Œåšåˆ†æžåœ–表,但是感覺越åšè¶Šæ²’有價值,資料分æžä¼¼ä¹Žå°±æ˜¯æ¥­å‹™è³‡æ–™çš„分æžå“¡ï¼Œä¸çŸ¥é“該如何æå‡è‡ªå·±ã€‚

這是因為他沒有完全把大數據分æžçš„價值挖掘出來,資料分æžæ˜¯ç‚ºäº†é€šéŽå°è³‡æ–™ç¾è±¡çš„查看來完æˆå°ç”¢å“ã€è¡ŒéŠ·ç­–ç•¥ã€é‹ç‡Ÿç­–略的優化,ä¸åƒ…是å°æ¥­å‹™ï¼Œæ›´é‡è¦çš„是è¦æŽŒæ¡è³‡æ–™åˆ†æžçš„å„種技能,從能力增長上çªç ´è·æ¥­çš„天花æ¿ã€‚根據我多年總çµçš„經驗,這是因為他沒有完全把[url=http://www.finereport.com/tw/]大數據分æž[/url]的價值挖掘出來,資料分æžæ˜¯ç‚ºäº†é€šéŽå°è³‡æ–™ç¾è±¡çš„查看來完æˆå°ç”¢å“ã€è¡ŒéŠ·ç­–ç•¥ã€é‹ç‡Ÿç­–略的優化,ä¸åƒ…是å°æ¥­å‹™ï¼Œæ›´é‡è¦çš„是è¦æŽŒæ¡è³‡æ–™åˆ†æžçš„å„種技能,從能力增長上çªç ´è·æ¥­çš„天花æ¿ã€‚根據我多年總çµçš„經驗,一個åˆæ ¼çš„ã€é«˜ç´šçš„數據分æžå¸«å¿…é ˆè¦æŽŒæ¡ä»¥ä¸‹10種技能:
[s]
統計分æžï¼šå¤§æ•¸å®šå¾‹ã€æŠ½æ¨£æŽ¨æ¸¬è¦å¾‹ã€ç§©å’Œæª¢é©—ã€å›žæ­¸ã€é æ¸¬
視覺化輔助工具:excelã€BI工具ã€python
大數據處ç†æ¡†æž¶ï¼šHadoopã€stormã€spark
資料庫:SQLã€MySqlã€DB
資料倉庫:SSISã€SSAS
資料採擷工具:Matlabã€R語言ã€python
AI人工智慧:機器學習
挖掘演算法:資料çµæ§‹ã€ä¸€è‡´æ€§
程å¼è¨­è¨ˆèªžè¨€ï¼šJavaã€python
撰寫報告的能力[/s]
[img]http://www.finereport.com/tw/wp-content/themes/BusinessNews/images/2019/10/tw-191023/2019102302Y.png[/img]

[size=large]1ã€çµ±è¨ˆåˆ†æž[/size]

眾所周知,統計學是資料分æžçš„基石。學了統計學,你會發ç¾å¾ˆå¤šæ™‚候的分æžä¸¦ä¸é‚£éº¼æº–確,比如很多人都喜歡用平å‡æ•¸åŽ»åˆ†æžä¸€å€‹äº‹ç‰©çš„çµæžœï¼Œä½†æ˜¯é€™å¾€å¾€æ˜¯ç²—糙的的。而統計學å¯ä»¥å¹«åŠ©æˆ‘們以更科學的角度看待資料,é€æ­¥æŽ¥è¿‘這個資料背後的“真相â€ã€‚

大部分的資料分æžï¼Œéƒ½æœƒç”¨åˆ°çµ±è¨ˆæ–¹é¢çš„以下知識,å¯ä»¥é‡é»žå­¸ç¿’:

基本的統計é‡ï¼šå‡å€¼ã€ä¸­ä½æ•¸ã€çœ¾æ•¸ã€æ–¹å·®ã€æ¨™æº–å·®ã€ç™¾åˆ†ä½æ•¸ç­‰
概率分佈:幾何分佈ã€äºŒé …分佈ã€æ³Šæ¾åˆ†ä½ˆã€æ­£æ…‹åˆ†ä½ˆç­‰
總體和樣本:瞭解基本概念,抽樣的概念
置信å€é–“與å‡è¨­æª¢é©—:如何進行驗證分æž
相關性與回歸分æžï¼šä¸€èˆ¬è³‡æ–™åˆ†æžçš„基本模型

瞭解統計學的原ç†ä¹‹å¾Œï¼Œä½ ä¸ä¸€å®šèƒ½å¤ é€šéŽå·¥å…·å¯¦ç¾ï¼Œé‚£éº¼ä½ éœ€è¦åŽ»å°æ‡‰çš„找網上找相關的實ç¾æ–¹æ³•ï¼Œä¹Ÿå¯ä»¥çœ‹æ›¸ã€‚先推薦一本éžå¸¸ç°¡å–®çš„:å³å–œä¹‹-《統計學·從資料到çµè«–》,也å¯ä»¥çœ‹ã€Šå•†å‹™èˆ‡ç¶“濟統計》,çµåˆæ¥­å‹™èƒ½æ›´å®¹æ˜“ç†è§£ã€‚

å¦å¤–,如果想è¦æ›´é€²ä¸€æ­¥ï¼Œè«‹æŽŒæ¡ä¸€äº›ä¸»æµæ¼”算法的原ç†ï¼Œæ¯”如線性回歸ã€é‚輯回歸ã€æ±ºç­–樹ã€ç¥žç¶“網路ã€é—œè¯åˆ†æžã€èšé¡žã€å”åŒéŽæ¿¾ã€éš¨æ©Ÿæ£®æž—。

å†æ·±å…¥ä¸€é»žï¼Œé‚„å¯ä»¥æŽŒæ¡æ–‡æœ¬åˆ†æžã€æ·±åº¦å­¸ç¿’ã€åœ–åƒè­˜åˆ¥ç­‰ç›¸é—œçš„演算法。關於這些演算法,ä¸åƒ…需è¦çž­è§£å…¶åŽŸç†ï¼Œä½ æœ€å¥½å¯ä»¥æµæš¢åœ°é—¡è¿°å‡ºä¾†ï¼Œé‚„需è¦ä½ çŸ¥æ›‰å…¶åœ¨å„行業的一些應用場景。如果ç¾éšŽæ®µä¸æ˜¯å·¥ä½œå‰›éœ€ï¼Œå¯ä¸ä½œç‚ºé‡é»žã€‚

[size=large]2ã€è¦–覺化輔助工具[/size]

資料視覺化主è¦é€šéŽç¨‹å¼è¨­è¨ˆå’Œéžç¨‹å¼è¨­è¨ˆå…©é¡žå·¥å…·å¯¦ç¾ï¼Œå°æ–¼æ™®é€šè¡Œæ¥­çš„資料分æžå¸«ä¾†èªªï¼Œå¯ä»¥ä¸éœ€è¦æŽŒæ¡ç¨‹å¼è¨­è¨ˆé¡žçš„視覺化工具,學習麻煩浪費效率,推薦掌æ¡ä»¥ä¸‹å³å¯ï¼š

[size=medium]1ã€Excel[/size]

作為常用的資料處ç†å’Œå±•ç¾å·¥ 具,資料分æžå¸«é™¤äº†è¦ç†Ÿç·´å°‡è³‡æ–™ç”¨ Excel 中的圖表展ç¾å‡ºä¾†ï¼Œé‚„需è¦æŽŒæ¡ç‚ºç”Ÿæˆçš„圖表åšä¸€ç³» 列的格å¼è¨­ç½®çš„方法,如:系列格å¼ç¾ŽåŒ–ã€ä¸‰ç¶­æ ¼å¼ç¾ŽåŒ–,以åŠåæ¨™è»¸å’Œæ ¼ç·šè¨­ç½®ç­‰ï¼Œåœ–è¡¨å¯ ä»¥èˆ‡å‡½æ•¸æˆ–å·¨é›†ç­‰åŠŸèƒ½ä¸€èµ·è¯ç”¨ï¼Œè£½ä½œå‡ºé¡žæ¯”圖表或帶有交互效果的高級圖表,比如在臺ç£åœ°åœ–上標注å„市縣的人å£åˆ†ä½ˆç­‰ï¼Œå¯¦ç¾é€™äº›èƒ½å¾—到更好地資料分æžå’ŒæŸ¥çœ‹æ•ˆæžœã€‚Excel 裡é¢è‡ªå¸¶çš„è³‡æ–™åˆ†æž åŠŸèƒ½ï¼Œå¾ˆå¤§ç¨‹åº¦ä¸Šèƒ½å®Œæˆå°ˆæ¥­çµ±è¨ˆè»Ÿé«”(Rã€SPSSã€SASã€Matlab)的資料分æžå·¥ä½œï¼Œé€™å…¶ä¸­åŒ…括 æ述性統計ã€ç›¸é—œä¿‚數ã€æ¦‚率分佈ã€å‡å€¼æŽ¨æ–·ã€ç·šæ€§ã€éžç·šæ€§å›žæ­¸ã€å¤šå…ƒå›žæ­¸åˆ†æžã€æ™‚é–“åºåˆ—ç­‰ 內容。熟悉使用 Excel çš„å„項功能å°ä¸€å優秀的資料分æžå¸«ä¾†èªªéžå¸¸é‡è¦ã€‚
[img]http://www.finereport.com/tw/wp-content/themes/BusinessNews/images/2019/10/tw-191023/2019102303Y.jpg[/img]

å†æ·±å…¥ä¸€é»žï¼Œé‚„å¯ä»¥æŽŒæ¡æ–‡æœ¬åˆ†æžã€æ·±åº¦å­¸ç¿’ã€åœ–åƒè­˜åˆ¥ç­‰ç›¸é—œçš„演算法。關於這些演算法,ä¸åƒ…需è¦çž­è§£å…¶åŽŸç†ï¼Œä½ æœ€å¥½å¯ä»¥æµæš¢åœ°é—¡è¿°å‡ºä¾†ï¼Œé‚„需è¦ä½ çŸ¥æ›‰å…¶åœ¨å„行業的一些應用場景。如果ç¾éšŽæ®µä¸æ˜¯å·¥ä½œå‰›éœ€ï¼Œå¯ä¸ä½œç‚ºé‡é»žã€‚

[size=large]2ã€[url=http://www.finereport.com/tw/products/datavisualization]資料視覺化[/url]輔助工具[/size]

資料視覺化主è¦é€šéŽç¨‹å¼è¨­è¨ˆå’Œéžç¨‹å¼è¨­è¨ˆå…©é¡žå·¥å…·å¯¦ç¾ï¼Œå°æ–¼æ™®é€šè¡Œæ¥­çš„資料分æžå¸«ä¾†èªªï¼Œå¯ä»¥ä¸éœ€è¦æŽŒæ¡ç¨‹å¼è¨­è¨ˆé¡žçš„視覺化工具,學習麻煩浪費效率,推薦掌æ¡ä»¥ä¸‹å³å¯ï¼š

[size=medium]1ã€Excel[/size]

作為常用的資料處ç†å’Œå±•ç¾å·¥ 具,資料分æžå¸«é™¤äº†è¦ç†Ÿç·´å°‡è³‡æ–™ç”¨ Excel 中的圖表展ç¾å‡ºä¾†ï¼Œé‚„需è¦æŽŒæ¡ç‚ºç”Ÿæˆçš„圖表åšä¸€ç³» 列的格å¼è¨­å®šçš„方法,如:系列格å¼ç¾ŽåŒ–ã€ä¸‰ç¶­æ ¼å¼ç¾ŽåŒ–,以åŠåæ¨™è»¸å’Œæ ¼ç·šè¨­å®šç­‰ï¼Œåœ–è¡¨å¯ ä»¥èˆ‡å‡½æ•¸æˆ–å·¨é›†ç­‰åŠŸèƒ½ä¸€èµ·è¯ç”¨ï¼Œè£½ä½œå‡ºé¡žæ¯”圖表或帶有交互效果的高級圖表,比如在臺ç£åœ°åœ–上標注å„市縣的人å£åˆ†ä½ˆç­‰ï¼Œå¯¦ç¾é€™äº›èƒ½å¾—到更好地資料分æžå’ŒæŸ¥çœ‹æ•ˆæžœã€‚Excel 裡é¢è‡ªå¸¶çš„è³‡æ–™åˆ†æž åŠŸèƒ½ï¼Œå¾ˆå¤§ç¨‹åº¦ä¸Šèƒ½å®Œæˆå°ˆæ¥­çµ±è¨ˆè»Ÿé«”(Rã€SPSSã€SASã€Matlab)的資料分æžå·¥ä½œï¼Œé€™å…¶ä¸­åŒ…括 æ述性統計ã€ç›¸é—œä¿‚數ã€æ¦‚率分佈ã€å‡å€¼æŽ¨æ–·ã€ç·šæ€§ã€éžç·šæ€§å›žæ­¸ã€å¤šå…ƒå›žæ­¸åˆ†æžã€æ™‚é–“åºåˆ—等內容。熟悉使用 Excel çš„å„項功能å°ä¸€å優秀的資料分æžå¸«ä¾†èªªéžå¸¸é‡è¦ã€‚

[size=medium]2ã€BI工具[/size]

近幾年冒出來的BI之秀,如powerBIã€qilkview都強調視覺化,一改傳統BI工具SAP BOã€IBM家的cognos(ä¸éŽè¿‘幾年貌似都在研發雲BI)。這裡ä¸è«‡é–‹æºï¼Œé‚„沒見到能æˆç†Ÿæ‡‰ç”¨çš„BI。æˆç†Ÿçš„BI軟體工具如FineReport(國內)和 Tableau(國外),都很推薦。

[url=http://www.finereport.com/tw/knowledge/acquire/tableauvsfinereport.html]<b>Tableau VS FineReport?</b>
[/url]

[img]http://www.finereport.com/tw/wp-content/themes/BusinessNews/images/2019/10/tw-191023/2019102304Y.gif[/img]

FineReport作為一款通用的報表åŠè³‡æ–™è¦–覺化工具,兩大核心功能是填報和資料展示,但我覺得比較驚豔的一點是,它內置了大é‡çš„圖表和視覺化動效,視覺化很è±å¯Œï¼Œå®Œå…¨æ²’有å°è±¡ä¸­åšå ±è¡¨é‚£ç¨®å¤æ¿çš„風格。多以它能åšå‡ºæ ¼å¼å„樣的dashboardã€ç”šè‡³æ˜¯è¦–覺化大å±ï¼Œä¸€é»žä¸è™›ã€‚

感觸最深的是之å‰å·¥ä½œæ‹¿FR開發報表很çœåŠ›ï¼Œ10張門店報表以往åš10å¼µExcel的,在他裡é¢å°±æ˜¯ä¸€å€‹åƒæ•¸æŸ¥è©¢ï¼Œç„¶å¾Œæ‰¹é‡åŒ¯å‡ºï¼Œç”¨ä¸€å€‹ç¯„本。

å¦å¤–這款工具除了å¯ä»¥åšè¦–覺化報表,åŒæ™‚也æ供大å±çš„æœå‹™ã€‚通éŽä½ˆå±€ã€è‰²å½©ã€ç¶å®šè³‡æ–™ç­‰ç’°ç¯€å®Œæˆå¤§å±æˆ°æƒ…室的製作,æ“有很多自助開發的視覺化外掛程å¼åº«ã€‚

因為後端通常連çµæ¥­å‹™ç³»çµ±è³‡æ–™ï¼Œæ‰€ä»¥å¯ä»¥å³æ™‚連接業務資料,åšä¼æ¥­çš„一些經營資料展示。比如展覽中心ã€BOSS儀錶æ¿ï¼Œé‚„有城市交通管控中心ã€äº¤æ˜“大廳等。
[img]http://www.finereport.com/tw/wp-content/themes/BusinessNews/images/2019/10/tw-191023/2019102306Y.gif[/img]

[size=medium]3ã€python[/size]

å­¸éŽPython資料分æžçš„朋å‹éƒ½çŸ¥é“,在視覺化的工具中,有很多優秀的三方庫,比如matplotlib,seaborn,plotly,Boken,pyecharts等等,這些視覺化庫都有自己的特點,在實際應用中也廣為大家使用。如果你ä¸çŸ¥é“資料分æžè©²å­¸ä»€éº¼å·¥å…·ï¼Œå°±ç›´æŽ¥å­¸pythonå§ï¼Œè¬èƒ½èªžè¨€å­¸äº†ä¸è™§ã€‚

<b>學習資æºæŽ¨è–¦ï¼š</b>

[url=https://www.facebook.com/twfinereport/]Python Weekly[/url]:æ¯é€±æ›´æ–°ï¼ŒåŒ…括Python相關的文章ã€æ•™ç¨‹ã€æ¼”講ã€æ›¸ç±ã€å°ˆæ¡ˆã€å·¥ä½œç­‰ã€‚

Python challenge:用Python程å¼è¨­è¨ˆæŠ€èƒ½è§£æ±º33個謎題,闖關。

[url=https://www.python.org/]Python官方文檔[/url]:官網,去找資料å§ï¼

[url=https://pythontips.com/2013/07/31/10-python-blogs-worth-following/]10 python blogs worth following[/url]: 關於python你值得關注的10個åšå®¢

[size=large]3ã€å¤§æ•¸æ“šè™•ç†æ¡†æž¶[/size]

如果你想脫離普通業務的æŸç¸›ï¼Œåšä¸€å大數據分æžå¸«ï¼Œé¦–先就è¦çž­è§£å¤§æ•¸æ“šæ¡†æž¶çš„基礎。

大數據處ç†æ¡†æž¶è² è²¬å°å¤§æ•¸æ“šç³»çµ±ä¸­çš„資料進行計算,資料包括從æŒä¹…存儲中讀å–的資料或通éŽè¨Šæ¯ä½‡åˆ—等方å¼æŽ¥å…¥åˆ°ç³»çµ±ä¸­çš„資料,而計算則是從資料中æå–資訊的éŽç¨‹ã€‚

我們按照å°æ‰€è™•ç†çš„資料形å¼å’Œå¾—到çµæžœçš„時效性進行分類,分為批次處ç†ç³»çµ±ã€æµè™•ç†ç³»çµ±å’Œæ··åˆå¼ç³»çµ±ã€‚典型的批次處ç†ç³»çµ±å°±æ˜¯Apache Hadoop;典型的æµè™•ç†ç³»çµ±æœ‰Apache Storm,Apache Samza;混åˆè™•ç†ç³»çµ±æ¯”如Apache Spark,Apache Flink。
[img]http://www.finereport.com/tw/wp-content/themes/BusinessNews/images/2019/10/tw-191023/2019102308Y.jpg[/img]

[size=large]4ã€è³‡æ–™åº«[/size]

資料分æžæ˜¯åˆ†ç­‰ç´šçš„,有åªè² è²¬æ¸…洗資料的,比較少,工作也比較簡單;還有就是負責建模的,掌æ¡å¸¸ç”¨çš„å多個機器學習演算法就能是二æµçš„了,è¦åšåˆ°ä¸€æµçš„å°±è¦ç†Ÿç·´æŽŒæ¡å„個演算法的本質了,也就是è¦æŽŒæ¡è³‡æ–™åº«çš„基礎。sql在資料庫裡是核心技術,在資料分æžå­¸ç¿’時一定è¦é‡è¦–這些內容,主è¦ä»¥MySQL為主,MySQL就是互è¯ç¶²è¡Œæ¥­çš„通用標準。

ç›®å‰ä½¿ç”¨è¼ƒå¤šçš„資料庫有 MySQLã€SQL Server å’Œ Oracle,資料分æžå¸«å¿…須掌æ¡çš„常用語å¥å’Œå‡½æ•¸æœ‰å¦‚下幾種。

(1)åˆè¨ˆå’Œæ¨™é‡å‡½æ•¸ï¼šCount()ã€Max()ã€Sum()ã€Upper()ã€lower()ã€Round()等。

(2)distinct——distinct é—œéµå­—å¯ä»¥éŽæ¿¾é‡è¤‡çš„資料記錄。

(3)Top——çµåˆ select 語å¥ï¼ŒTop 函數å¯ä»¥æŸ¥è©¢é ­å¹¾æ¢å’Œæœ«å¹¾æ¢çš„è³‡æ–™è¨˜éŒ„ï¼ˆåƒ…é™ SQL Server, 在其他資料庫,å¯ç”¨ limit 語å¥ã€rownum 列等方å¼å¯¦ç¾ç›¸ä¼¼çš„目的)。

(4)Order By——çµåˆ select語å¥ï¼ŒOrder By å¯ä»¥è®“查詢çµæžœæŒ‰æŸå€‹æ¬„ä½æ­£åºå’Œé€†åºæŽ’列。

(5)Group By——Group By å­å¥å¯ä»¥å°æŸ¥è©¢çš„çµæžœé›†æŒ‰æŒ‡å®šæ¬„ä½åˆ†çµ„。

(6)Group By & Having å­å¥â€”—Having 語å¥åŸºæ–¼ Group By,定義分組æ¢ä»¶ã€‚

(7)Inner Join,Left Outer Join,Right Outer Join and Full outer Join——多表的列關è¯ï¼Œå³é€šéŽ Join å¯ä»¥å°‡ä¸åŒç‰©ç†è¡¨ä¸­çš„資料列根據一定的關è¯æ¢ä»¶åˆä½µæˆä¸€å€‹çµæžœé›†ã€‚

(8)Union åˆä½µæŸ¥è©¢ï¼šUnion/Union ALL 查詢å¯ä»¥æŠŠå¤šå¼µè¡¨çš„資料行åˆä½µèµ·ä¾†ï¼ŒUnion 在åˆä½µ 時é‡è¤‡çš„資料僅ä¿ç•™ä¸€è¡Œï¼Œè€Œ Union ALL 則是直接åˆä½µï¼Œä¸æœƒè™•ç†é‡è¤‡è¡Œã€‚ 在大數據時代,有很多查詢工具å¯ä¾›é¸æ“‡ã€‚Hive å’Œ SQL 是目å‰æ¯”較主æµçš„工具。Hive 是基 æ–¼ Hadoop 的一個數據倉庫工具,å¯ä»¥å°‡çµæ§‹åŒ–的資料檔案映射為一張資料庫表,並æ供完整的 SQL 查詢功能,å¯ä»¥å°‡ SQL 語å¥è½‰æ›ç‚º MapReduce 任務進行é‹è¡Œã€‚Hive å’Œ SQL 是éžå¸¸ç›¸ä¼¼çš„, 主è¦çš„å€åˆ¥å°±æ˜¯ Hive 缺少更新和刪除功能。如果你å¯ä»¥ç†Ÿç·´ä½¿ç”¨ SQL,就å¯ä»¥å¹³ç©©éŽæ¸¡åˆ° Hive。 å¦å¤–,一定è¦æ³¨æ„兩者在çµæ§‹å’Œèªžæ³•ä¸Šçš„差異。

當然,如果你想è¦å¿«é€ŸæŽŒæ¡è³‡æ–™åº«çš„知識,一定è¦é€²è¡Œç³»çµ±åŒ–的學習以åŠå¤§é‡çš„練習,在網上尋找一些資料庫的練習題,先從簡單的題開始,循åºæ¼¸é€²ï¼Œé€™æ¨£æ‰èƒ½å¤ æ…¢æ…¢çš„深入資料庫的核心知識。

[size=large]5ã€æ•¸æ“šå€‰åº«/BI商業智慧[/size]

在進行資料分æžçš„時候,我們總會é‡åˆ°ä¸€äº›å詞,比如資料倉庫。數據倉庫是資料分æžä¸­ä¸€å€‹æ¯”較é‡è¦çš„æ±è¥¿ï¼Œæ•¸æ“šå€‰åº«æ˜¯ä¸€å€‹é¢å‘主題的ã€å…§å»ºçš„ã€ç›¸å°ç©©å®šçš„ã€å應歷å²è®ŠåŒ–的資料集åˆã€‚

資料分æžä¸­çš„工作最é‡è¦çš„就是資料處ç†å·¥ä½œï¼Œæ ¹æ“šæˆ‘åšè³‡æ–™åˆ†æžçš„經驗,在整個資料分æžæµç¨‹ä¸­ï¼Œç”¨æ–¼è³‡æ–™è™•ç†çš„時間往往è¦ä½”æ“š70%以上,而數據倉庫具有集æˆã€ç©©å®šã€é«˜å“質等特點,基於數據倉庫為資料分æžæ供資料,往往能夠更加ä¿è­‰è³‡æ–™å“質和資料完整性。

[size=large]6ã€è³‡æ–™æŽ¡æ“·å·¥å…·
[/size]
在åšè³‡æ–™åˆ†æžæ™‚,資料採擷軟體是其中必ä¸å¯å°‘的工具之一。它是大多數商業智慧計畫中的核心應用程å¼ï¼Œè³‡æ–™æŽ¡æ“·è»Ÿé«”åŒæ¨£ä¹Ÿèƒ½å¤ å¾žå¤§é‡è³‡æ–™ä¸­æå–洞察力。

直接說需è¦å­¸ç¿’的語言:MATLABã€Pythonã€R。
1ã€MATLAB

雖然å學術性,但是好上手,上手以後就å¯ä»¥è·‘一些演算法,æ高一些信心和學習的樂趣。教æ看官方手冊的Primer,然後就開始寫腳本和函數,如果有看ä¸æ‡‚的直接百度ã€google或者help。
2ã€Pythonå’ŒR
資料分æžä¸­çš„工作最é‡è¦çš„就是資料處ç†å·¥ä½œï¼Œæ ¹æ“šæˆ‘åšè³‡æ–™åˆ†æžçš„經驗,在整個資料分æžæµç¨‹ä¸­ï¼Œç”¨æ–¼è³‡æ–™è™•ç†çš„時間往往è¦ä½”æ“š70%以上,而數據倉庫具有内建ã€ç©©å®šã€é«˜å“質等特點,基於數據倉庫為資料分æžæ供資料,往往能夠更加ä¿è­‰è³‡æ–™å“質和資料完整性。
[img]http://www.finereport.com/tw/wp-content/themes/BusinessNews/images/2019/10/tw-191023/2019102309Y.jpg[/img]

[size=large]6ã€è³‡æ–™æŽ¡æ“·å·¥å…·
[/size]
在åšè³‡æ–™åˆ†æžæ™‚,資料採擷軟體是其中必ä¸å¯å°‘的工具之一。它是大多數商業智慧計畫中的核心應用程å¼ï¼Œè³‡æ–™æŽ¡æ“·è»Ÿé«”åŒæ¨£ä¹Ÿèƒ½å¤ å¾žå¤§é‡è³‡æ–™ä¸­æå–洞察力。

直接說需è¦å­¸ç¿’的語言:MATLABã€Pythonã€R。
<b>1ã€MATLAB</b>

雖然å學術性,但是好上手,上手以後就å¯ä»¥è·‘一些演算法,æ高一些信心和學習的樂趣。教æ看官方手冊的Primer,然後就開始寫腳本和函數,如果有看ä¸æ‡‚的直接百度ã€google或者help。
<b>2ã€Pythonå’ŒR</b>

這兩個放在一起,是因為網上關於這兩個的爭論太多了。我的順åºæ˜¯é¦–先學python,其次å†æ˜¯R。首先python,先看《Head First Python》,簡單易懂,然後是《利用Python進行資料分æžã€‹å’Œã€Šæ©Ÿå™¨å­¸ç¿’實戰》。第一本書主è¦æ˜¯åˆ©ç”¨Pythonåšè³‡æ–™æŽ¡æ“·çš„,基本æ到Python學習都會推薦這本。第二本是ç†è§£æ©Ÿå™¨å­¸ç¿’的佳作,書中用到的語言就是Python,一邊學語言,一邊ç†è§£æ©Ÿå™¨å­¸ç¿’。

[size=large]7ã€AI人工智慧[/size]

åš´æ ¼æ„義上,人工智慧與資料分æžæœ‰è‘—明顯的界é™ï¼Œä¸å±¬æ–¼åŒä¸€é ˜åŸŸï¼Œå› æ­¤é€™ä¸€æ¢æ˜¯é‡å°å¤§è³‡æ–™åˆ†æžç§‘學家來說的,當你的分æžèƒ½åŠ›é‚„比較低時,å¯ä»¥ç•¥éŽä¸çœ‹æ­¤ç« ã€‚

機器學習ã€äººå·¥æ™ºæ…§æ¶µè“‹çš„知識層é¢å¤ªå»£å¤ªæ·±ï¼Œæ‰€ä»¥æœƒå»ºè­°æŽ¡å– problem-based learning 的學習方å¼ï¼Œå…ˆé¸å®šå•é¡Œï¼Œç„¶å¾Œæ‰¾åˆ°è³‡æºä¾†è§£å•é¡Œï¼Œå†æ›´æ·±å…¥çš„去瞭解。這樣在解決å•é¡ŒéŽç¨‹ä¸­ï¼Œé‡åˆ°çš„å詞與盲點知識會ç©ç´¯çš„愈多。

[size=large]8ã€æ•°æ®æŒ–掘算法[/size]

很多人认为数æ®æŒ–掘需è¦æŽŒæ¡å¤æ‚高深的算法,需è¦æŽŒæ¡æŠ€æœ¯å¼€å‘,æ‰èƒ½æŠŠæ•°æ®æŒ–掘分æžåšå¥½ï¼Œå®žé™…上并éžè¿™æ ·ï¼Œå…¶å®žç®—法并ä¸éš¾ï¼Œåªéœ€è¦ç»“åˆå®žé™…业务背景ã€ä»¥è§£å†³é—®é¢˜ä¸ºå¯¼å‘就简å•å¾ˆå¤šäº†ï¼Œä¸»è¦åŒ…括分类算法,èšç±»ç®—法,关è”规则三大类,这是学习数æ®æŒ–掘必须è¦æŽŒæ¡çš„算法基础,这三类基本上涵盖了目å‰å•†ä¸šå¸‚场对算法的所有需求。而这三类里åˆåŒ…å«è®¸å¤šç»å…¸ç®—法。

我在这里推è三本比较ç»å…¸çš„书å§ï¼š

Pattern Recognition and Machine Learning:ç»å…¸ä¸­çš„ç»å…¸ã€‚
The Elements of Statistical Learning:算是入门ML的功夫秘ç±ï¼Œç»å…¸ï¼Œä¹¦ä¸­é…有R包,éžå¸¸èµžï¼å¯ä»¥å‚ç…§ç€ä»£ç å­¦ä¹ ç®—法。
Machine Learning:作者Kevin Murrphy教授是机器学习领域中年少有为的代表。这书是他的集大æˆä¹‹ä½œï¼Œå†™å®Œä¹‹åŽï¼Œå°±åŽ»Google了,产学研结åˆï¼Œæ²¡æœ‰æ¯”这个更好的了。

[size=large]9ã€ç¼–程语言[/size]

比如pythonã€r语言ã€java等等,你该使用哪ç§è¯­è¨€ç”¨äºŽæ•°æ®åˆ†æžï¼Ÿæ怕这还得“视情况而定â€ã€‚

如果你对晦涩的统计è¿ç®—进行ç¹é‡çš„æ•°æ®åˆ†æžå·¥ä½œï¼Œé‚£ä¹ˆä½ ä¸é’çRæ‰æ€ªã€‚如果你跨GPU进行NLP或密集的神ç»ç½‘络处ç†ï¼Œé‚£ä¹ˆPython是很好的选择。如果想è¦ä¸€ç§åŠ å›ºçš„ã€é¢å‘生产环境的数æ®æµè§£å†³æ–¹æ¡ˆï¼Œåˆæ‹¥æœ‰æ‰€æœ‰é‡è¦çš„æ“作工具,Java或Scalaç»å¯¹æ˜¯å‡ºè‰²çš„选择。

以 R 语言为例,R 编程语言在数æ®åˆ†æžä¸Žæœºå™¨å­¦ä¹ é¢†åŸŸå·²ç»æˆä¸ºä¸€æ¬¾é‡è¦çš„工具。R 作为脚 本语言凭借其良好的互动性和丰富的扩展包资æºå¯ä»¥æ–¹ä¾¿åœ°è§£å†³å¤§éƒ¨åˆ†æ•°æ®å¤„ç†ã€å˜æ¢ã€ç»Ÿè®¡åˆ† æžã€å¯è§†åŒ–的问题,并å¯ä»¥é‡çŽ°æ‰€æœ‰çš„细节。R 的优势在于有包罗万象的统计函数å¯ä»¥è°ƒç”¨ï¼Œç‰¹ 别是在时间åºåˆ—分æžæ–¹é¢ï¼ˆåœ¨æ¸¸æˆè¡Œä¸šä¹Ÿæœ‰å¾ˆå¥½çš„应用),无论是ç»å…¸è¿˜æ˜¯å‰æ²¿çš„方法都有相应的 包å¯ä»¥ç›´æŽ¥ä½¿ç”¨ã€‚å› æ­¤ï¼ŒæŽŒæ¡ R 语言å¯ä»¥æ高整体的生产力。

然而,è¦æˆä¸ºä¸€å优秀的数æ®åˆ†æž 师,仅学会使用一门语言远远ä¸å¤Ÿï¼Œè¿˜éœ€è¦ä¿®æ”¹æ•°æ®æŒ–掘语言的程åºåŒ…或模型,因为现有的程åºåŒ…或模型有局é™æ€§ï¼Œåœ¨å‰æœŸæ•°æ®å¤„ç†ä¸Šè¿˜æ˜¯ä¸å¤Ÿè‡ªç”±ï¼Œå¦‚异常值的处ç†ã€å˜é‡å¤„ç†ç­‰ï¼Œè€Œè‡ªå·±å†™ä»£ç ç¼–程也å¯ä»¥æ ¹æ®è‡ªå·±çš„需求进行编写,实现更多的个性化需求。

[size=large]10ã€æ’°å†™æŠ¥å‘Š[/size]

撰写报告的能力对æˆä¸ºä¸€å优秀的分æžå¸ˆæ¥è¯´ä¹Ÿéžå¸¸é‡è¦ã€‚

資料分æžå ±å‘Šæ˜¯å°æ•´å€‹è³‡æ–™åˆ†æžéŽç¨‹çš„一個總çµèˆ‡å‘ˆç¾ã€‚通éŽå ±å‘Šï¼ŒæŠŠè³‡æ–™åˆ†æžçš„èµ·å› ã€éŽç¨‹ã€çµæžœåŠå»ºè­°å®Œæ•´åœ°å‘ˆç¾å‡ºä¾†ï¼Œä¾›æ±ºç­–者åƒè€ƒã€‚一份好的資料分æžå ±å‘Šéœ€è¦æœ‰å¦‚下3點è¦æ±‚:

(1)好的分æžæ¡†æž¶ï¼šé¦–先需è¦æœ‰ä¸€å€‹å¥½çš„分æžæ¡†æž¶ï¼Œä¸¦ä¸”圖文並茂ã€å±¤æ¬¡æ˜Žæ™°ï¼Œèƒ½å¤ è®“閱讀者一目了然。çµæ§‹æ¸…æ™°ã€ä¸»æ¬¡åˆ†æ˜Žå¯ä»¥ä½¿é–±è®€è€…正確ç†è§£å ±å‘Šå…§å®¹ï¼›åœ–文並茂,å¯ä»¥ä»¤è³‡æ–™æ›´åŠ ç”Ÿå‹•æ´»æ½‘,æ高視覺è¡æ“ŠåŠ›ï¼Œæœ‰åŠ©æ–¼é–±è®€è€…更形象ã€ç›´è§€åœ°çœ‹æ¸…楚å•é¡Œå’Œçµè«–,從而產生æ€è€ƒã€‚

(2)明確的çµè«–:沒有明確çµè«–的分æžç¨±ä¸ä¸Šåˆ†æžï¼ŒåŒæ™‚也失去了報告的æ„義,因為我們最åˆå°±æ˜¯ç‚ºå°‹æ‰¾æˆ–者求證一個çµè«–æ‰é€²è¡Œåˆ†æžçš„,所以åƒè¬ä¸è¦èˆæœ¬æ±‚末。

(3)建議或解決方案:作為決策者,需è¦çš„ä¸åƒ…僅是找出å•é¡Œï¼Œæ›´é‡è¦çš„是建議或解決方法,以便他們在決策時作åƒè€ƒã€‚所以,資料分æžå¸«ä¸åƒ…需è¦æŽŒæ¡è³‡æ–™åˆ†æžæ–¹æ³•ï¼Œè€Œä¸”é‚„è¦çž­è§£å’Œç†Ÿæ‚‰æ¥­å‹™ï¼Œé€™æ¨£æ‰èƒ½æ ¹æ“šç™¼ç¾çš„業務å•é¡Œï¼Œæ出具有å¯è¡Œæ€§çš„建議或解決方案。

å³ä¾¿æœ‰åš´è¬¹çš„分æžæ€è·¯å’Œæœ‰åƒ¹å€¼çš„資料資料,如果ä¸èƒ½å°‡å…¶å¯«æˆå ±å‘Šï¼Œæˆ–者寫的報告未能準確清楚地表é”出資料中隱å«çš„è¦å¾‹ï¼Œé‚£è³‡æ–™çš„價值將大打折扣。一份好的分æžå ±å‘Šï¼Œè³‡æ–™è³‡æ–™æ˜¯ 功底,報告的框架是支柱,報告的格å¼æ˜¯è»è£ï¼Œç¨ç‰¹è¦‹è§£æ˜¯äº®é»žï¼Œé æ¸¬æ–¹æ³•æ˜¯åˆ€æ§ï¼Œæ­£ç¢ºçš„判斷 是見證。在撰寫報告時,深入地æ€è€ƒï¼Œæ·±å…¥åˆ†æžï¼Œé‚輯嚴謹,çµè«–有說æœåŠ›ï¼Œèƒ½æå‰é æ¸¬è³‡æ–™è¶¨å‹¢ï¼Œèƒ½å¾žå•é¡Œä¸­å¼•ç”³å‡ºè§£æ±ºæ–¹æ¡ˆï¼Œæ出有指導æ„義的分æžå»ºè­°ï¼Œé€™äº›éƒ½æ˜¯ä¸€å優秀的分æžå¸«æ‰€é«”ç¾çš„特質。



除了以上的硬實力,資料æ•æ„ŸåŠ›ã€é‚輯æ€ç¶­èƒ½åŠ›ã€æ­¸ç´èƒ½åŠ›ã€æ‰¹åˆ¤æ€§æ€ç¶­èƒ½åŠ›ã€äº¤æµæºé€šèƒ½åŠ›ã€è²¬ä»»åŠ›é€™äº›è»Ÿæ€§çš„技能也是優秀分æžå¸«å¿…須具備的素質。å¦å¤–,如果分æžå¸«èƒ½ç«™åœ¨æ›´é«˜çš„角 度æ€è€ƒå•é¡Œï¼Œæœ‰ç®¡ç†è€…çš„æ€ç¶­ï¼Œé‚£éº¼å°±èƒ½åœ¨çœ¾å¤šåˆ†æžå¸«ä¸­èƒ½è„«ç©Žè€Œå‡ºã€‚

以上有些素質是我們在入è·å ´ä¹‹å‰å°±å…·å‚™çš„,而有些則需è¦é€²å…¥è¡Œæ¥­ç’°å¢ƒå¾Œé€æ­¥ç©ç´¯å’Œå»ºç«‹ã€‚ æˆç‚ºå„ªç§€çš„資料分æžå¸«éœ€è¦å…·å‚™éŽç¡¬çš„業務素養和技術能力,這絕éžä¸€æœä¸€å¤•ä¹‹åŠŸï¼Œéœ€è¦åœ¨å¯¦è¸ 中ä¸æ–·æˆé•·å’Œæ˜‡è¯ã€‚一個優秀的資料分æžå¸«æ‡‰è©²ä»¥è³‡æ–™åƒ¹å€¼ç‚ºå°Žå‘,放眼全域ã€ç«‹è¶³æ¥­å‹™ã€å–„æ–¼ æºé€šï¼ŒèªçœŸå°å¾…æ¯ä¸€æ¬¡çš„資料分æžå·¥ä½œï¼Œåœ¨å·¥ä½œä¸­å¿«é€Ÿæˆé•·ã€‚ç¥é¡˜å„ä½ï¼

>>>

驚喜來了ï¼ï¼

我為大家專門製作了數據分æžå¸«å¿…備教程åˆé›†é›»å­æ›¸ï¼Œè£¡é¢å›Šæ‹¬é€™å…©å¹´ä¾†ç‚ºæ•¸æ“šäººæ供的經驗總çµå’Œç§‘普文,共40篇,ç¾åœ¨å¦³åªéœ€ç§è¨Šæˆ‘(暗號:data)å³å¯ç²å–這一份超級超級è±å¯Œçš„禮物,傾心準備的第一版,希望你們喜歡~

[url=http://www.finereport.com/tw/products/trial]FineReport10.0å…費下載[/url]

ç²å¾—帆軟最新動態:數據分æžï¼Œå ±è¡¨å¯¦ä¾‹ï¼Œå°ˆæ¥­çš„人都在這裡ï¼åŠ å…¥[url=https://www.facebook.com/twfinereport/]FineReport臉書粉絲團[/url]ï¼
除了以上的硬實力,資料æ•æ„ŸåŠ›ã€é‚輯æ€ç¶­èƒ½åŠ›ã€æ­¸ç´èƒ½åŠ›ã€æ‰¹åˆ¤æ€§æ€ç¶­èƒ½åŠ›ã€äº¤æµæºé€šèƒ½åŠ›ã€è²¬ä»»åŠ›é€™äº›è»Ÿæ€§çš„技能也是優秀分æžå¸«å¿…須具備的素質。å¦å¤–,如果分æžå¸«èƒ½ç«™åœ¨æ›´é«˜çš„角 度æ€è€ƒå•é¡Œï¼Œæœ‰ç®¡ç†è€…çš„æ€ç¶­ï¼Œé‚£éº¼å°±èƒ½åœ¨çœ¾å¤šåˆ†æžå¸«ä¸­èƒ½è„«ç©Žè€Œå‡ºã€‚

以上有些素質是我們在入è·å ´ä¹‹å‰å°±å…·å‚™çš„,而有些則需è¦é€²å…¥è¡Œæ¥­ç’°å¢ƒå¾Œé€æ­¥ç©ç´¯å’Œå»ºç«‹ã€‚ æˆç‚ºå„ªç§€çš„資料分æžå¸«éœ€è¦å…·å‚™éŽç¡¬çš„業務素養和技術能力,這絕éžä¸€æœä¸€å¤•ä¹‹åŠŸï¼Œéœ€è¦åœ¨å¯¦è¸ 中ä¸æ–·æˆé•·å’Œæ˜‡è¯ã€‚一個優秀的資料分æžå¸«æ‡‰è©²ä»¥è³‡æ–™åƒ¹å€¼ç‚ºå°Žå‘,放眼全域ã€ç«‹è¶³æ¥­å‹™ã€å–„æ–¼ æºé€šï¼ŒèªçœŸå°å¾…æ¯ä¸€æ¬¡çš„資料分æžå·¥ä½œï¼Œåœ¨å·¥ä½œä¸­å¿«é€Ÿæˆé•·ã€‚ç¥é¡˜å„ä½ï¼

>>>

驚喜來了ï¼ï¼

我為大家專門製作了數據分æžå¸«å¿…備教程åˆé›†é›»å­æ›¸ï¼Œè£¡é¢å›Šæ‹¬é€™å…©å¹´ä¾†ç‚ºæ•¸æ“šäººæ供的經驗總çµå’Œç§‘普文,共40篇,ç¾åœ¨å¦³åªéœ€ç§è¨Šæˆ‘(暗號:data)å³å¯ç²å–這一份超級超級è±å¯Œçš„禮物,傾心準備的第一版,希望你們喜歡~

[url=http://www.finereport.com/tw/products/trial]FineReport10.0å…費下載[/url]

ç²å¾—帆軟最新動態:數據分æžï¼Œå ±è¡¨å¯¦ä¾‹ï¼Œå°ˆæ¥­çš„人都在這裡ï¼åŠ å…¥[url=https://www.facebook.com/twfinereport/]FineReport臉書粉絲團[/url]ï¼

Original Message

作者: frlily
Date: October 25, 2019 08:10PM

ã€æŽ¨è–¦æ”¶è—ï¼ã€‘數據分æžå¸«å¿…備的10大技能,大多數人åªçŸ¥é“一åŠ
昨天有ä½å‰›å…¥è¡Œè³‡æ–™åˆ†æžçš„朋å‹è·Ÿæˆ‘å槽,自己入門到ç¾åœ¨åªæœƒç”¨Excelå’Œåšåˆ†æžåœ–表,但是感覺越åšè¶Šæ²’有價值,資料分æžä¼¼ä¹Žå°±æ˜¯æ¥­å‹™è³‡æ–™çš„分æžå“¡ï¼Œä¸çŸ¥é“該如何æå‡è‡ªå·±ã€‚

這是因為他沒有完全把大數據分æžçš„價值挖掘出來,資料分æžæ˜¯ç‚ºäº†é€šéŽå°è³‡æ–™ç¾è±¡çš„查看來完æˆå°ç”¢å“ã€è¡ŒéŠ·ç­–ç•¥ã€é‹ç‡Ÿç­–略的優化,ä¸åƒ…是å°æ¥­å‹™ï¼Œæ›´é‡è¦çš„是è¦æŽŒæ¡è³‡æ–™åˆ†æžçš„å„種技能,從能力增長上çªç ´è·æ¥­çš„天花æ¿ã€‚根據我多年總çµçš„經驗,這是因為他沒有完全把[url=http://www.finereport.com/tw/]大數據分æž[/url]的價值挖掘出來,資料分æžæ˜¯ç‚ºäº†é€šéŽå°è³‡æ–™ç¾è±¡çš„查看來完æˆå°ç”¢å“ã€è¡ŒéŠ·ç­–ç•¥ã€é‹ç‡Ÿç­–略的優化,ä¸åƒ…是å°æ¥­å‹™ï¼Œæ›´é‡è¦çš„是è¦æŽŒæ¡è³‡æ–™åˆ†æžçš„å„種技能,從能力增長上çªç ´è·æ¥­çš„天花æ¿ã€‚根據我多年總çµçš„經驗,一個åˆæ ¼çš„ã€é«˜ç´šçš„數據分æžå¸«å¿…é ˆè¦æŽŒæ¡ä»¥ä¸‹10種技能:
[s]
統計分æžï¼šå¤§æ•¸å®šå¾‹ã€æŠ½æ¨£æŽ¨æ¸¬è¦å¾‹ã€ç§©å’Œæª¢é©—ã€å›žæ­¸ã€é æ¸¬
視覺化輔助工具:excelã€BI工具ã€python
大數據處ç†æ¡†æž¶ï¼šHadoopã€stormã€spark
資料庫:SQLã€MySqlã€DB
資料倉庫:SSISã€SSAS
資料採擷工具:Matlabã€R語言ã€python
AI人工智慧:機器學習
挖掘演算法:資料çµæ§‹ã€ä¸€è‡´æ€§
程å¼è¨­è¨ˆèªžè¨€ï¼šJavaã€python
撰寫報告的能力[/s]
[img]http://www.finereport.com/tw/wp-content/themes/BusinessNews/images/2019/10/tw-191023/2019102302Y.png[/img]

[size=large]1ã€çµ±è¨ˆåˆ†æž[/size]

眾所周知,統計學是資料分æžçš„基石。學了統計學,你會發ç¾å¾ˆå¤šæ™‚候的分æžä¸¦ä¸é‚£éº¼æº–確,比如很多人都喜歡用平å‡æ•¸åŽ»åˆ†æžä¸€å€‹äº‹ç‰©çš„çµæžœï¼Œä½†æ˜¯é€™å¾€å¾€æ˜¯ç²—糙的的。而統計學å¯ä»¥å¹«åŠ©æˆ‘們以更科學的角度看待資料,é€æ­¥æŽ¥è¿‘這個資料背後的“真相â€ã€‚

大部分的資料分æžï¼Œéƒ½æœƒç”¨åˆ°çµ±è¨ˆæ–¹é¢çš„以下知識,å¯ä»¥é‡é»žå­¸ç¿’:

基本的統計é‡ï¼šå‡å€¼ã€ä¸­ä½æ•¸ã€çœ¾æ•¸ã€æ–¹å·®ã€æ¨™æº–å·®ã€ç™¾åˆ†ä½æ•¸ç­‰
概率分佈:幾何分佈ã€äºŒé …分佈ã€æ³Šæ¾åˆ†ä½ˆã€æ­£æ…‹åˆ†ä½ˆç­‰
總體和樣本:瞭解基本概念,抽樣的概念
置信å€é–“與å‡è¨­æª¢é©—:如何進行驗證分æž
相關性與回歸分æžï¼šä¸€èˆ¬è³‡æ–™åˆ†æžçš„基本模型

瞭解統計學的原ç†ä¹‹å¾Œï¼Œä½ ä¸ä¸€å®šèƒ½å¤ é€šéŽå·¥å…·å¯¦ç¾ï¼Œé‚£éº¼ä½ éœ€è¦åŽ»å°æ‡‰çš„找網上找相關的實ç¾æ–¹æ³•ï¼Œä¹Ÿå¯ä»¥çœ‹æ›¸ã€‚先推薦一本éžå¸¸ç°¡å–®çš„:å³å–œä¹‹-《統計學·從資料到çµè«–》,也å¯ä»¥çœ‹ã€Šå•†å‹™èˆ‡ç¶“濟統計》,çµåˆæ¥­å‹™èƒ½æ›´å®¹æ˜“ç†è§£ã€‚

å¦å¤–,如果想è¦æ›´é€²ä¸€æ­¥ï¼Œè«‹æŽŒæ¡ä¸€äº›ä¸»æµæ¼”算法的原ç†ï¼Œæ¯”如線性回歸ã€é‚輯回歸ã€æ±ºç­–樹ã€ç¥žç¶“網路ã€é—œè¯åˆ†æžã€èšé¡žã€å”åŒéŽæ¿¾ã€éš¨æ©Ÿæ£®æž—。

å†æ·±å…¥ä¸€é»žï¼Œé‚„å¯ä»¥æŽŒæ¡æ–‡æœ¬åˆ†æžã€æ·±åº¦å­¸ç¿’ã€åœ–åƒè­˜åˆ¥ç­‰ç›¸é—œçš„演算法。關於這些演算法,ä¸åƒ…需è¦çž­è§£å…¶åŽŸç†ï¼Œä½ æœ€å¥½å¯ä»¥æµæš¢åœ°é—¡è¿°å‡ºä¾†ï¼Œé‚„需è¦ä½ çŸ¥æ›‰å…¶åœ¨å„行業的一些應用場景。如果ç¾éšŽæ®µä¸æ˜¯å·¥ä½œå‰›éœ€ï¼Œå¯ä¸ä½œç‚ºé‡é»žã€‚

[size=large]2ã€è¦–覺化輔助工具[/size]

資料視覺化主è¦é€šéŽç¨‹å¼è¨­è¨ˆå’Œéžç¨‹å¼è¨­è¨ˆå…©é¡žå·¥å…·å¯¦ç¾ï¼Œå°æ–¼æ™®é€šè¡Œæ¥­çš„資料分æžå¸«ä¾†èªªï¼Œå¯ä»¥ä¸éœ€è¦æŽŒæ¡ç¨‹å¼è¨­è¨ˆé¡žçš„視覺化工具,學習麻煩浪費效率,推薦掌æ¡ä»¥ä¸‹å³å¯ï¼š

[size=medium]1ã€Excel[/size]

作為常用的資料處ç†å’Œå±•ç¾å·¥ 具,資料分æžå¸«é™¤äº†è¦ç†Ÿç·´å°‡è³‡æ–™ç”¨ Excel 中的圖表展ç¾å‡ºä¾†ï¼Œé‚„需è¦æŽŒæ¡ç‚ºç”Ÿæˆçš„圖表åšä¸€ç³» 列的格å¼è¨­ç½®çš„方法,如:系列格å¼ç¾ŽåŒ–ã€ä¸‰ç¶­æ ¼å¼ç¾ŽåŒ–,以åŠåæ¨™è»¸å’Œæ ¼ç·šè¨­ç½®ç­‰ï¼Œåœ–è¡¨å¯ ä»¥èˆ‡å‡½æ•¸æˆ–å·¨é›†ç­‰åŠŸèƒ½ä¸€èµ·è¯ç”¨ï¼Œè£½ä½œå‡ºé¡žæ¯”圖表或帶有交互效果的高級圖表,比如在臺ç£åœ°åœ–上標注å„市縣的人å£åˆ†ä½ˆç­‰ï¼Œå¯¦ç¾é€™äº›èƒ½å¾—到更好地資料分æžå’ŒæŸ¥çœ‹æ•ˆæžœã€‚Excel 裡é¢è‡ªå¸¶çš„è³‡æ–™åˆ†æž åŠŸèƒ½ï¼Œå¾ˆå¤§ç¨‹åº¦ä¸Šèƒ½å®Œæˆå°ˆæ¥­çµ±è¨ˆè»Ÿé«”(Rã€SPSSã€SASã€Matlab)的資料分æžå·¥ä½œï¼Œé€™å…¶ä¸­åŒ…括 æ述性統計ã€ç›¸é—œä¿‚數ã€æ¦‚率分佈ã€å‡å€¼æŽ¨æ–·ã€ç·šæ€§ã€éžç·šæ€§å›žæ­¸ã€å¤šå…ƒå›žæ­¸åˆ†æžã€æ™‚é–“åºåˆ—ç­‰ 內容。熟悉使用 Excel çš„å„項功能å°ä¸€å優秀的資料分æžå¸«ä¾†èªªéžå¸¸é‡è¦ã€‚
[img]http://www.finereport.com/tw/wp-content/themes/BusinessNews/images/2019/10/tw-191023/2019102303Y.jpg[/img]

å†æ·±å…¥ä¸€é»žï¼Œé‚„å¯ä»¥æŽŒæ¡æ–‡æœ¬åˆ†æžã€æ·±åº¦å­¸ç¿’ã€åœ–åƒè­˜åˆ¥ç­‰ç›¸é—œçš„演算法。關於這些演算法,ä¸åƒ…需è¦çž­è§£å…¶åŽŸç†ï¼Œä½ æœ€å¥½å¯ä»¥æµæš¢åœ°é—¡è¿°å‡ºä¾†ï¼Œé‚„需è¦ä½ çŸ¥æ›‰å…¶åœ¨å„行業的一些應用場景。如果ç¾éšŽæ®µä¸æ˜¯å·¥ä½œå‰›éœ€ï¼Œå¯ä¸ä½œç‚ºé‡é»žã€‚

[size=large]2ã€[url=http://www.finereport.com/tw/products/datavisualization]資料視覺化[/url]輔助工具[/size]

資料視覺化主è¦é€šéŽç¨‹å¼è¨­è¨ˆå’Œéžç¨‹å¼è¨­è¨ˆå…©é¡žå·¥å…·å¯¦ç¾ï¼Œå°æ–¼æ™®é€šè¡Œæ¥­çš„資料分æžå¸«ä¾†èªªï¼Œå¯ä»¥ä¸éœ€è¦æŽŒæ¡ç¨‹å¼è¨­è¨ˆé¡žçš„視覺化工具,學習麻煩浪費效率,推薦掌æ¡ä»¥ä¸‹å³å¯ï¼š

[size=medium]1ã€Excel[/size]

作為常用的資料處ç†å’Œå±•ç¾å·¥ 具,資料分æžå¸«é™¤äº†è¦ç†Ÿç·´å°‡è³‡æ–™ç”¨ Excel 中的圖表展ç¾å‡ºä¾†ï¼Œé‚„需è¦æŽŒæ¡ç‚ºç”Ÿæˆçš„圖表åšä¸€ç³» 列的格å¼è¨­å®šçš„方法,如:系列格å¼ç¾ŽåŒ–ã€ä¸‰ç¶­æ ¼å¼ç¾ŽåŒ–,以åŠåæ¨™è»¸å’Œæ ¼ç·šè¨­å®šç­‰ï¼Œåœ–è¡¨å¯ ä»¥èˆ‡å‡½æ•¸æˆ–å·¨é›†ç­‰åŠŸèƒ½ä¸€èµ·è¯ç”¨ï¼Œè£½ä½œå‡ºé¡žæ¯”圖表或帶有交互效果的高級圖表,比如在臺ç£åœ°åœ–上標注å„市縣的人å£åˆ†ä½ˆç­‰ï¼Œå¯¦ç¾é€™äº›èƒ½å¾—到更好地資料分æžå’ŒæŸ¥çœ‹æ•ˆæžœã€‚Excel 裡é¢è‡ªå¸¶çš„è³‡æ–™åˆ†æž åŠŸèƒ½ï¼Œå¾ˆå¤§ç¨‹åº¦ä¸Šèƒ½å®Œæˆå°ˆæ¥­çµ±è¨ˆè»Ÿé«”(Rã€SPSSã€SASã€Matlab)的資料分æžå·¥ä½œï¼Œé€™å…¶ä¸­åŒ…括 æ述性統計ã€ç›¸é—œä¿‚數ã€æ¦‚率分佈ã€å‡å€¼æŽ¨æ–·ã€ç·šæ€§ã€éžç·šæ€§å›žæ­¸ã€å¤šå…ƒå›žæ­¸åˆ†æžã€æ™‚é–“åºåˆ—等內容。熟悉使用 Excel çš„å„項功能å°ä¸€å優秀的資料分æžå¸«ä¾†èªªéžå¸¸é‡è¦ã€‚

[size=medium]2ã€BI工具[/size]

近幾年冒出來的BI之秀,如powerBIã€qilkview都強調視覺化,一改傳統BI工具SAP BOã€IBM家的cognos(ä¸éŽè¿‘幾年貌似都在研發雲BI)。這裡ä¸è«‡é–‹æºï¼Œé‚„沒見到能æˆç†Ÿæ‡‰ç”¨çš„BI。æˆç†Ÿçš„BI軟體工具如FineReport(國內)和 Tableau(國外),都很推薦。

[url=http://www.finereport.com/tw/knowledge/acquire/tableauvsfinereport.html]Tableau VS FineReport?
[/url]

[img]http://www.finereport.com/tw/wp-content/themes/BusinessNews/images/2019/10/tw-191023/2019102304Y.gif[/img]

FineReport作為一款通用的報表åŠè³‡æ–™è¦–覺化工具,兩大核心功能是填報和資料展示,但我覺得比較驚豔的一點是,它內置了大é‡çš„圖表和視覺化動效,視覺化很è±å¯Œï¼Œå®Œå…¨æ²’有å°è±¡ä¸­åšå ±è¡¨é‚£ç¨®å¤æ¿çš„風格。多以它能åšå‡ºæ ¼å¼å„樣的dashboardã€ç”šè‡³æ˜¯è¦–覺化大å±ï¼Œä¸€é»žä¸è™›ã€‚

感觸最深的是之å‰å·¥ä½œæ‹¿FR開發報表很çœåŠ›ï¼Œ10張門店報表以往åš10å¼µExcel的,在他裡é¢å°±æ˜¯ä¸€å€‹åƒæ•¸æŸ¥è©¢ï¼Œç„¶å¾Œæ‰¹é‡åŒ¯å‡ºï¼Œç”¨ä¸€å€‹ç¯„本。

å¦å¤–這款工具除了å¯ä»¥åšè¦–覺化報表,åŒæ™‚也æ供大å±çš„æœå‹™ã€‚通éŽä½ˆå±€ã€è‰²å½©ã€ç¶å®šè³‡æ–™ç­‰ç’°ç¯€å®Œæˆå¤§å±æˆ°æƒ…室的製作,æ“有很多自助開發的視覺化外掛程å¼åº«ã€‚

因為後端通常連çµæ¥­å‹™ç³»çµ±è³‡æ–™ï¼Œæ‰€ä»¥å¯ä»¥å³æ™‚連接業務資料,åšä¼æ¥­çš„一些經營資料展示。比如展覽中心ã€BOSS儀錶æ¿ï¼Œé‚„有城市交通管控中心ã€äº¤æ˜“大廳等。
[img]http://www.finereport.com/tw/wp-content/themes/BusinessNews/images/2019/10/tw-191023/2019102306Y.gif[/img]

[size=medium]3ã€python[/size]

å­¸éŽPython資料分æžçš„朋å‹éƒ½çŸ¥é“,在視覺化的工具中,有很多優秀的三方庫,比如matplotlib,seaborn,plotly,Boken,pyecharts等等,這些視覺化庫都有自己的特點,在實際應用中也廣為大家使用。如果你ä¸çŸ¥é“資料分æžè©²å­¸ä»€éº¼å·¥å…·ï¼Œå°±ç›´æŽ¥å­¸pythonå§ï¼Œè¬èƒ½èªžè¨€å­¸äº†ä¸è™§ã€‚

學習資æºæŽ¨è–¦ï¼š

[url=https://www.facebook.com/twfinereport/]Python Weekly[/url]:æ¯é€±æ›´æ–°ï¼ŒåŒ…括Python相關的文章ã€æ•™ç¨‹ã€æ¼”講ã€æ›¸ç±ã€å°ˆæ¡ˆã€å·¥ä½œç­‰ã€‚

Python challenge:用Python程å¼è¨­è¨ˆæŠ€èƒ½è§£æ±º33個謎題,闖關。

[url=https://www.python.org/]Python官方文檔[/url]:官網,去找資料å§ï¼

[url=https://pythontips.com/2013/07/31/10-python-blogs-worth-following/]10 python blogs worth following[/url]: 關於python你值得關注的10個åšå®¢

[size=large]3ã€å¤§æ•¸æ“šè™•ç†æ¡†æž¶[/size]

如果你想脫離普通業務的æŸç¸›ï¼Œåšä¸€å大數據分æžå¸«ï¼Œé¦–先就è¦çž­è§£å¤§æ•¸æ“šæ¡†æž¶çš„基礎。

大數據處ç†æ¡†æž¶è² è²¬å°å¤§æ•¸æ“šç³»çµ±ä¸­çš„資料進行計算,資料包括從æŒä¹…存儲中讀å–的資料或通éŽè¨Šæ¯ä½‡åˆ—等方å¼æŽ¥å…¥åˆ°ç³»çµ±ä¸­çš„資料,而計算則是從資料中æå–資訊的éŽç¨‹ã€‚

我們按照å°æ‰€è™•ç†çš„資料形å¼å’Œå¾—到çµæžœçš„時效性進行分類,分為批次處ç†ç³»çµ±ã€æµè™•ç†ç³»çµ±å’Œæ··åˆå¼ç³»çµ±ã€‚典型的批次處ç†ç³»çµ±å°±æ˜¯Apache Hadoop;典型的æµè™•ç†ç³»çµ±æœ‰Apache Storm,Apache Samza;混åˆè™•ç†ç³»çµ±æ¯”如Apache Spark,Apache Flink。
[img]http://www.finereport.com/tw/wp-content/themes/BusinessNews/images/2019/10/tw-191023/2019102308Y.jpg[/img]

[size=large]4ã€è³‡æ–™åº«[/size]

資料分æžæ˜¯åˆ†ç­‰ç´šçš„,有åªè² è²¬æ¸…洗資料的,比較少,工作也比較簡單;還有就是負責建模的,掌æ¡å¸¸ç”¨çš„å多個機器學習演算法就能是二æµçš„了,è¦åšåˆ°ä¸€æµçš„å°±è¦ç†Ÿç·´æŽŒæ¡å„個演算法的本質了,也就是è¦æŽŒæ¡è³‡æ–™åº«çš„基礎。sql在資料庫裡是核心技術,在資料分æžå­¸ç¿’時一定è¦é‡è¦–這些內容,主è¦ä»¥MySQL為主,MySQL就是互è¯ç¶²è¡Œæ¥­çš„通用標準。

ç›®å‰ä½¿ç”¨è¼ƒå¤šçš„資料庫有 MySQLã€SQL Server å’Œ Oracle,資料分æžå¸«å¿…須掌æ¡çš„常用語å¥å’Œå‡½æ•¸æœ‰å¦‚下幾種。

(1)åˆè¨ˆå’Œæ¨™é‡å‡½æ•¸ï¼šCount()ã€Max()ã€Sum()ã€Upper()ã€lower()ã€Round()等。

(2)distinct——distinct é—œéµå­—å¯ä»¥éŽæ¿¾é‡è¤‡çš„資料記錄。

(3)Top——çµåˆ select 語å¥ï¼ŒTop 函數å¯ä»¥æŸ¥è©¢é ­å¹¾æ¢å’Œæœ«å¹¾æ¢çš„è³‡æ–™è¨˜éŒ„ï¼ˆåƒ…é™ SQL Server, 在其他資料庫,å¯ç”¨ limit 語å¥ã€rownum 列等方å¼å¯¦ç¾ç›¸ä¼¼çš„目的)。

(4)Order By——çµåˆ select語å¥ï¼ŒOrder By å¯ä»¥è®“查詢çµæžœæŒ‰æŸå€‹æ¬„ä½æ­£åºå’Œé€†åºæŽ’列。

(5)Group By——Group By å­å¥å¯ä»¥å°æŸ¥è©¢çš„çµæžœé›†æŒ‰æŒ‡å®šæ¬„ä½åˆ†çµ„。

(6)Group By & Having å­å¥â€”—Having 語å¥åŸºæ–¼ Group By,定義分組æ¢ä»¶ã€‚

(7)Inner Join,Left Outer Join,Right Outer Join and Full outer Join——多表的列關è¯ï¼Œå³é€šéŽ Join å¯ä»¥å°‡ä¸åŒç‰©ç†è¡¨ä¸­çš„資料列根據一定的關è¯æ¢ä»¶åˆä½µæˆä¸€å€‹çµæžœé›†ã€‚

(8)Union åˆä½µæŸ¥è©¢ï¼šUnion/Union ALL 查詢å¯ä»¥æŠŠå¤šå¼µè¡¨çš„資料行åˆä½µèµ·ä¾†ï¼ŒUnion 在åˆä½µ 時é‡è¤‡çš„資料僅ä¿ç•™ä¸€è¡Œï¼Œè€Œ Union ALL 則是直接åˆä½µï¼Œä¸æœƒè™•ç†é‡è¤‡è¡Œã€‚ 在大數據時代,有很多查詢工具å¯ä¾›é¸æ“‡ã€‚Hive å’Œ SQL 是目å‰æ¯”較主æµçš„工具。Hive 是基 æ–¼ Hadoop 的一個數據倉庫工具,å¯ä»¥å°‡çµæ§‹åŒ–的資料檔案映射為一張資料庫表,並æ供完整的 SQL 查詢功能,å¯ä»¥å°‡ SQL 語å¥è½‰æ›ç‚º MapReduce 任務進行é‹è¡Œã€‚Hive å’Œ SQL 是éžå¸¸ç›¸ä¼¼çš„, 主è¦çš„å€åˆ¥å°±æ˜¯ Hive 缺少更新和刪除功能。如果你å¯ä»¥ç†Ÿç·´ä½¿ç”¨ SQL,就å¯ä»¥å¹³ç©©éŽæ¸¡åˆ° Hive。 å¦å¤–,一定è¦æ³¨æ„兩者在çµæ§‹å’Œèªžæ³•ä¸Šçš„差異。

當然,如果你想è¦å¿«é€ŸæŽŒæ¡è³‡æ–™åº«çš„知識,一定è¦é€²è¡Œç³»çµ±åŒ–的學習以åŠå¤§é‡çš„練習,在網上尋找一些資料庫的練習題,先從簡單的題開始,循åºæ¼¸é€²ï¼Œé€™æ¨£æ‰èƒ½å¤ æ…¢æ…¢çš„深入資料庫的核心知識。

[size=large]5ã€æ•¸æ“šå€‰åº«/BI商業智慧[/size]

在進行資料分æžçš„時候,我們總會é‡åˆ°ä¸€äº›å詞,比如資料倉庫。數據倉庫是資料分æžä¸­ä¸€å€‹æ¯”較é‡è¦çš„æ±è¥¿ï¼Œæ•¸æ“šå€‰åº«æ˜¯ä¸€å€‹é¢å‘主題的ã€å…§å»ºçš„ã€ç›¸å°ç©©å®šçš„ã€å應歷å²è®ŠåŒ–的資料集åˆã€‚

資料分æžä¸­çš„工作最é‡è¦çš„就是資料處ç†å·¥ä½œï¼Œæ ¹æ“šæˆ‘åšè³‡æ–™åˆ†æžçš„經驗,在整個資料分æžæµç¨‹ä¸­ï¼Œç”¨æ–¼è³‡æ–™è™•ç†çš„時間往往è¦ä½”æ“š70%以上,而數據倉庫具有集æˆã€ç©©å®šã€é«˜å“質等特點,基於數據倉庫為資料分æžæ供資料,往往能夠更加ä¿è­‰è³‡æ–™å“質和資料完整性。

[size=large]6ã€è³‡æ–™æŽ¡æ“·å·¥å…·
[/size]
在åšè³‡æ–™åˆ†æžæ™‚,資料採擷軟體是其中必ä¸å¯å°‘的工具之一。它是大多數商業智慧計畫中的核心應用程å¼ï¼Œè³‡æ–™æŽ¡æ“·è»Ÿé«”åŒæ¨£ä¹Ÿèƒ½å¤ å¾žå¤§é‡è³‡æ–™ä¸­æå–洞察力。

直接說需è¦å­¸ç¿’的語言:MATLABã€Pythonã€R。
1ã€MATLAB

雖然å學術性,但是好上手,上手以後就å¯ä»¥è·‘一些演算法,æ高一些信心和學習的樂趣。教æ看官方手冊的Primer,然後就開始寫腳本和函數,如果有看ä¸æ‡‚的直接百度ã€google或者help。
2ã€Pythonå’ŒR
資料分æžä¸­çš„工作最é‡è¦çš„就是資料處ç†å·¥ä½œï¼Œæ ¹æ“šæˆ‘åšè³‡æ–™åˆ†æžçš„經驗,在整個資料分æžæµç¨‹ä¸­ï¼Œç”¨æ–¼è³‡æ–™è™•ç†çš„時間往往è¦ä½”æ“š70%以上,而數據倉庫具有内建ã€ç©©å®šã€é«˜å“質等特點,基於數據倉庫為資料分æžæ供資料,往往能夠更加ä¿è­‰è³‡æ–™å“質和資料完整性。
[img]http://www.finereport.com/tw/wp-content/themes/BusinessNews/images/2019/10/tw-191023/2019102309Y.jpg[/img]

[size=large]6ã€è³‡æ–™æŽ¡æ“·å·¥å…·
[/size]
在åšè³‡æ–™åˆ†æžæ™‚,資料採擷軟體是其中必ä¸å¯å°‘的工具之一。它是大多數商業智慧計畫中的核心應用程å¼ï¼Œè³‡æ–™æŽ¡æ“·è»Ÿé«”åŒæ¨£ä¹Ÿèƒ½å¤ å¾žå¤§é‡è³‡æ–™ä¸­æå–洞察力。

直接說需è¦å­¸ç¿’的語言:MATLABã€Pythonã€R。
1ã€MATLAB

雖然å學術性,但是好上手,上手以後就å¯ä»¥è·‘一些演算法,æ高一些信心和學習的樂趣。教æ看官方手冊的Primer,然後就開始寫腳本和函數,如果有看ä¸æ‡‚的直接百度ã€google或者help。
2ã€Pythonå’ŒR

這兩個放在一起,是因為網上關於這兩個的爭論太多了。我的順åºæ˜¯é¦–先學python,其次å†æ˜¯R。首先python,先看《Head First Python》,簡單易懂,然後是《利用Python進行資料分æžã€‹å’Œã€Šæ©Ÿå™¨å­¸ç¿’實戰》。第一本書主è¦æ˜¯åˆ©ç”¨Pythonåšè³‡æ–™æŽ¡æ“·çš„,基本æ到Python學習都會推薦這本。第二本是ç†è§£æ©Ÿå™¨å­¸ç¿’的佳作,書中用到的語言就是Python,一邊學語言,一邊ç†è§£æ©Ÿå™¨å­¸ç¿’。

[size=large]7ã€AI人工智慧[/size]

åš´æ ¼æ„義上,人工智慧與資料分æžæœ‰è‘—明顯的界é™ï¼Œä¸å±¬æ–¼åŒä¸€é ˜åŸŸï¼Œå› æ­¤é€™ä¸€æ¢æ˜¯é‡å°å¤§è³‡æ–™åˆ†æžç§‘學家來說的,當你的分æžèƒ½åŠ›é‚„比較低時,å¯ä»¥ç•¥éŽä¸çœ‹æ­¤ç« ã€‚

機器學習ã€äººå·¥æ™ºæ…§æ¶µè“‹çš„知識層é¢å¤ªå»£å¤ªæ·±ï¼Œæ‰€ä»¥æœƒå»ºè­°æŽ¡å– problem-based learning 的學習方å¼ï¼Œå…ˆé¸å®šå•é¡Œï¼Œç„¶å¾Œæ‰¾åˆ°è³‡æºä¾†è§£å•é¡Œï¼Œå†æ›´æ·±å…¥çš„去瞭解。這樣在解決å•é¡ŒéŽç¨‹ä¸­ï¼Œé‡åˆ°çš„å詞與盲點知識會ç©ç´¯çš„愈多。

[size=large]8ã€æ•°æ®æŒ–掘算法[/size]

很多人认为数æ®æŒ–掘需è¦æŽŒæ¡å¤æ‚高深的算法,需è¦æŽŒæ¡æŠ€æœ¯å¼€å‘,æ‰èƒ½æŠŠæ•°æ®æŒ–掘分æžåšå¥½ï¼Œå®žé™…上并éžè¿™æ ·ï¼Œå…¶å®žç®—法并ä¸éš¾ï¼Œåªéœ€è¦ç»“åˆå®žé™…业务背景ã€ä»¥è§£å†³é—®é¢˜ä¸ºå¯¼å‘就简å•å¾ˆå¤šäº†ï¼Œä¸»è¦åŒ…括分类算法,èšç±»ç®—法,关è”规则三大类,这是学习数æ®æŒ–掘必须è¦æŽŒæ¡çš„算法基础,这三类基本上涵盖了目å‰å•†ä¸šå¸‚场对算法的所有需求。而这三类里åˆåŒ…å«è®¸å¤šç»å…¸ç®—法。

我在这里推è三本比较ç»å…¸çš„书å§ï¼š

Pattern Recognition and Machine Learning:ç»å…¸ä¸­çš„ç»å…¸ã€‚
The Elements of Statistical Learning:算是入门ML的功夫秘ç±ï¼Œç»å…¸ï¼Œä¹¦ä¸­é…有R包,éžå¸¸èµžï¼å¯ä»¥å‚ç…§ç€ä»£ç å­¦ä¹ ç®—法。
Machine Learning:作者Kevin Murrphy教授是机器学习领域中年少有为的代表。这书是他的集大æˆä¹‹ä½œï¼Œå†™å®Œä¹‹åŽï¼Œå°±åŽ»Google了,产学研结åˆï¼Œæ²¡æœ‰æ¯”这个更好的了。

[size=large]9ã€ç¼–程语言[/size]

比如pythonã€r语言ã€java等等,你该使用哪ç§è¯­è¨€ç”¨äºŽæ•°æ®åˆ†æžï¼Ÿæ怕这还得“视情况而定â€ã€‚

如果你对晦涩的统计è¿ç®—进行ç¹é‡çš„æ•°æ®åˆ†æžå·¥ä½œï¼Œé‚£ä¹ˆä½ ä¸é’çRæ‰æ€ªã€‚如果你跨GPU进行NLP或密集的神ç»ç½‘络处ç†ï¼Œé‚£ä¹ˆPython是很好的选择。如果想è¦ä¸€ç§åŠ å›ºçš„ã€é¢å‘生产环境的数æ®æµè§£å†³æ–¹æ¡ˆï¼Œåˆæ‹¥æœ‰æ‰€æœ‰é‡è¦çš„æ“作工具,Java或Scalaç»å¯¹æ˜¯å‡ºè‰²çš„选择。

以 R 语言为例,R 编程语言在数æ®åˆ†æžä¸Žæœºå™¨å­¦ä¹ é¢†åŸŸå·²ç»æˆä¸ºä¸€æ¬¾é‡è¦çš„工具。R 作为脚 本语言凭借其良好的互动性和丰富的扩展包资æºå¯ä»¥æ–¹ä¾¿åœ°è§£å†³å¤§éƒ¨åˆ†æ•°æ®å¤„ç†ã€å˜æ¢ã€ç»Ÿè®¡åˆ† æžã€å¯è§†åŒ–的问题,并å¯ä»¥é‡çŽ°æ‰€æœ‰çš„细节。R 的优势在于有包罗万象的统计函数å¯ä»¥è°ƒç”¨ï¼Œç‰¹ 别是在时间åºåˆ—分æžæ–¹é¢ï¼ˆåœ¨æ¸¸æˆè¡Œä¸šä¹Ÿæœ‰å¾ˆå¥½çš„应用),无论是ç»å…¸è¿˜æ˜¯å‰æ²¿çš„方法都有相应的 包å¯ä»¥ç›´æŽ¥ä½¿ç”¨ã€‚å› æ­¤ï¼ŒæŽŒæ¡ R 语言å¯ä»¥æ高整体的生产力。

然而,è¦æˆä¸ºä¸€å优秀的数æ®åˆ†æž 师,仅学会使用一门语言远远ä¸å¤Ÿï¼Œè¿˜éœ€è¦ä¿®æ”¹æ•°æ®æŒ–掘语言的程åºåŒ…或模型,因为现有的程åºåŒ…或模型有局é™æ€§ï¼Œåœ¨å‰æœŸæ•°æ®å¤„ç†ä¸Šè¿˜æ˜¯ä¸å¤Ÿè‡ªç”±ï¼Œå¦‚异常值的处ç†ã€å˜é‡å¤„ç†ç­‰ï¼Œè€Œè‡ªå·±å†™ä»£ç ç¼–程也å¯ä»¥æ ¹æ®è‡ªå·±çš„需求进行编写,实现更多的个性化需求。

[size=large]10ã€æ’°å†™æŠ¥å‘Š[/size]

撰写报告的能力对æˆä¸ºä¸€å优秀的分æžå¸ˆæ¥è¯´ä¹Ÿéžå¸¸é‡è¦ã€‚

資料分æžå ±å‘Šæ˜¯å°æ•´å€‹è³‡æ–™åˆ†æžéŽç¨‹çš„一個總çµèˆ‡å‘ˆç¾ã€‚通éŽå ±å‘Šï¼ŒæŠŠè³‡æ–™åˆ†æžçš„èµ·å› ã€éŽç¨‹ã€çµæžœåŠå»ºè­°å®Œæ•´åœ°å‘ˆç¾å‡ºä¾†ï¼Œä¾›æ±ºç­–者åƒè€ƒã€‚一份好的資料分æžå ±å‘Šéœ€è¦æœ‰å¦‚下3點è¦æ±‚:

(1)好的分æžæ¡†æž¶ï¼šé¦–先需è¦æœ‰ä¸€å€‹å¥½çš„分æžæ¡†æž¶ï¼Œä¸¦ä¸”圖文並茂ã€å±¤æ¬¡æ˜Žæ™°ï¼Œèƒ½å¤ è®“閱讀者一目了然。çµæ§‹æ¸…æ™°ã€ä¸»æ¬¡åˆ†æ˜Žå¯ä»¥ä½¿é–±è®€è€…正確ç†è§£å ±å‘Šå…§å®¹ï¼›åœ–文並茂,å¯ä»¥ä»¤è³‡æ–™æ›´åŠ ç”Ÿå‹•æ´»æ½‘,æ高視覺è¡æ“ŠåŠ›ï¼Œæœ‰åŠ©æ–¼é–±è®€è€…更形象ã€ç›´è§€åœ°çœ‹æ¸…楚å•é¡Œå’Œçµè«–,從而產生æ€è€ƒã€‚

(2)明確的çµè«–:沒有明確çµè«–的分æžç¨±ä¸ä¸Šåˆ†æžï¼ŒåŒæ™‚也失去了報告的æ„義,因為我們最åˆå°±æ˜¯ç‚ºå°‹æ‰¾æˆ–者求證一個çµè«–æ‰é€²è¡Œåˆ†æžçš„,所以åƒè¬ä¸è¦èˆæœ¬æ±‚末。

(3)建議或解決方案:作為決策者,需è¦çš„ä¸åƒ…僅是找出å•é¡Œï¼Œæ›´é‡è¦çš„是建議或解決方法,以便他們在決策時作åƒè€ƒã€‚所以,資料分æžå¸«ä¸åƒ…需è¦æŽŒæ¡è³‡æ–™åˆ†æžæ–¹æ³•ï¼Œè€Œä¸”é‚„è¦çž­è§£å’Œç†Ÿæ‚‰æ¥­å‹™ï¼Œé€™æ¨£æ‰èƒ½æ ¹æ“šç™¼ç¾çš„業務å•é¡Œï¼Œæ出具有å¯è¡Œæ€§çš„建議或解決方案。

å³ä¾¿æœ‰åš´è¬¹çš„分æžæ€è·¯å’Œæœ‰åƒ¹å€¼çš„資料資料,如果ä¸èƒ½å°‡å…¶å¯«æˆå ±å‘Šï¼Œæˆ–者寫的報告未能準確清楚地表é”出資料中隱å«çš„è¦å¾‹ï¼Œé‚£è³‡æ–™çš„價值將大打折扣。一份好的分æžå ±å‘Šï¼Œè³‡æ–™è³‡æ–™æ˜¯ 功底,報告的框架是支柱,報告的格å¼æ˜¯è»è£ï¼Œç¨ç‰¹è¦‹è§£æ˜¯äº®é»žï¼Œé æ¸¬æ–¹æ³•æ˜¯åˆ€æ§ï¼Œæ­£ç¢ºçš„判斷 是見證。在撰寫報告時,深入地æ€è€ƒï¼Œæ·±å…¥åˆ†æžï¼Œé‚輯嚴謹,çµè«–有說æœåŠ›ï¼Œèƒ½æå‰é æ¸¬è³‡æ–™è¶¨å‹¢ï¼Œèƒ½å¾žå•é¡Œä¸­å¼•ç”³å‡ºè§£æ±ºæ–¹æ¡ˆï¼Œæ出有指導æ„義的分æžå»ºè­°ï¼Œé€™äº›éƒ½æ˜¯ä¸€å優秀的分æžå¸«æ‰€é«”ç¾çš„特質。



除了以上的硬實力,資料æ•æ„ŸåŠ›ã€é‚輯æ€ç¶­èƒ½åŠ›ã€æ­¸ç´èƒ½åŠ›ã€æ‰¹åˆ¤æ€§æ€ç¶­èƒ½åŠ›ã€äº¤æµæºé€šèƒ½åŠ›ã€è²¬ä»»åŠ›é€™äº›è»Ÿæ€§çš„技能也是優秀分æžå¸«å¿…須具備的素質。å¦å¤–,如果分æžå¸«èƒ½ç«™åœ¨æ›´é«˜çš„角 度æ€è€ƒå•é¡Œï¼Œæœ‰ç®¡ç†è€…çš„æ€ç¶­ï¼Œé‚£éº¼å°±èƒ½åœ¨çœ¾å¤šåˆ†æžå¸«ä¸­èƒ½è„«ç©Žè€Œå‡ºã€‚

以上有些素質是我們在入è·å ´ä¹‹å‰å°±å…·å‚™çš„,而有些則需è¦é€²å…¥è¡Œæ¥­ç’°å¢ƒå¾Œé€æ­¥ç©ç´¯å’Œå»ºç«‹ã€‚ æˆç‚ºå„ªç§€çš„資料分æžå¸«éœ€è¦å…·å‚™éŽç¡¬çš„業務素養和技術能力,這絕éžä¸€æœä¸€å¤•ä¹‹åŠŸï¼Œéœ€è¦åœ¨å¯¦è¸ 中ä¸æ–·æˆé•·å’Œæ˜‡è¯ã€‚一個優秀的資料分æžå¸«æ‡‰è©²ä»¥è³‡æ–™åƒ¹å€¼ç‚ºå°Žå‘,放眼全域ã€ç«‹è¶³æ¥­å‹™ã€å–„æ–¼ æºé€šï¼ŒèªçœŸå°å¾…æ¯ä¸€æ¬¡çš„資料分æžå·¥ä½œï¼Œåœ¨å·¥ä½œä¸­å¿«é€Ÿæˆé•·ã€‚ç¥é¡˜å„ä½ï¼

>>>

驚喜來了ï¼ï¼

我為大家專門製作了數據分æžå¸«å¿…備教程åˆé›†é›»å­æ›¸ï¼Œè£¡é¢å›Šæ‹¬é€™å…©å¹´ä¾†ç‚ºæ•¸æ“šäººæ供的經驗總çµå’Œç§‘普文,共40篇,ç¾åœ¨å¦³åªéœ€ç§è¨Šæˆ‘(暗號:data)å³å¯ç²å–這一份超級超級è±å¯Œçš„禮物,傾心準備的第一版,希望你們喜歡~

[url=http://www.finereport.com/tw/products/trial]FineReport10.0å…費下載[/url]

ç²å¾—帆軟最新動態:數據分æžï¼Œå ±è¡¨å¯¦ä¾‹ï¼Œå°ˆæ¥­çš„人都在這裡ï¼åŠ å…¥[url=https://www.facebook.com/twfinereport/]FineReport臉書粉絲團[/url]ï¼é™¤äº†ä»¥ä¸Šçš„硬實力,資料æ•æ„ŸåŠ›ã€é‚輯æ€ç¶­èƒ½åŠ›ã€æ­¸ç´èƒ½åŠ›ã€æ‰¹åˆ¤æ€§æ€ç¶­èƒ½åŠ›ã€äº¤æµæºé€šèƒ½åŠ›ã€è²¬ä»»åŠ›é€™äº›è»Ÿæ€§çš„技能也是優秀分æžå¸«å¿…須具備的素質。å¦å¤–,如果分æžå¸«èƒ½ç«™åœ¨æ›´é«˜çš„角 度æ€è€ƒå•é¡Œï¼Œæœ‰ç®¡ç†è€…çš„æ€ç¶­ï¼Œé‚£éº¼å°±èƒ½åœ¨çœ¾å¤šåˆ†æžå¸«ä¸­èƒ½è„«ç©Žè€Œå‡ºã€‚

以上有些素質是我們在入è·å ´ä¹‹å‰å°±å…·å‚™çš„,而有些則需è¦é€²å…¥è¡Œæ¥­ç’°å¢ƒå¾Œé€æ­¥ç©ç´¯å’Œå»ºç«‹ã€‚ æˆç‚ºå„ªç§€çš„資料分æžå¸«éœ€è¦å…·å‚™éŽç¡¬çš„業務素養和技術能力,這絕éžä¸€æœä¸€å¤•ä¹‹åŠŸï¼Œéœ€è¦åœ¨å¯¦è¸ 中ä¸æ–·æˆé•·å’Œæ˜‡è¯ã€‚一個優秀的資料分æžå¸«æ‡‰è©²ä»¥è³‡æ–™åƒ¹å€¼ç‚ºå°Žå‘,放眼全域ã€ç«‹è¶³æ¥­å‹™ã€å–„æ–¼ æºé€šï¼ŒèªçœŸå°å¾…æ¯ä¸€æ¬¡çš„資料分æžå·¥ä½œï¼Œåœ¨å·¥ä½œä¸­å¿«é€Ÿæˆé•·ã€‚ç¥é¡˜å„ä½ï¼

>>>

驚喜來了ï¼ï¼

我為大家專門製作了數據分æžå¸«å¿…備教程åˆé›†é›»å­æ›¸ï¼Œè£¡é¢å›Šæ‹¬é€™å…©å¹´ä¾†ç‚ºæ•¸æ“šäººæ供的經驗總çµå’Œç§‘普文,共40篇,ç¾åœ¨å¦³åªéœ€ç§è¨Šæˆ‘(暗號:data)å³å¯ç²å–這一份超級超級è±å¯Œçš„禮物,傾心準備的第一版,希望你們喜歡~

[url=http://www.finereport.com/tw/products/trial]FineReport10.0å…費下載[/url]

ç²å¾—帆軟最新動態:數據分æžï¼Œå ±è¡¨å¯¦ä¾‹ï¼Œå°ˆæ¥­çš„人都在這裡ï¼åŠ å…¥[url=https://www.facebook.com/twfinereport/]FineReport臉書粉絲團[/url]ï¼