零基礎的人,怎么自學數據分析
優秀的數據分析師并不能速成,但是零經驗也有零經驗的捷徑。
市面上有《七周七數據庫》,《七周七編程語言》。今天我們就《七周七學習成為數據分析師》,沒錯,七周。
第一周:Excel學習掌握
如果Excel玩的順溜,可以略過這一周。但很多人并不會vlookup,所以有必要講下。
了解sum,count,sumif,countif,find,if,left/right,時間轉換等。excel的各類函數很多,完全不需要學全。重要的是學會搜索。我學函數是即用即查,將遇到的問題在網上搜索得到所需函數。
重中之重是學會vlookup和數據透視表。這兩個對后續的數據轉換有幫助。
學會vlookup,SQL中的join,Python中的merge能很快掌握。
學會數據透視表,SQL中的group,Python中的groupby也是同理。
這兩個搞定,基本10萬條以內的數據統計沒啥難度,也就速度慢了點。80%的辦公室白領都能秒殺。
網上多找些習題做,Excel是熟能生巧。
養成一個好習慣,不要合并單元格,不要過于花哨。表格按照原始數據、加工數據,圖表的類型管理。
附加學習:
1、了解中文編碼utf-8,ascii的含義和區別
2、了解單元格格式,幫助你了解后期的timestamp,date,string,int,bigint,char,factor等各類格式。
3、如果時間還有剩余,可以看《大數據時代》,培養職業興趣。
第二周:數據可視化
數據分析界有一句經典名言,字不如表,表不如圖。別說平常人,數據分析師自己看數據也頭大。這時就得靠數據可視化的神奇魔力了。
以上就是所謂的可視化。排除掉數據挖掘這類高級分析,不少數據分析師的平常工作之一就是監控數據觀察數據。
另外數據分析師是需要兜售自己的觀點和結論的。兜售的最好方式就是做出觀點清晰數據詳實的PPT給老板看。如果沒人認同分析結果,那么分析也不會被改進和優化,分析師的價值在哪里?工資也就漲不了對吧。
抽空花一段時間學習可視化的基礎,如《數據之美》
另外你還需要了解BI的概念。知名的BI產品有Tableau,PowerBI,還有國產的FineBI等。都有體驗版和免費版能下載,網上找一點數據就能體驗可視化的魅力。比Excel的圖表高級多了。
BI需要了解儀表盤Dashboard的概念,知道維度的聯動和鉆取,知道絕大多數圖表適用的場景和怎么繪制。比如以下FineBI制作的dashboard。
第三周:分析思維的訓練
這周我們輕松一下,學學理論知識。
分析思維首推大名鼎鼎的《金字塔原理》,幫助數據分析師結構化思維。如果金字塔原理讓你醍醐灌頂,那么就可以學思維導圖,下載一個XMind中文網站,或者在線用百度腦圖。
再了解SMART、5W2H、SWOT、4P理論、六頂思考帽等框架。這些框架都是大巧不工的經典。你要快速成為數據分析師,思考方式也得跟著改變。網上搜咨詢公司的面試題,搜CaseBook。
題目用新學的思維導圖做,先套那些經典框架,做一遍,然后去看答案對比。因為要鍛煉數據分析能力。所以得結合數據導向的思維。
這里送三條金句:
一個業務沒有指標,則不能增長和分析
好的指標應該是比率或比例
好的分析應該對比或關聯。
舉一個例子:我告訴你一家超市今天有1000人的客流量,你會怎么分析?
這1000人的數量,和附件其他超市比是多是少?(對比)
這1000人的數量比昨天多還是少?(對比)
1000人有多少產生了實際購買?(轉化比例)
路過超市,超市外的人流是多少?(轉化比例)
這是一個快速搭建分析框架的方法。如果只看1000人,是看不出分析不出任何結果。
第四周:數據庫學習
Excel對十萬條以內的數據處理起來一點不虛,但是資深的數據分析師還是笑摸狗頭,TooYoungTooSample,爺搞得都是百萬數據。要百萬數據,就得上數據庫。
SQL是數據分析師的核心技能之一。有些公司并不給數據庫權限,需要分析師寫郵件提需求,這非常不好。數據分析師經常有各類假設需要驗證,很多時候寫十幾行SQL就能得到的答案,還得麻煩其他部門導出數據。
SQL學習不需要買書,W3C學習就行了,SQL教程。大多數互聯網公司都是MySQL,我也建議學,性價比最高。
作為數據分析師,只要懂Select相關,增刪改、約束、索引、數據庫范式全部略過。你的公司心得多大才會給你寫權限。
了解where,groupby,orderby,having,like,count,sum,min,max,distinct,if,join,leftjoin,limit,and和or的邏輯,時間轉換函數等即可。
你看,和Excel的函數都差不多。如果時間充裕,則學習row_number,substr,convert,contact等。和Excel一樣,學會搜索解決問題。不同引擎的函數也會有差異,例如Presto和phpMyAdmin。
期間你不需要考慮優化和寫法丑陋,查詢幾秒和幾分鐘對數據分析師沒區別,跑數據時喝杯咖啡唄,以后你跑個SVM都能去吃飯了。
網上搜索SQL相關的練習題,刷一遍就行。也能自己下載數據庫管理工具,找些數據練習。我用的是SequelPro。
第五周:統計知識學習
統計學是數據分析的基礎之一。
統計知識會要求我們以另一個角度看待數據。當你知道AB兩組的差異用平均值看是多傻的事情,你的分析技巧也會顯著提高。
這一周努力掌握描述性統計,包括均值、中位數、標準差、方差、概率、假設檢驗、顯著性、總體和抽樣等概念。詳細的數學推導不用細看,誰讓我們是速成呢,只要看到數據,知道不能怎么樣,而是應該這樣分析即可。
Excel中有一個分析工具庫,簡單強大。對列1的各名詞做到了解。如果是多變量多樣本,學會各種檢驗。
《統計數字會撒謊》休閑讀物,有趣的案例可以讓我們避免很多數據陷阱。
深入淺出統計學(豆瓣)還是經典的HeadFirst系列,適應它一貫的啰嗦吧。
多說一句,老板和非分析師不會有興趣知道背后的統計學原理,通常要的是分析后的是與否,二元答案。不要告訴他們P值什么的,告訴他們活動有效果,或者沒效果。
第六周:業務學習(用戶行為、產品、運營)
這一周需要了解業務。對于數據分析師來說,業務的了解比數據方法論更重要。當然很遺憾,業務學習沒有捷徑。
我舉一個數據沙龍上的例子,一家O2O配送公司發現在重慶地區,外賣員的送貨效率低于其他城市,導致用戶的好評率降低??偛康臄祿治鰩熃⒘烁鱾€指標去分析原因,都沒有找出來問題。后來在訪談中發覺,因為重慶是山城,路面高低落差比較夸張,很多外賣人員的小電瓶上不了坡…所以導致送貨效率慢。
這個案例中,我們只知道送貨員的送貨水平距離,數據上根本不可能知道垂直距離這個指標。這就是數據的局限,也是只會看數據的分析師和接地氣分析師的最大差異。
對于業務市場的了解是數據分析師工作經驗上最大優勢之一。既然是零經驗面試,公司肯定也知道剛入門分析師不會有太多業務經驗,不會以這個卡人。所以簡單花一周了解行業的各指標。
《增長黑客》
數據驅動業務的典型,里面包含產品運營最經典的AAARR框架,部分非數據的營銷案例,
《網站分析實戰》
如果應聘的公司涉及Web產品,可以了解流量的概念。書中案例以GoogleAnalytics為主。其實現在是APP+Web的復合框架,比如朋友圈的傳播活動肯定需要用到網頁的指標去分析。
《精益數據分析》
互聯網數據分析的入門書籍,歸納總結了幾個常用的分析框架。比較遺憾的是案例都是歐美。
還有一個小建議,現在有不少第三方的數據應用,囊括了不少產品領域的數據分析和統計。自學黨們即使沒有生產環境的數據,也可以看一下應用Demo,有好處的。
除了業務知識,業務層面溝通也需要掌握。另外建議在面試前幾天收集該行業的業務強化一下。
第七周:Python/R學習
終于到第七周,也是最痛苦的一周。這時應該學習編程技巧。是否具備編程能力,是初級數據分析和高級數據分析的風水嶺。數據挖掘,爬蟲,可視化報表都需要用到編程能力。掌握一門優秀的編程語言,可以讓數據分析師事半功倍,升職加薪,迎娶白富美。
這里有兩條支線,學習R語言或Python。速成只要學習一條,以后再補上另外一門。
R的優點是統計學家編寫的,缺點也是統計學家編寫。如果是各類統計函數的調用,繪圖,分析的前驗性論證,R無疑有優勢。但是大數據量的處理力有不逮,學習曲線比較陡峭。Python則是萬能的膠水語言,適用性強,可以將各類分析的過程腳本化。Pandas,sklearn等各包也已經追平R。
如果學習R,建議看《R語言實戰》,照著書本打一遍代碼,一星期綽綽有余。另外還有一本《統計學》,偏知識理論,可以復習前面的統計學知識。
R學習和熟悉各種包。知道描述性統計的函數。掌握DataFrame。如果時間有余。可以再去學習ggplot2。
Python擁有很多分支,我們專注數據分析這塊,入門可以學習《深入淺出Python》。
需要學會條件判斷,字典,切片,循環,迭代,自定義函數等。知道數據領域最經典的包Pandas+Numpy。
在速成后的很長一段時間,我們都要做調包俠。
這兩門語言最好安裝IDE,R語言我建議用RStudio,Python我建議用Anaconda。都是數據分析的利器。
Mac自帶Python2.7,但現在Python3已經比幾年前成熟,而且沒有編碼問題。各類教程也足夠多,不要抱成守舊了。Win的電腦,安裝Python會有環境變量的問題,是個大坑(R的中文編碼也是天坑)。
到這里,剛剛好是七周。如果還需要第八周+,則是把上面的鞏固和融會貫通,畢竟速成是以轉崗或拿offer為目的。有機會,我會專門寫文章講解每一周的具體知識,并且用爬蟲爬一些數據做練習和案例。
文章源自知乎作者秦路
數據庫這門課為什么這么難學,該怎么學
謝邀。
數據庫是按照數據結構來進行組織、存儲和管理數據的倉庫,它是計算機軟件的組成部分。數據庫教程是計算機專業的主干課程,任何學習程序開發的人員,都需要掌握數據庫的使用方法。其實任何課程都容易學,關鍵是你得對課程感興趣,如果不感興趣,就會感覺到枯燥乏味,時間一長就會越來越難學。只要感興趣,能投入進去,就能輕松掌握。平時可以去一些視頻教程網站學習鞏固一下,大部分通俗易懂,對學習提高能有不小的幫助。這是我的一點心得體會,希望能幫到你。
軟件開發時數據在后臺是如何保存的
你好,我是只說代碼的大餅,很高興回答你的問題。
軟件開發時數據在后臺是如何保存的?
軟件的出現我覺得就是為了快速處理數據,所以啊你的問題很好?,F在我給你解答下軟件操作中對應的數據是怎樣保存的。
數據保存形式分為如下幾種:
1.小軟件一般可能就不使用數據庫了,而是直接使用
.txt、.xml、json等文件進行持久性保存于硬盤中。
2.不需要持久性保存的數據,可能就只是保存在內存中,內存中數據操作快。
3.大型軟件持久性保存數據一般都會使用數據庫,例如Oracle、mysql、SqlServer等常用數據庫,這種保存形式的好處就是有sql語句操作數據,方便操作。
總結:
不管是第一點中的文件類型還是第三點的數據庫類型保存數據,其實都是以文件形式保存在硬盤里的。只是數據庫類型的文件好操作。
回答完畢,謝謝。
外文文獻的搜索與常用數據庫
外文的搜索與常用數據庫。
最近與外文文獻結緣,撒開漁網下載電子稿,便于打印出來進行翻譯,可是在校內數據庫網上搜了很多,也沒有下載到,我估計大概是此篇文章的所在數據庫我學校沒有買,校內不提供資源。果不其然,在谷歌學術上搜到標題。
可該文章所在鏈接需要去注冊才提供下載服務,我接著又試了一些比較常用的學校購買的外文網站,比如SpringerLink、Proquest、EBSCO等,但是均沒有該篇文章。絕望之余,求助理工的圖書館,在Elsebier數據庫中還真讓我下載到了,還是人家的圖書館數據庫全。
經歷了前后一番搜索,記錄一些心得:
我們都習慣使用cnki期刊數據庫來搜索中文文獻,對外文文獻的搜索與下載有些茫然,一是因為外文搜索界面的設置我們不習慣,不熟悉,不像中文,不知道輸入什么,怎么輸入;另一原因是外文數據庫挺多的。
都是大學字母的縮寫,它們內容傾向各不相同,有的偏向于科學技術類,有的偏向于人文經濟管理類,我們不知道該去哪個數據庫去找;還有一個原因就是平時搜的少,練習的少。
前幾天,同學問我搜外文一般在哪個數據庫搜,我想了想,感覺一般的外文資料在自己圖書館的電子資源中都可以搜到的,一些常用的數據庫學校都會購買的,特殊情況除外。
搜索外文,建議大家先去谷歌那里,將題目或關鍵字輸入,設置文獻格式是PDF就可以的(題目:PDF),結果就會顯示很多PDF格式的文獻,直接點擊下載就好的,前提是學校提供這些數據庫。
在此,列舉一些教育技術學研究生常用的數據庫,簡單為大家介紹一下,為以后的學習提供一些便捷:
1.SpringerLink(綜合學科期刊全文)
對研究生而言,是很常用的一個數據庫,它是德國施普林格集團提供,其中計算機科學包括44類,我們可以直接登錄,遼師提供服務。
2.Elsevier綜合學科期刊全文)
全球最大的科學文獻出版發行商,涵蓋科學、技術和醫學等各個領域。ScienceDirect(SDOS)是最全面的全文文獻數據庫,涵蓋了Elsevier公司出版的1800多種期刊,涉及幾乎所有學科領域,其中包括計算機科學115類,Elsevier公司出版的期刊是各個學科領域當中所公認的高品質期刊,這個數據庫很權威,可惜的是遼師沒有購買,所以校內無法下載。
3.Proquest學位論文全文數據庫(CALIS)
收錄200多萬國外高校博碩士論文的文摘索引,遼師提供ProQuestPsychologyJournals心理學期刊全文數據庫,主要是針對心理學學生,不過,關于教育技術的心理學研究,即有關學習的機制等,可以使用。另外,CALIS外文期刊網中搜到的文獻可以在過期期刊類借到紙質稿,貌似電子稿沒有。
4.EBSCO(遼師提供,涉及教育、經濟、人文等)
5.ERIC(Educationresourcesinformationcenter教育資源信息中心)
美國教育部資助的網站系列和世界上最大的教育資源數據庫,包括各種文檔和教育研究和實踐方面的論文摘要,超過100萬篇,部分資料可以查找全文。
當然,在外文的學習過程中,還有其他的數據庫,搜索不僅僅停止在以上的5個常用數據庫中,但是,對于我們一般的需求,大部分可以滿足。
es數據庫優缺點
你好,ES(Elasticsearch)是一種分布式搜索引擎,也是一種基于Lucene搜索引擎的開源搜索引擎。它具有以下優缺點:
優點:
1.高效性:ES是基于Lucene的搜索引擎,其查詢速度快,支持實時搜索。
2.分布式:ES是分布式的,可以水平擴展,支持多節點部署和查詢。這使得ES能夠處理大量的數據和高并發請求。
3.高可用性:ES有多種高可用性機制,例如復制,分片等,可以保證數據的可靠性和可用性。
4.靈活性:ES支持各種數據類型和查詢方式,可以根據需要靈活地定制查詢和分析。
5.易于部署和維護:ES安裝和部署簡單,易于維護和管理。
缺點:
1.學習曲線較陡峭:ES的學習曲線較陡峭,需要一定的學習成本。
2.需要專業知識:ES需要一定的專業知識和經驗來優化性能和處理復雜的查詢。
3.數據安全性:ES的數據安全性需要額外的配置和管理,否則可能存在數據泄露和數據損壞的風險。
4.不支持事務:ES不支持事務,如果需要事務支持,則需要結合其他技術實現。
數據庫和編程有什么關系嗎
前言
為了詳細闡述清楚數據庫和編程的關系,為此我們帶著這樣一個問題來思考:數據在軟件中是如何走向呢?針對這個問題,我們從前端,后端以及數據庫三層來詳細進行闡述,當你明白了數據在這三層的走向之后,你也就明白了數據庫和編程的關系了。
前端
前端的主要工作就是編寫代碼(編程)來畫頁面并控制頁面之間的跳轉邏輯。當某些頁面需要用到數據時,此時前端就會向后端發起獲取數據的請求,請求通常以HTTP的形式向后端發起。拿到后端傳輸過來的數據后,前端就把數據展示在頁面,以此來完成整個前端的編程工作。
后端
當后端接收到前端的數據請求后,后端通過SQL語句向數據庫查詢出符合條件的數據庫字段值,然后將查詢的字段值整合在一起形成一條數據,然后通常以HTTP的形式返回給前端,以上就是后端的編程任務。
數據庫
數據庫的作用就是用來存放數據的。當后端需要查詢數據時,就向數據庫發起查詢請求,然后數據庫將相應字段值返回給后端。當后端需要存放數據,數據庫就將后端需要存放的字段值相應插入到對應表中。
總結
以上就是數據庫和編程的關系。如果大家對此還有疑惑,歡迎私信或留言,我會盡可能幫助大家。
如果你喜歡文章的觀點,請點贊轉發。如果有不同意見,也歡迎大家拍磚留言。關注我,不定期分享好玩科技知識,帶大家一起體會探索科技的那份獨有思考和樂趣。