當前位置:首頁 » 網路資訊 » 怎樣學數據和學函數公式呢
擴展閱讀
怎樣在電腦上做u盤 2024-11-15 00:18:42
局部線雕多久可以運動 2024-11-15 00:10:06

怎樣學數據和學函數公式呢

發布時間: 2022-01-16 00:40:49

A. 數學函數如何記住公式,有沒有技巧

  1. 進入中學階段的學習,數學公式也越來越紛繁復雜,面對如此多的數學公式,學生要完全背下來是件很困難的事,那麼學生如何在緊張的學習中把這些重要的公式都快速記憶下來呢?下面給一些小提示:

1、要有良好的數學學習方法和習慣

良好的數學學習習慣,會減輕數學學習的難度,要學會把課堂知識用自己特殊方法記憶下來,那就要做到認真預習、專心上課、及時復習、獨立作業、系統小結.

2、掌握常用的數學思想和方法

做數學題時,也要注意解題思維策略問題,經常要思考:選擇什麼角度來進入,應遵循什麼原則性的東西,是否可以運用哪些數學公式來做這些題.

3、慢慢養成「以我為主」的學習模式

學習數學就要積極主動地參與學習過程,養成實事求是的科學態度,獨立思考、勇於探索的創新精神;對課本知識既要能鑽進去,又要能跳出來,結合自身特點,尋找最佳學習方法.

4、針對自己的學習情況,採取一些具體的措施

(1)記數學筆記,特別是對概念理解的不同側面和數學規律,教師在課堂中拓展的課外知識.

(2)建立數學糾錯本.把平時容易出現錯誤的知識或推理記載下來,以防再犯.

(3)熟記一些數學規律和數學小結論,使自己平時的運算技能達到了自動化或半自動化的熟練程度.

(4)經常對知識結構進行梳理,形成板塊結構,實行「整體集裝」,如表格化,使知識結構一目瞭然.

(5)閱讀數學課外書籍與報刊,參加數學學科課外活動與講座,多做數學課外題,加大自學力度,拓展自己的知識面.

(6)及時復習,強化對基本概念知識體系的理解與記憶,進行適當的反復鞏固,消滅前學後忘.


任何一門課的學習都需要科學方法,數學公式的記憶同樣也需要,

希望能根據以上建議,為自己建立一套完整的數學公式記憶方法.

有幫助的話順手採納一下吧

B. 怎樣學習函數

學習要立足課本,加強訓練。這方面我在學習的時候深刻感到它的重要性,見的題型多了,解決起來就更容易。函數,說真的,剛學起來的卻覺得很有難度,後來學的什麼橢圓之類的曲線方程有不好學,這個我建議你聯系圖形,畫圖理解。要深知函數的三要素,定義域值域表達式,在知道這個的基礎上然後按題型拓展,在這里首先要把書本知識了解了,然後就要涉及課外題目了,看典型的題目和專題,比喻說,有關於對稱的,就要花時間去看。其實數學不難,就是要花時間去學,我高中是數學一直在班級領先,在這我強烈推薦要做題目,你就是了解了但數學現在是考試,要做題目,而且你也應該知道,書上的例題有限,所以這就要你課外訓練。上課跟著老師走,基本能把書本學會,課後及時處理作業,不要拖。形成一個好習慣,這樣就能及時掌握知識。好好學,其實數學並不難。
如果這樣還不行的話,我知道一個博客挺好的,博主曾經從最後一名成為中考狀元,只用了6個月的時間,後來他又經過3年的努力,成功的成為了一個高考狀元,他的一些方法,也許對你會有所幫助!你可以網路找一下李曉鵬新浪博客,裡面除了有函數的學習方法、重點歸納,還有各個科目詳細的復習計劃、解題竅門以及復習資料,都是他的經驗總結,希望能夠幫到你哦!博主的經歷說明了一個道理,沒有笨孩子,只有笨方法,只要你努力了,找對好方法,我相信你一定能夠學好函數的!加油哦!O(∩_∩)O~

C. 怎麼才能學好excel函數

1、ABS函數
函數名稱:ABS
主要功能:求出相應數字的絕對值。
使用格式:ABS(number)
參數說明:number代表需要求絕對值的數值或引用的單元格。
應用舉例:如果在B2單元格中輸入公式:=ABS(A2),則在A2單元格中無論輸入正數(如100)還是負數(如-100),B2中均顯示出正數(如100)。
特別提醒:如果number參數不是數值,而是一些字元(如A等),則B2中返回錯誤值「#VALUE!」。
2、AND函數
函數名稱:AND
主要功能:返回邏輯值:如果所有參數值均為邏輯「真(TRUE)」,則返回邏輯「真(TRUE)」,反之返回邏輯「假(FALSE)」。
使用格式:AND(logical1,logical2, ...)
參數說明:Logical1,Logical2,Logical3……:表示待測試的條件值或表達式,最多這30個。
應用舉例:在C5單元格輸入公式:=AND(A5=60,B5=60),確認。如果C5中返回TRUE,說明A5和B5中的數值均大於等於60,如果返回FALSE,說明A5和B5中的數值至少有一個小於60。
特別提醒:如果指定的邏輯條件參數中包含非邏輯值時,則函數返回錯誤值「#VALUE!」或「#NAME」。
3、AVERAGE函數
函數名稱:AVERAGE
主要功能:求出所有參數的算術平均值。
使用格式:AVERAGE(number1,number2,……)
參數說明:number1,number2,……:需要求平均值的數值或引用單元格(區域),參數不超過30個。
應用舉例:在B8單元格中輸入公式:=AVERAGE(B7:D7,F7:H7,7,8),確認後,即可求出B7至D7區域、F7至H7區域中的數值和7、8的平均值。
特別提醒:如果引用區域中包含「0」值單元格,則計算在內;如果引用區域中包含空白或字元單元格,則不計算在內。
4、COLUMN 函數
函數名稱:COLUMN
主要功能:顯示所引用單元格的列標號值。
使用格式:COLUMN(reference)
參數說明:reference為引用的單元格。
應用舉例:在C11單元格中輸入公式:=COLUMN(B11),確認後顯示為2(即B列)。
特別提醒:如果在B11單元格中輸入公式:=COLUMN(),也顯示出2;與之相對應的還有一個返回行標號值的函數——ROW(reference)。
5、CONCATENATE函數
函數名稱:CONCATENATE
主要功能:將多個字元文本或單元格中的數據連接在一起,顯示在一個單元格中。
使用格式:CONCATENATE(Text1,Text……)
參數說明:Text1、Text2……為需要連接的字元文本或引用的單元格。
應用舉例:在C14單元格中輸入公式:=CONCATENATE(A14,"@",B14,".com"),確認後,即可將A14單元格中字元、@、B14單元格中的字元和.com連接成一個整體,顯示在C14單元格中。
特別提醒:如果參數不是引用的單元格,且為文本格式的,請給參數加上英文狀態下的雙引號,如果將上述公式改為:=A14"@"B14".com",也能達到相同的目的。
6、COUNTIF函數
函數名稱:COUNTIF
主要功能:統計某個單元格區域中符合指定條件的單元格數目。
使用格式:COUNTIF(Range,Criteria)
參數說明:Range代表要統計的單元格區域;Criteria表示指定的條件表達式。
應用舉例:在C17單元格中輸入公式:=COUNTIF(B1:B13,"=80"),確認後,即可統計出B1至B13單元格區域中,數值大於等於80的單元格數目。
特別提醒:允許引用的單元格區域中有空白單元格出現
7、DATE函數
函數名稱:DATE
主要功能:給出指定數值的日期。
使用格式:DATE(year,month,day)
參數說明:year為指定的年份數值(小於9999);month為指定的月份數值(可以大於12);day為指定的天數。
應用舉例:在C20單元格中輸入公式:=DATE(2003,13,35),確認後,顯示出2004-2-4。
特別提醒:由於上述公式中,月份為13,多了一個月,順延至2004年1月;天數為35,比2004年1月的實際天數又多了4天,故又順延至2004年2月4日。
8、DATEDIF函數
函數名稱:DATEDIF
主要功能:計算返回兩個日期參數的差值。
使用格式:=DATEDIF(date1,date2,"y")、=DATEDIF(date1,date2,"m")、=DATEDIF(date1,date2,"d")
參數說明:date1代表前面一個日期,date2代表後面一個日期;y(m、d)要求返回兩個日期相差的年(月、天)數。
應用舉例:在C23單元格中輸入公式:=DATEDIF(A23,TODAY(),"y"),確認後返回系統當前日期[用TODAY()表示)與A23單元格中日期的差值,並返回相差的年數。
特別提醒:這是Excel中的一個隱藏函數,在函數向導中是找不到的,可以直接輸入使用,對於計算年齡、工齡等非常有效。
9、DAY函數
函數名稱:DAY
主要功能:求出指定日期或引用單元格中的日期的天數。
使用格式:DAY(serial_number)
參數說明:serial_number代表指定的日期或引用的單元格。
應用舉例:輸入公式:=DAY("2003-12-18"),確認後,顯示出18。
特別提醒:如果是給定的日期,請包含在英文雙引號中
10、DCOUNT函數
函數名稱:DCOUNT
主要功能:返回資料庫或列表的列中滿足指定條件並且包含數字的單元格數目。
使用格式:DCOUNT(database,field,criteria)
參數說明:Database表示需要統計的單元格區域;Field表示函數所使用的數據列(在第一行必須要有標志項);Criteria包含條件的單元格區域。
應用舉例:如圖1所示,在F4單元格中輸入公式:=DCOUNT(A1:D11,"語文",F1:G2),確認後即可求出「語文」列中,成績大於等於70,而小於80的數值單元格數目(相當於分數段人數)。
特別提醒:如果將上述公式修改為:=DCOUNT(A1:D11,,F1:G2),也可以達到相同目的。
11、FREQUENCY函數
函數名稱:FREQUENCY
主要功能:以一列垂直數組返回某個區域中數據的頻率分布。
使用格式:FREQUENCY(data_array,bins_array)
參數說明:Data_array表示用來計算頻率的一組數據或單元格區域;Bins_array表示為前面數組進行分隔一列數值。
應用舉例:如圖2所示,同時選中B32至B36單元格區域,輸入公式:=FREQUENCY(B2:B31,D2:D36),輸入完成後按下「Ctrl+Shift+Enter」組合鍵進行確認,即可求出B2至B31區域中,按D2至D36區域進行分隔的各段數值的出現頻率數目(相當於統計各分數段人數)。
特別提醒:上述輸入的是一個數組公式,輸入完成後,需要通過按「Ctrl+Shift+Enter」組合鍵進行確認,確認後公式兩端出現一對大括弧({}),此大括弧不能直接輸入。
12、IF函數
函數名稱:IF
主要功能:根據對指定條件的邏輯判斷的真假結果,返回相對應的內容。
使用格式:=IF(Logical,Value_if_true,Value_if_false)
參數說明:Logical代表邏輯判斷表達式;Value_if_true表示當判斷條件為邏輯「真(TRUE)」時的顯示內容,如果忽略返回「TRUE」;Value_if_false表示當判斷條件為邏輯「假(FALSE)」時的顯示內容,如果忽略返回「FALSE」。
應用舉例:在C29單元格中輸入公式:=IF(C26=18,"符合要求","不符合要求"),確信以後,如果C26單元格中的數值大於或等於18,則C29單元格顯示「符合要求」字樣,反之顯示「不符合要求」字樣。
特別提醒:本文中類似「在C29單元格中輸入公式」中指定的單元格,讀者在使用時,並不需要受其約束,此處只是配合本文所附的實例需要而給出的相應單元格,具體請大家參考所附的實例文件。
13、INDEX函數
函數名稱:INDEX
主要功能:返回列表或數組中的元素值,此元素由行序號和列序號的索引值進行確定。
使用格式:INDEX(array,row_num,column_num)
參數說明:Array代表單元格區域或數組常量;Row_num表示指定的行序號(如果省略row_num,則必須有 column_num);Column_num表示指定的列序號(如果省略column_num,則必須有 row_num)。
應用舉例:如圖3所示,在F8單元格中輸入公式:=INDEX(A1:D11,4,3),確認後則顯示出A1至D11單元格區域中,第4行和第3列交叉處的單元格(即C4)中的內容。
特別提醒:此處的行序號參數(row_num)和列序號參數(column_num)是相對於所引用的單元格區域而言的,不是Excel工作表中的行或列序號。
14、INT函數
函數名稱:INT
主要功能:將數值向下取整為最接近的整數。
使用格式:INT(number)
參數說明:number表示需要取整的數值或包含數值的引用單元格。
應用舉例:輸入公式:=INT(18.89),確認後顯示出18。
特別提醒:在取整時,不進行四捨五入;如果輸入的公式為=INT(-18.89),則返回結果為-19。
15、ISERROR函數
函數名稱:ISERROR
主要功能:用於測試函數式返回的數值是否有錯。如果有錯,該函數返回TRUE,反之返回FALSE。
使用格式:ISERROR(value)
參數說明:Value表示需要測試的值或表達式。
應用舉例:輸入公式:=ISERROR(A35/B35),確認以後,如果B35單元格為空或「0」,則A35/B35出現錯誤,此時前述函數返回TRUE結果,反之返回FALSE。
特別提醒:此函數通常與IF函數配套使用,如果將上述公式修改為:=IF(ISERROR(A35/B35),"",A35/B35),如果B35為空或「0」,則相應的單元格顯示為空,反之顯示A35/B35的結果。
16、LEFT函數
函數名稱:LEFT
主要功能:從一個文本字元串的第一個字元開始,截取指定數目的字元。
使用格式:LEFT(text,num_chars)
參數說明:text代表要截字元的字元串;num_chars代表給定的截取數目。
應用舉例:假定A38單元格中保存了「我喜歡天極網」的字元串,我們在C38單元格中輸入公式:=LEFT(A38,3),確認後即顯示出「我喜歡」的字元。
特別提醒:此函數名的英文意思為「左」,即從左邊截取,Excel很多函數都取其英文的意思。
17、LEN函數
函數名稱:LEN
主要功能:統計文本字元串中字元數目。
使用格式:LEN(text)
參數說明:text表示要統計的文本字元串。
應用舉例:假定A41單元格中保存了「我今年28歲」的字元串,我們在C40單元格中輸入公式:=LEN(A40),確認後即顯示出統計結果「6」。
特別提醒:LEN要統計時,無論中全形字元,還是半形字元,每個字元均計為「1」;與之相對應的一個函數——LENB,在統計時半形字元計為「1」,全形字元計為「2」。
18、MATCH函數
函數名稱:MATCH
主要功能:返回在指定方式下與指定數值匹配的數組中元素的相應位置。
使用格式:MATCH(lookup_value,lookup_array,match_type)
參數說明:Lookup_value代表需要在數據表中查找的數值;
Lookup_array表示可能包含所要查找的數值的連續單元格區域;
Match_type表示查找方式的值(-1、0或1)。
如果match_type為-1,查找大於或等於 lookup_value的最小數值,Lookup_array 必須按降序排列;
如果match_type為1,查找小於或等於 lookup_value 的最大數值,Lookup_array 必須按升序排列;
如果match_type為0,查找等於lookup_value 的第一個數值,Lookup_array 可以按任何順序排列;如果省略match_type,則默認為1。
應用舉例:如圖4所示,在F2單元格中輸入公式:=MATCH(E2,B1:B11,0),確認後則返回查找的結果「9」。
特別提醒:Lookup_array只能為一列或一行。
19、MAX函數
函數名稱:MAX
主要功能:求出一組數中的最大值。
使用格式:MAX(number1,number2……)
參數說明:number1,number2……代表需要求最大值的數值或引用單元格(區域),參數不超過30個。
應用舉例:輸入公式:=MAX(E44:J44,7,8,9,10),確認後即可顯示出E44至J44單元和區域和數值7,8,9,10中的最大值。
特別提醒:如如果參數中有文本或邏輯值,則忽略。
20、MID函數
函數名稱:MID
主要功能:從一個文本字元串的指定位置開始,截取指定數目的字元。
使用格式:MID(text,start_num,num_chars)
參數說明:text代表一個文本字元串;start_num表示指定的起始位置;num_chars表示要截取的數目。
應用舉例:假定A47單元格中保存了「我喜歡天極網」的字元串,我們在C47單元格中輸入公式:=MID(A47,4,3),確認後即顯示出「天極網」的字元。
特別提醒:公式中各參數間,要用英文狀態下的逗號「,」隔開。

D. 如何學習函數公式

Excel的函數公式:
NETWORKDAYS 函數專門用於計算兩個日期值之間完整的工作日數值。這個工作日數值將不包括雙休日和專門指定的其他各種假期。
假設從2003 年9 月1 日開始到2004 年1 月15 日結束,希望知道這段時間有多少個工作日,也就是排除雙休日和國家法定假日外的工作日。這就是計算工作日數的問題。
首先打開一個空白工作表,在A1、B1、C1 單元格輸入「開始時間」、「結束時間」、「法定節日」,然後在其下面的單元格內輸入「2003-9-1」、「2004-1-15」、「2003-10-1」「2003-10-2」、「2003-10-3」和「2004-1-1」(後四項必須在C 列的「法定假日」下)。接著可以選中D2 單元格,輸入公式「=NETWORKDAYS(A2,B2,C2:C5)」。公式中A2 引用的是工作的開始日期,B2 引用的是工作結束的日期,C2:C5區域引用的是作為法定假日的多個日期。輸入結束回車即可獲得結果95,即2003 年9 月1 日到2004 年1 月15 日,排除四個法定假日後的實際工作日是95 天。

E. 怎樣學好excel中的函數

不必要逐一學習。只要學習常用的10多個。如數學函數、統計函數、邏輯函數、引用函數、時間函數。
打開有公式的EXCEL文件,學習簡單的統計、時間和引用函數。學習函數的編寫方法。
再下載有關財會文件,學習更復雜的公式。
這樣根據實際學習更快些。
請採納答案,支持我一下。

F. 如何自學數據分析

很多人都覺得,自己是文科類出身,或者對數理專業不熟悉,會很難上手數據分析。其實不是這樣子的,學習數據分析,不同於程序員,它不會專門要求我們一定要掌握編程,只是理解熟悉就可以。個人的邏輯思維能力、個人興趣所在,以及自身的決心毅力,這些才是構成一個人學成與否的關鍵和最重要因素。
小編覺得最重要的一點就是,我們得清楚企業對數據分析師的基礎技能需求是什麼。這樣我們才能有的放矢。我大抵總結如下:

(1)SQL資料庫的基本操作,會基本的數據管理
(2)會用Excel/SQL做基本的數據分析和展示
(3)會用腳本語言進行數據分析,Python or R
(4)有獲取外部數據的能力,如爬蟲
(5)會基本的數據可視化技能,能撰寫數據報告
(6)熟悉常用的數據挖掘演算法:回歸分析、決策樹、隨機森林、支持向量機等
之後,怎麼安排自己的業余時間就看個人了。總體來說,先學基礎,再學理論,最後是工具。基本上,每一門語言的學習都是要按照這個順序來的。
1、學習數據分析基礎知識,包括概率論、數理統計。基礎這種東西還是要掌握好的啊,基礎都還沒扎實,知識大廈是很容易倒的哈。
2、你的目標行業的相關理論知識。比如金融類的,要學習證券、銀行、財務等各種知識,不然到了公司就一臉懵逼啦。
3、學習數據分析工具,軟體結合案列的實際應用,關於數據分析主流軟體有(從上手度從易到難):Excel,SPSS,stata,R,Python,SAS等。
4、學會怎樣操作這些軟體,然後是利用軟體從數據的清洗開始一步步進行處理,分析,最後輸出結果,檢驗及解讀數據。

G. 怎麼學習excel函數公式

學習EXCEL函數和公式的用法,可以從以下幾方面著手:

1、理解函數和公式的基本概念。函數是EXCEL程序預先內置、能夠以特定方法處理數據的功能模塊,每個函數有其特定的語法結構和參數內容。公式則是使用者自己輸入的包含函數和其他運算符且能進行特定數據運算的符號組合,要以符號「=」開始。EXCEL函數本身就是一種特殊的公式。

2、通過SUM、LEN、MOD、AND等幾個比較簡單的函數,掌握好公式和函數的輸入方法、函數語法結構的概念、函數參數的概念、什麼是常量、什麼是邏輯值、什麼是錯誤值、什麼是單元格引用等重要概念。

3、單元格引用是函數參數的重要內容,分為相對引用、絕對引用和混合引用三個類型。靈活正確地使用單元格引用的類型,可以減少函數和公式輸入的工作量,同時也能讓計算的數據更精確有效。這需要在實踐中認真摸索。

4、EXCEL內置的函數很多,有些函數是特定專業領域的,在實際工作使用中並非都能用到,因此不用把每個函數的語法結構和參數內容都進行掌握。但上述的有關函數和公式的基本概念必須要深刻理解、認真掌握,這些是學習函數和公式的核心關鍵。

5、在實際運用中,往往需要在一個公式裡面嵌套多個函數,即將一個函數的計算結果作為另外一個函數的參數來使用。在使用嵌套函數的時候,必須要有清晰的參數概念,特別是多重嵌套時,一定要分清哪個函數是哪一個層次的參數。

6、多實踐、多思考、多理解,結合自身的工作實際,對一些非常常用的重要函數要下死功夫,記住其語法結構和參數內容,做到能靈活運用、熟練輸入。

H. Excel 怎樣快速學會函數公式

看說明檔,或有人整理出來的檔案.
懂的跳過,有疑問的練習.
不見得所有函數都用得到.
有時需要時再回來查就可以了.

I. 數據處理,函數公式

1、如果區分大小寫,需要確保完全一致,那麼需要使用EXACT函數來區分大小寫。

2、先不篩選正確答案,所有數據一並復制到新表,然後添加一輔助列,對錯誤題計數,並通過篩選,並完全正確的篩選出來刪除,留下如圖錯誤的學生及對應題目,通過「插入」選項下的「數據透視表」匯總。

J. 數據科學 怎樣進行大數據的入門級學習

數據科學 怎樣進行大數據的入門級學習?

數據科學並沒有一個獨立的學科體系,統計學,機器學習,數據挖掘,資料庫,分布式計算,雲計算,信息可視化等技術或方法來對付數據。
但從狹義上來看,我認為數據科學就是解決三個問題:
1. data pre-processing;(數據預處理)
2. data interpretation;(數據解讀)
3.data modeling and analysis.(數據建模與分析)
這也就是我們做數據工作的三個大步驟:
1、原始數據要經過一連串收集、提取、清洗、整理等等的預處理過程,才能形成高質量的數據;
2、我們想看看數據「長什麼樣」,有什麼特點和規律;
3、按照自己的需要,比如要對數據貼標簽分類,或者預測,或者想要從大量復雜的數據中提取有價值的且不易發現的信息,都要對數據建模,得到output。
這三個步驟未必嚴謹,每個大步驟下面可能依問題的不同也會有不同的小步驟,但按我這幾年的經驗來看,按照這個大思路走,數據一般不會做跑偏。
這樣看來,數據科學其實就是門復合型的技術,既然是技術就從編程語言談起吧,為了簡練,只說說R和Python。但既然是薦數據科學方面的書,我這里就不提R/Python編程基礎之類的書了,直接上跟數據科學相關的。
R programming
如果只是想初步了解一下R語言已經R在數據分析方面的應用,那不妨就看看這兩本:
R in action:我的R語言大數據101。其實對於一個沒有任何編程基礎的人來說,一開始就學這本書,學習曲線可能會比較陡峭。但如果配合上一些輔助材料,如官方發布的R basics(http://cran.r-project.org/doc/contrib/usingR.pdf),stackoverflow上有tag-R的問題集(Newest 『r』 Questions),遇到復雜的問題可在上面搜索,總會找到解決方案的。這樣一來,用這本書拿來入門學習也問題不大。而且這本書作者寫得也比較輕松,緊貼實戰。
Data analysis and graphics using R:使用R語言做數據分析的入門書。這本書的特點也是緊貼實戰,沒有過多地講解統計學理論,所以喜歡通過情境應用來學習的人應該會喜歡這本入門書。而且這本書可讀性比較強,也就是說哪怕你手頭沒電腦寫不了代碼,有事沒事拿出這本書翻一翻,也能讀得進去。
但如果你先用R來從事實實在在的數據工作,那麼上面兩本恐怕不夠,還需要這些:
Modern applied statistics with S:這本書里統計學的理論就講得比較多了,好處就是你可以用一本書既復習了統計學,又學了R語言。(S/Splus和R的關系就類似於Unix和Linux,所以用S教程學習R,一點問題都沒有)
Data manipulation with R:這本書實務性很強,它教給你怎麼從不同格式的原始數據文件里讀取、清洗、轉換、整合成高質量的數據。當然和任何一本注重實戰的書一樣,本書也有豐富的真實數據或模擬數據供你練習。對於真正從事數據處理工作的人來說,這本書的內容非常重要,因為對於任何研究,一項熟練的數據預處理技能可以幫你節省大量的時間和精力。否則,你的研究總是要等待你的數據。
R Graphics Cookbook:想用R做可視化,就用這本書吧。150多個recipes,足以幫你應付絕大多數類型的數據。以我現在極業余的可視化操作水平來看,R是最容易做出最漂亮的圖表的工具了。
An introction to statistical learning with application in R:這本書算是著名的the element of statistical learning的姊妹篇,後者更注重統計(機器)學習的模型和演算法,而前者所涉及的模型和演算法原沒有後者全面或深入,但卻是用R來學習和應用機器學習的很好的入口。
A handbook of statistical analysis using R:這本書內容同樣非常扎實,很多統計學的學生就是用這本書來學慣用R來進行統計建模的。
Python
Think Python,Think Stats,Think Bayes:這是Allen B. Downey寫的著名的Think X series三大卷。其實是三本精緻的小冊子,如果想快速地掌握Python在統計方面的操作,好好閱讀這三本書,認真做習題,答案鏈接在書里有。這三本書學通了,就可以上手用Python進行基本的統計建模了。
Python For Data Analysis: 作者是pandas的主要開發者,也正是Pandas使Python能夠像R一樣擁有dataframe的功能,能夠處理結構比較復雜的數據。這本書其實analysis講得不多,說成數據處理應該更合適。掌握了這本書,處理各種糟心的數據就問題不大了。
Introction to Python for Econometrics, Statistics and Data Analysis:這本書第一章就告訴你要安裝Numpy, Scipy, Matplotlib, Pandas, IPython等等。然後接下來的十好幾章就是逐一介紹這幾個庫該怎麼用。很全面,但讀起來比較枯燥,可以用來當工具書。
Practical Data Analysis: 這本書挺奇葩,貌似很暢銷,但作者把內容安排得東一榔頭西一棒子,什麼都講一點,但一個都沒講透。這本書可以作為我們學習數據分析的一個索引,看到哪塊內容有意思,就順著它這個藤去摸更多的瓜。
Python Data Visualization Cookbook: 用Python做可視化的教材肯定不少,我看過的也就這一本,覺得還不錯。其實這類書差別都不會很大,咬住一本啃下來就是王道
Exploratory Data Analysis 和 Data Visualization
Exploratory Data Analysis:John Tukey寫於1977年的經典老教材,是這一領域的開山之作。如今EDA已經是統計學里的重要一支,但當時還是有很多人對他的工作不屑一顧。可他愛數據,堅信數據可以以一種出人意料的方式呈現出來。正是他的努力,讓數據可視化成為一門無比迷人的技術。但這本書不推薦閱讀了,內容略過時。要想完整地了解EDA,推薦下一本:
Exploratory Data Analysis with MATLAB:這本書雖然標題帶了個MATLAB,但實際上內容幾乎沒怎麼講MATLAB,只是每講一個方法的時候就列出對應的MATALB函數。這本書的重要之處在於,這是我讀過的講EDA最系統的一本書,除了對visualization有不輸於John Tucky的講解外,對於高維的數據集,通過怎樣的方法才能讓我們從中找到潛在的pattern,這本書也做了詳盡的講解。全書所以案例都有對應的MATALB代碼,而且還提供了GUI(圖形用戶界面)。所以這本書學起來還是相當輕松愉悅的。
Visualize This:中譯本叫「鮮活的數據」,作者是個「超級數據迷」,建立了一個叫http://flowingdata.com的網頁展示他的數據可視化作品,這本書告訴你該選擇什麼樣的可視化工具,然後告訴你怎樣visualize關系型數據、時間序列、空間數據等,最後你就可以用數據講故事了。如果你只想感受一下數據可視化是個什麼,可以直接點開下面這個鏈接感受下吧!A tour through the visualization zoo(A Tour Through the Visualization Zoo)
Machine Learning & Data Mining
這一塊就不多說了,不是因為它不重要,而是因為它太太太重要。所以這一部分就推兩本書,都是」世界名著「,都比較難讀,需要一點點地啃。這兩本書拿下,基本就算是登堂入室了。其實作為機器學習的延伸和深化,概率圖模型(PGM)和深度學習(deep learning)同樣值得研究,特別是後者現在簡直火得不得了。但PGM偏難,啃K.Daphne那本大作實在太燒腦,也沒必要,而且在數據領域的應用也不算很廣。deep learning目前工業界的步子邁得比學術界的大,各個domain的應用如火如荼,但要有公認的好教材問世則還需時日,所以PGM和deep learning這兩塊就不薦書了。
The Element of Statistical Learning:要學機器學習,如果讓我只推薦一本書,我就推薦這本巨著。Hastie、Tibshirani、Friedman這三位大牛寫書寫得太用心了,大廈建得夠高夠大,結構也非常嚴謹,而且很有前瞻性,納入了很多前沿的內容,而不僅僅是一部綜述性的教材。(圖表也做得非常漂亮,應該是用R語言的ggplot2做的。)這本書注重講解模型和演算法本身,所以需要具備比較扎實的數理基礎,啃起這本書來才不會太吃力。事實上掌握模型和演算法的原理非常重要。機器學習(統計學習)的庫現在已經非常豐富,即使你沒有完全搞懂某個模型或演算法的原理和過程,只要會用那幾個庫,機器學習也能做得下去。但你會發現你把數據代進去,效果永遠都不好。但是,當你透徹地理解了模型和演算法本身,你再調用那幾個庫的時候,心情是完全不一樣的,效果也不一樣。
Data Mining: Concepts and Techniques, by Jiawei Han and Micheline Kamber 數據挖掘的教材汗牛充棟,之所以推薦這本韓家煒爺爺的,是因為雖然他這本書的出發點是應用,但原理上的內容也一點沒有落下,內容非常完整。而且緊跟時代,更新的很快,我看過的是第二版,就已經加進去了social network analysis這種當時的前沿內容。現在已經有第三版了,我還沒看過,但應該也加入了不少新內容。其實這本書並不難讀,只是篇幅較長,啃起來比較耗時。
其實這兩本書里單拎出來一塊內容可能又是幾本書的節奏,比如bayesian方法,再拿出兩三本書來講也不為過,我個人用到的比較多,而且也確實有不少好書。但並非是所有data scientist都要用到,所以這一塊就不再細說。
還有一些印象比較深刻的書:
Big Data Glossary: 主要講解大數據處理技術及工具,內容涵蓋了NoSQL,MapRece,Storage,Servers,NLP庫與工具包,機器學習工具包,數據可視化工具包,數據清洗,序列化指南等等。總之,是一本辭典式的大數據入門指導。
Mining of Massive Datasets:這本書是斯坦福大學Web Mining的講義,裡面很多內容與韓家煒的Data Mining那本書重合,但這本書里詳細地講了MapRece的設計原理,PageRank(Google創業時期的核心排序演算法,現在也在不斷優化更新)講解得也比較詳細。
Developing Analytic Talent: 作者是個從事了十幾年數據工作的geek,技術博客寫得很有個人風格,寫的內容都比較偏門,通常只有具備相關數據處理經驗的人能體會出來,絲毫不照顧初學者的感受。比如他會談到當數據流更新太快時該怎麼辦,或者MapRece在什麼時候不好用的問題,才不管你懂不懂相關基礎原理。所以這本書不太適合初學者閱讀。這本書其實是作者的博客文章的集結,用how to become a data scientist的邏輯把他近幾年的博客文章串聯了起來。
Past, Present and Future of Statistical Science:這本書是由COPSS(統計學社主席委員會,由國際各大統計學會的帶頭人組成)在50周年出版的一本紀念冊,裡面有50位統計學家每人分別貢獻出的一兩篇文章,有的回憶了自己當年如何走上統計學這條路,有的探討了一些統計學的根本問題,有的談了談自己在從事的前沿研究,有的則給年輕一代寫下了寄語。非常有愛的一本書。
其它資料
Harvard Data Science:這是H大的Data science在線課,我沒有修過,但口碑很好。這門課需要費用8千刀左右,比起華盛頓大學的4千刀的Data science在線課雖貴一倍,但比斯坦福的14千刀要便宜將近一半(而且斯坦福的更偏計算機)。如果想自學,早有好心人分享了slides:(https://drive.google.com/folderview?id=0BxYkKyLxfsNVd0xicUVDS1dIS0k&usp=sharing)和homeworks and solutions:(https://github.com/cs109/content)
PyData:PyData是來自各個domain的用Python做數據的人每年舉行一次的聚會,期間會有各路牛人舉行一些規模不大的seminar或workshop,有好心人已經把video上傳到github,有興趣的去認領吧(DataTau/datascience-anthology-pydata · GitHub)
工具
R/Python/MATLAB(必備):如果是做數據分析和模型開發,以我的觀察來看,使用這三種工具的最多。R生來就是一個統計學家開發的軟體,所做的事也自然圍繞統計學展開。MATLAB雖然算不上是個專業的數據分析工具,但因為很多人不是專業做數據的,做數據還是為了自己的domain expertise(特別是科學計算、信號處理等),而MATLAB又是個強大無比的Domain expertise工具,所以很多人也就順帶讓MATLAB也承擔了數據處理的工作,雖然它有時候顯得效率不高。Python雖然不是做數據分析的專業軟體,但作為一個面向對象的高級動態語言,其開源的生態使Python擁有無比豐富的庫,Numpy, Scipy 實現了矩陣運算/科學計算,相當於實現了MATLAB的功能,Pandas又使Python能夠像R一樣處理dataframe,scikit-learn又實現了機器學習。
SQL(必備):雖然現在人們都說傳統的關系型資料庫如Oracle、MySQL越來越無法適應大數據的發展,但對於很多人來說,他們每天都有處理數據的需要,但可能一輩子都沒機會接觸TB級的數據。不管怎麼說,不論是用關系型還是非關系型資料庫,SQL語言是必須要掌握的技能,用什麼資料庫視具體情況而定。
MongoDB(可選):目前最受歡迎的非關系型資料庫NoSQL之一,不少人認為MongoDB完全可以取代mySQL。確實MongoDB方便易用,擴展性強,Web2.0時代的必需品。
Hadoop/Spark/Storm(可選): MapRece是當前最著名也是運用最廣泛的分布式計算框架,由Google建立。Hadoop/Spark/storm都是基於MapRece的框架建立起來的分布式計算系統,要說他們之間的區別就是,Hadoop用硬碟存儲數據,Spark用內存存儲數據,Storm只接受實時數據流而不存儲數據。一言以蔽之,如果數據是離線的,如果數據比較復雜且對處理速度要求一般,就Hadoop,如果要速度,就Spark,如果數據是在線的實時的流數據,就Storm。
OpenRefine(可選):Google開發的一個易於操作的數據清洗工具,可以實現一些基本的清洗功能。
Tableau(可選):一個可交互的數據可視化工具,操作簡單,開箱即用。而且圖表都設計得非常漂亮。專業版1999美刀,終身使用。媒體和公關方面用得比較多。
Gephi(可選):跟Tableau類似,都是那種可交互的可視化工具,不需要編程基礎,生成的圖表在美學和設計上也是花了心血的。更擅長復雜網路的可視化。