課程背景:
我們正生活在一個(gè)信息爆炸的時(shí)代。全球主干通信網(wǎng)每天傳輸數(shù)萬(wàn)兆兆字節(jié)數(shù)據(jù)。醫(yī)療保健業(yè)由醫(yī)療記錄、病人監(jiān)護(hù)和醫(yī)學(xué)圖像產(chǎn)生大量數(shù)據(jù)。搜索引擎支持的數(shù)十億次Web搜索每天處理數(shù)萬(wàn)兆兆字節(jié)數(shù)據(jù)。社團(tuán)和社會(huì)化媒體已經(jīng)成為日趨重要的數(shù)據(jù)源,產(chǎn)生數(shù)字圖像、視頻、網(wǎng)絡(luò)博客、網(wǎng)絡(luò)社區(qū)和形形色色的社會(huì)網(wǎng)絡(luò)。產(chǎn)生海量數(shù)據(jù)的數(shù)據(jù)源不勝枚舉。
數(shù)據(jù)的爆炸式增長(zhǎng)、廣泛可用和巨大數(shù)量使得我們的時(shí)代成為真正的數(shù)據(jù)時(shí)代。急需功能強(qiáng)大和通用的工具,以便從這些海量數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的信息,把這些數(shù)據(jù)轉(zhuǎn)化成有組織的知識(shí)。這種需求導(dǎo)致了數(shù)據(jù)挖掘的誕生。這個(gè)領(lǐng)域是年青的、動(dòng)態(tài)變化的、生機(jī)勃勃的。數(shù)據(jù)挖掘已經(jīng)并且將繼續(xù)在我們從數(shù)據(jù)時(shí)代大步跨入信息時(shí)代的歷程中做出貢獻(xiàn)。
在本課程中,您將學(xué)習(xí)如何用R編程,以及如何使用R進(jìn)行有效的數(shù)據(jù)分析。您將學(xué)習(xí)如何安裝和配置統(tǒng)計(jì)編程環(huán)境所需的軟件,并描述通用編程語(yǔ)言概念,因?yàn)樗鼈冊(cè)诟呒?jí)統(tǒng)計(jì)語(yǔ)言中實(shí)現(xiàn)。該課程涵蓋了統(tǒng)計(jì)計(jì)算中的實(shí)際問題,其中包括用R編程,將數(shù)據(jù)讀入R,訪問R包,編寫R函數(shù),調(diào)試,剖析R代碼,以及組織和注釋R代碼。統(tǒng)計(jì)數(shù)據(jù)分析的主題將提供工作實(shí)例。
課程大綱
一: 為什么我們需要數(shù)據(jù)挖掘?
1、 什么是數(shù)據(jù)挖掘?——海量數(shù)據(jù)中尋找有價(jià)值的信息
2、 數(shù)據(jù)挖掘如何改變我們的生活?——推薦系統(tǒng)及精準(zhǔn)營(yíng)銷
3、 數(shù)據(jù)挖掘?qū)ζ髽I(yè)的意義——用戶是業(yè)務(wù)的中心,用戶數(shù)據(jù)是關(guān)鍵資產(chǎn)
二、使用R編程的介紹
1、 基本編程概念:函數(shù),變量,數(shù)據(jù)類型和向量
2、 將數(shù)據(jù)加載到R中
3、 概括您的數(shù)據(jù)
4、 圖形化數(shù)據(jù)并保存圖表
三、使用Tidyverse操作數(shù)據(jù)
1、 使用管道(%>%)創(chuàng)建無(wú)縫工作流程
2、 使用select()選擇一列或多列
3、 使用filter()選擇一行或多行
4、 使用mutate()添加新變量
5、 使用arrange()更改行的順序
6、 使用summarize()將變量轉(zhuǎn)換為單個(gè)值
7、 使用group_by()對(duì)觀察集進(jìn)行分組
四、使用ggplot2可視化數(shù)據(jù)
1、 GGplot2語(yǔ)法
2、 散點(diǎn)圖
3、 barplots
4、 線圖
五、課堂實(shí)操任務(wù)
1、 將數(shù)據(jù)讀入內(nèi)核
2、 使用直方圖繪制數(shù)值變量
3、 進(jìn)行t檢驗(yàn)
4、 使用條形圖顯示分類數(shù)據(jù)
5、 使用卡方檢驗(yàn)
講師課酬: 面議
常駐城市:北京市
學(xué)員評(píng)價(jià):
講師課酬: 面議
常駐城市:深圳市
學(xué)員評(píng)價(jià):
講師課酬: 面議
常駐城市:上海市
學(xué)員評(píng)價(jià):
講師課酬: 面議
常駐城市:深圳市
學(xué)員評(píng)價(jià):
講師課酬: 面議
常駐城市:深圳市
學(xué)員評(píng)價(jià):