Bigdata大數(shù)據(jù)工程師課程大綱 |
大數(shù)據(jù)人才生態(tài) | 大數(shù)據(jù)人才需求 | 大數(shù)據(jù)及數(shù)據(jù)分析、大數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、AI概述 |
引入案例開篇(衣食住行、無人駕駛機(jī)智過人) |
大數(shù)據(jù)時代:云計算、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、人工智能等 |
神奇作用:百事可樂代言人企業(yè)決策、玉蘭油企業(yè)成效 |
案例應(yīng)用:金融、交通、電商企業(yè)級用戶數(shù)據(jù)分析應(yīng)用等 |
大數(shù)據(jù)從業(yè)者需求現(xiàn)狀 |
大數(shù)據(jù)認(rèn)證簡介 | 華為HCIA->HCIP->HCIE大數(shù)據(jù)認(rèn)證考試說明 |
人才:大數(shù)據(jù)應(yīng)用技術(shù)工程師、大數(shù)據(jù)挖掘及機(jī)器學(xué)習(xí)算法崗、大數(shù)據(jù)系統(tǒng)研發(fā)工程師、大數(shù)據(jù)商業(yè)管理崗 |
大數(shù)據(jù)平臺架構(gòu) | 大數(shù)據(jù)環(huán)境分析 | 虛擬化技術(shù)、云計算架構(gòu) |
什么是大數(shù)據(jù)?什么是數(shù)據(jù)樣本、數(shù)據(jù)集,大數(shù)據(jù)4V/5V是什么? |
Hadoop概述 | 大數(shù)據(jù)集群存儲處理技術(shù)定義、層次、目的、過程 |
數(shù)據(jù)化決策 數(shù)據(jù)模型與方法 | 什么是機(jī)器學(xué)習(xí)? |
什么是大數(shù)據(jù)挖掘? |
數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、大數(shù)據(jù)挖掘相同點(diǎn)和不同點(diǎn) |
數(shù)據(jù)挖掘技術(shù)與傳統(tǒng)模型的映射 |
Spark概述 | 什么是Spark?Spark vs Hadoop優(yōu)勢、什么是Spark ML?Spark MLLib作用 |
用戶畫像與企業(yè)可視化戰(zhàn)略 |
大數(shù)據(jù)挖掘流程 | 認(rèn)識數(shù)據(jù) | 大數(shù)據(jù)場景案例導(dǎo)入 |
什么是一手?jǐn)?shù)據(jù)、什么是二手?jǐn)?shù)據(jù) |
結(jié)構(gòu)化數(shù)據(jù)VS非結(jié)構(gòu)化數(shù)據(jù) |
結(jié)構(gòu)化數(shù)據(jù)的變量(數(shù)據(jù))類型分類 |
描述性數(shù)據(jù)處理 |
數(shù)據(jù)獲取 | 數(shù)據(jù)獲取的原則有哪些? |
內(nèi)部數(shù)據(jù)獲取 | 數(shù)據(jù)庫VS數(shù)據(jù)倉庫 |
關(guān)系型數(shù)據(jù)庫SQL、NoSQL非關(guān)系數(shù)據(jù)庫技術(shù) |
結(jié)構(gòu)化數(shù)據(jù)VS非結(jié)構(gòu)化數(shù)據(jù) |
外部數(shù)據(jù)獲取 | 外部數(shù)據(jù)獲取概述-行業(yè)數(shù)據(jù)、交易數(shù)據(jù)、API數(shù)據(jù)等 |
Python概述 |
網(wǎng)絡(luò)爬蟲原理 |
Python數(shù)據(jù)采集、爬蟲 |
數(shù)據(jù)預(yù)處理 | 臟數(shù)據(jù)的成因和處理的必要性,數(shù)據(jù)處理的常規(guī)方法、基本操作、常用函數(shù)、數(shù)據(jù)透視表 |
數(shù)據(jù)的描述性分析:集中趨勢測度、離散趨勢測度等 |
數(shù)據(jù)清洗:缺失數(shù)據(jù)、異常數(shù)據(jù)等 |
數(shù)據(jù)集成:信息孤島、共享融合數(shù)據(jù)等 |
數(shù)據(jù)轉(zhuǎn)換:數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)的代數(shù)運(yùn) 、數(shù)據(jù)的離散化等 |
數(shù)據(jù)規(guī)約:變量規(guī)約、數(shù)值規(guī)約等 |
數(shù)據(jù)可視化 | 大數(shù)據(jù)可視化簡介、常用圖表、工具介紹、可視化技巧 |
大數(shù)據(jù)Hadoop平臺 | Hadoop生態(tài)鏈 | Hadoop入門介紹- Hadoop生態(tài)系統(tǒng)和技術(shù)棧 |
大數(shù)據(jù):分布式集群架構(gòu) | Linux入門基礎(chǔ)-安裝和使用Ubuntu系統(tǒng) |
Hadoop環(huán)境搭建 | Hadoop單機(jī)環(huán)境搭建 |
Hadoop偽分布式集群搭建 |
Hadoop完全分布式集群搭建 |
Hadoop場景 | Hadoop優(yōu)點(diǎn)、缺點(diǎn) |
Hadoop風(fēng)險評估 |
大數(shù)據(jù):分布式文件存儲系統(tǒng) | HDFS分布式文件系統(tǒng)簡介、與傳統(tǒng)文件系統(tǒng)區(qū)別 |
HDFS讀寫文件、實(shí)現(xiàn)原理 |
HDFS架構(gòu)原理及常用指令 |
MapReduce計算引擎 | MapReduce概念、框架和流程 |
大數(shù)據(jù)倉庫 | 大數(shù)據(jù)倉庫概念、數(shù)據(jù)庫vs大數(shù)據(jù)倉庫 |
Hive技術(shù)架構(gòu) | 分布式數(shù)據(jù)倉庫必要性、Hive基礎(chǔ)知識 |
Hive技術(shù)層面實(shí)現(xiàn)方式 |
Hive技術(shù)應(yīng)用場景 |
Hbase技術(shù)架構(gòu) | Hbase基礎(chǔ)知識 |
Hbase集群模式 |
實(shí)踐項(xiàng)目總結(jié) | 寬表設(shè)計與用戶畫像 |
網(wǎng)站流量分析與頁面運(yùn)營 |
大數(shù)據(jù)Spark平臺 | 分布式計算引擎 | Spark簡介、為什么需要Spark、Spark框架 |
Spark產(chǎn)品 | Spark基本組件介紹 |
Spark運(yùn)行架構(gòu) |
Spark和Scala結(jié)合 |
日志采集 消息隊(duì)列 協(xié)調(diào)服務(wù) | 海量日志采集聚合系統(tǒng)Flume原理 |
分布式消息隊(duì)列訂閱系統(tǒng)Kafka原理 |
集群分布式協(xié)調(diào)服務(wù)ZooKeeper原理 |
流式計算框架Streaming原理 |
Spark機(jī)器學(xué)習(xí) | 分布式算法庫基礎(chǔ)知識 |
Spark ML介紹 |
Spark MLLib介紹 |
機(jī)器學(xué)習(xí)工作流 |
機(jī)器學(xué)習(xí)項(xiàng)目案例-房價預(yù)測 |
大數(shù)據(jù)建模1 | 機(jī)器學(xué)習(xí) | 機(jī)器學(xué)習(xí)入門介紹:機(jī)器學(xué)習(xí)、大數(shù)據(jù)挖掘、深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、人工智能體系 |
機(jī)器學(xué)習(xí)基本思想、大數(shù)據(jù)挖掘基本思想 |
機(jī)器學(xué)習(xí)常用算法分類、有監(jiān)督學(xué)些、無監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、遷移學(xué)習(xí)、算法庫等 |
KNN算法 | KNN算法工作原理、最近鄰分類器 |
KD-Tree和KNN回歸 |
KNN算法應(yīng)用案例:改進(jìn)約會網(wǎng)站配對效果 |
貝葉斯算法 | 樸素貝葉斯算法思路、全概率公式和貝葉斯定理 |
貝葉斯網(wǎng)絡(luò)模型 |
樸素貝葉斯算法應(yīng)用案例:互聯(lián)網(wǎng)垃圾郵件過濾 |
回歸算法 | 邏輯回歸(分類) | Logistic回歸算法工作原理 |
Sigmoid函數(shù)、梯度上升法 |
Logistic回歸算法應(yīng)用案例:構(gòu)建信用卡反欺詐模型 |
線性回歸 | 線性回歸的相關(guān)概念(相關(guān)、獨(dú)立和協(xié)方差) |
線性回歸和最小二乘法 |
樹和支持向量機(jī) | 決策樹 | 決策樹算法工作原理 |
決策樹算法演進(jìn)過程 |
復(fù)雜數(shù)據(jù)的局部性建模 |
決策樹ID3、C4.5、C5.0、CART算法 |
樹模型算法應(yīng)用案例:紅酒分類 |
支持向量機(jī) | 支持向量機(jī)算法工作原理介紹 |
線性可分的支持向量機(jī) |
近似線性可分、非線性可分、核函數(shù) |
SVM支持向量機(jī)分類和支持向量機(jī)回歸 |
SVM算法應(yīng)用案例:手寫數(shù)字識別 |
大數(shù)據(jù)建模2 | 聚類和集成算法 | 聚類分析 | 聚類分析算法工作原理 |
K-means快速聚類、K-medoids中心點(diǎn)算法 |
DBSCAN密度聚類、層次聚類等 |
集成Bagging類算法 | Bagging算法工作原理 |
隨機(jī)森林、集成Bagging算法應(yīng)用場景 |
集成Boosting類算法 | Boosting算法工作原理、 |
GBDT梯度提升樹工作原理 |
AdaBoost、XgBoost算法工作原理、不同種集成算法優(yōu)缺點(diǎn) |
神經(jīng)網(wǎng)絡(luò)算法:反向傳播神經(jīng)網(wǎng)路、卷積神經(jīng)網(wǎng)絡(luò)、LSTM等 |
關(guān)聯(lián)與推薦算法 | 關(guān)聯(lián)規(guī)則 | 關(guān)聯(lián)規(guī)則算法工作原理、基本組成要素 |
Apriori算法策略與特點(diǎn) |
FP-Growth算法策略與特點(diǎn) |
PrefixSpan算法模型與方法 |
關(guān)聯(lián)規(guī)則應(yīng)用案例1:百度搜索引擎中的相關(guān)搜索 |
關(guān)聯(lián)規(guī)則應(yīng)用案例2:淘寶中訪問相關(guān)頁面的關(guān)聯(lián)店鋪 |
推薦算法 | 協(xié)同過濾推薦算法工作原理 |
基于用戶的協(xié)同過濾推薦算法 |
基于物品的協(xié)同過濾推薦算法 |
推薦算法應(yīng)用案例:新聞個性化推薦 |
競品分析-對應(yīng)分析模型 |
金融大數(shù)據(jù)挖掘項(xiàng)目建模步驟 | 1、數(shù)據(jù)的讀取及定位需要清洗的數(shù)據(jù) |
2、模型有監(jiān)督/無監(jiān)督判斷 |
3、非結(jié)構(gòu)數(shù)據(jù)處理:空值、重復(fù)數(shù)據(jù)、離群點(diǎn)處理 |
4、數(shù)據(jù)量綱處理(歸一化/標(biāo)準(zhǔn)化) |
5、構(gòu)建評分卡模型/反欺詐預(yù)測模型 |
6、模型的評估與選擇 |
7、模型的優(yōu)化與封裝 |