久久精品99,久久免费精品

大數(shù)據(jù)-課程升級前后對比

職位技能要求	V7.0	V8.1	說明
了解HDFS, Hbase, Kafka、Flink等原理	有	更強(qiáng)化	V8.1對HDFS、HBase、Kafka、Flink原理進(jìn)一步強(qiáng)化，例如：HBase布隆過濾器、預(yù)分區(qū)、Kafka再均衡、Flink狀態(tài)管理、一致性深度剖析
熟悉Linux系統(tǒng)，熟練掌握J(rèn)AVA或Scala語至少一種	有	更強(qiáng)化	V8.1對Java課程、Scala課程進(jìn)一步升級，在Java多線程、爬蟲、網(wǎng)絡(luò)編程、JVM都進(jìn)行強(qiáng)化，這樣對后續(xù)的分布式框架學(xué)習(xí)會有更有力的支撐。
熟悉一種關(guān)系型數(shù)據(jù)庫，具備一定的SQL功底	有	更強(qiáng)化	V8.1通過更多的項目來保障學(xué)生的SQL編程能力，更多的指標(biāo)保證學(xué)生有足夠多的練習(xí)
精通多維數(shù)據(jù)建模和ETL開發(fā)	有	更強(qiáng)化	V8.1從項目一開始就能夠教會學(xué)生如何基于業(yè)務(wù)進(jìn)行數(shù)據(jù)倉庫建模、維度建模、分層。并在課堂上手把手帶學(xué)生編寫ETL代碼，
了解Hadoop相關(guān)組件Hive/hbase/sqoop等，具備整體ETL/DW/BI的思想	有	更強(qiáng)化	在V8.1技術(shù)課程中，清晰的分析Hive、Hbase、sqoop的操作、運(yùn)行流程、底層原理，并且結(jié)合項目中具體的業(yè)務(wù)場景，將這些技術(shù)真正用起來，學(xué)生在項目中學(xué)會有深度業(yè)務(wù)的ETL、DW、BI開發(fā)
熟練使用 MR/Spark Streaming/hive/spark 解決業(yè)務(wù)問題	有	更強(qiáng)化	V8.1課程中清晰介紹批處理框架以及流處理框架的運(yùn)行特點(diǎn)，并深度解析如何針對不同的計算引擎進(jìn)行調(diào)優(yōu)。更涵蓋了Structured Streaming、以及Flink的優(yōu)秀流式框架應(yīng)用以及原理。并在物流項目、車聯(lián)網(wǎng)項目、知行在線教育等項目中都有具體的業(yè)務(wù)應(yīng)用
熟悉Linux下開發(fā), 熟練使用shell/python等腳本語言；	有	更強(qiáng)化	V8.1課程強(qiáng)化SHELL腳本編程，并手把手帶學(xué)生學(xué)會編寫在大數(shù)據(jù)項目中如何使用SHELL進(jìn)行調(diào)度程序開發(fā)，在高級課程中學(xué)習(xí)Python大數(shù)據(jù)技術(shù)生態(tài)圈，涵蓋Python數(shù)據(jù)分析、PySpark、數(shù)據(jù)挖掘等內(nèi)容
負(fù)責(zé)大數(shù)據(jù)實時、離線處理程序開發(fā)，根據(jù)產(chǎn)品需求，設(shè)計開發(fā)數(shù)據(jù)處理程序	有	更強(qiáng)化	V8.1課程中有大量的實時、離線項目，學(xué)生只有通過大量練習(xí)，才能更好地掌握分布式程序的編寫技巧，更能具備多個行業(yè)的數(shù)據(jù)處理特點(diǎn)
面向業(yè)務(wù)目標(biāo)，對數(shù)據(jù)模型、數(shù)據(jù)分布、數(shù)據(jù)傳輸、數(shù)據(jù)存儲等方面進(jìn)行大數(shù)據(jù)場景的功能開發(fā)	部分	更完整	V8.1課程更注重培養(yǎng)學(xué)生的業(yè)務(wù)分析、建模、代碼轉(zhuǎn)換實現(xiàn)能力，每一個行業(yè)、每一個項目都會進(jìn)行業(yè)務(wù)場景的深度解析，并且每個項目都是從采集、預(yù)處理、分析到最終應(yīng)用完整流程，學(xué)生通過項目能夠?qū)W習(xí)真正企業(yè)級的項目
有數(shù)據(jù)分析相關(guān)經(jīng)驗, 了解基本數(shù)據(jù)分析工具；	部分	有	課程中包含了常用的一些數(shù)據(jù)分析方法，包括分類、對比、趨勢等分析，并通過使用ETL、BI工具來進(jìn)行快速處理、展示
有大規(guī)模數(shù)據(jù)收集,日志處理經(jīng)驗；	部分	更完整	V8.1課程中涵蓋了多行的多種數(shù)據(jù)采集方式，因為不同行業(yè)數(shù)據(jù)接口不一樣，要通過不同方式采集數(shù)據(jù)，例如：證券數(shù)據(jù)通過socket+Flume自定義source采集、物流數(shù)據(jù)采用Oracle Golden Gate、Canal進(jìn)行實時采集、車聯(lián)網(wǎng)通過云服務(wù)器+Kafka采集等，這樣學(xué)生才能具備豐富的收集處理經(jīng)驗
了解機(jī)器學(xué)習(xí)算法；	有	有	V8.1課程涵蓋機(jī)器學(xué)習(xí)算法，并將這些算法與數(shù)據(jù)挖掘結(jié)合應(yīng)用，基于這些算法進(jìn)行數(shù)據(jù)挖掘建模，并進(jìn)行參數(shù)調(diào)優(yōu)，減少模型的誤差率
深入研究過大數(shù)據(jù)框架的運(yùn)行機(jī)制、實現(xiàn)原理、源碼者。	部分	更強(qiáng)化	V8.1講解框架都會深度剖析框架的底層原理，結(jié)合代碼和配圖給學(xué)生講解設(shè)計原因，不僅要保證內(nèi)容深度，還有兼顧學(xué)生能夠?qū)W會

大數(shù)據(jù)基礎(chǔ)班-課程大綱

學(xué)習(xí)對象

0基礎(chǔ)0經(jīng)驗的小白人員；想通過更低的成本來試一下自己是否適合做大數(shù)據(jù)相關(guān)工作的轉(zhuǎn)型人員。

注：獲取更多免費(fèi)學(xué)習(xí)視頻+資料+筆記，請加QQ：2632311208。

上課方式

全日制脫產(chǎn)，每周5天上課, 上兩天課休息一天的上課方式（實際培訓(xùn)時間可能因法定節(jié)假日等因素發(fā)生變化）

培訓(xùn)時間

部分校區(qū)可能會根據(jù)實際情況有所調(diào)整，詳情可詢咨詢老師點(diǎn)擊咨詢

培訓(xùn)費(fèi)用

大數(shù)據(jù)學(xué)費(fèi)價格詳情（享受優(yōu)惠價的條件是什么？）

大數(shù)據(jù)基礎(chǔ)班課程大綱
階段名稱	主講內(nèi)容	技術(shù)要點(diǎn)	學(xué)習(xí)目標(biāo)
零基礎(chǔ)數(shù)據(jù)倉庫課程	操作系統(tǒng)基礎(chǔ)	計算機(jī)基礎(chǔ)知識、Linux環(huán)境搭建、遠(yuǎn)程連接工具、文件操作命令、壓縮解壓縮命令、文件查找命令、系統(tǒng)管理命令、權(quán)限管理、網(wǎng)絡(luò)服務(wù)管理命令、VI等。	掌握企業(yè)級ETL平臺的kettle；掌握BI的可視化平臺Superset；掌握Kettle ETL處理設(shè)計思想；掌握大數(shù)據(jù)企業(yè)開發(fā)中最常見的的linux的操作；掌握一款主流數(shù)據(jù)庫客戶端工具DataGrip；掌握企業(yè)MySQL的調(diào)優(yōu)方案；掌握大數(shù)據(jù)分析中數(shù)據(jù)全量及增量同步解決方案；掌握生產(chǎn)環(huán)境中數(shù)據(jù)分析程序的部署解決方案。
	關(guān)系型數(shù)據(jù)庫	數(shù)據(jù)庫環(huán)境搭建、SQL語言（DDL、DML、DQL）、多表查詢、索引等。
	可視化ETL平臺	數(shù)據(jù)倉庫與ETL、Kettle安裝部署、數(shù)據(jù)抽取與裝載、表輸入、表輸出、插入/更新、switch/case等組件使用、Kettle作業(yè)等。
	BI可視化開發(fā)	Superset部署、開發(fā)，涵蓋Charts開發(fā)、Dashboard開發(fā)。
	電商數(shù)據(jù)倉庫實戰(zhàn)	電商業(yè)務(wù)背景、案例架構(gòu)、數(shù)據(jù)倉庫增量同步、ETL開發(fā)、指標(biāo)SQL開發(fā)、Kettle作業(yè)調(diào)度、Superset可視化展示等。

大數(shù)據(jù)就業(yè)班-課程大綱

學(xué)習(xí)對象

本課程適合于計算機(jī)專業(yè)，有一定Java基礎(chǔ)、通過入學(xué)考核的未工作人士。

提示：測試題主要考察您是否具備Java基礎(chǔ)，以便我們統(tǒng)一入學(xué)基礎(chǔ)，更好地開展教學(xué)工作。如果您感覺測試題很難，我們建議您參加我們的Java基礎(chǔ)班學(xué)習(xí)。

上課方式

全日制脫產(chǎn)，每周5天上課, 上兩天課休息一天的上課方式（實際培訓(xùn)時間可能因法定節(jié)假日等因素發(fā)生變化）

培訓(xùn)時間

部分校區(qū)可能會根據(jù)實際情況有所調(diào)整，詳情可詢咨詢老師點(diǎn)擊咨詢

培訓(xùn)費(fèi)用

大數(shù)據(jù)學(xué)費(fèi)價格詳情（享受優(yōu)惠價的條件是什么？）

大數(shù)據(jù)就業(yè)班課程大綱
階段名稱	主講內(nèi)容	技術(shù)要點(diǎn)	學(xué)習(xí)目標(biāo)
Java語言編程	編程基礎(chǔ)	Java概述、Java程序入門、常量與變量、數(shù)據(jù)類型、運(yùn)算符、流程控制語句、方法、數(shù)組。	可掌握的核心：掌握J(rèn)ava程序基礎(chǔ)數(shù)據(jù)類型；掌握開發(fā)中常用類如集合、IO流、常用類等操作；掌握J(rèn)ava異常處理機(jī)制；掌握反射、網(wǎng)絡(luò)編程、多線程開發(fā)；掌握J(rèn)soup的網(wǎng)絡(luò)爬蟲開發(fā)；掌握J(rèn)DBC操作；掌握ETL數(shù)據(jù)處理和BI報表開發(fā) 。可以解決的問題：具備JavaSE開發(fā)能力。市場價值：可勝任初級爬蟲工程師崗位。
	面向?qū)ο?/td>	面向?qū)ο笏枷?、類與對象、成員變量和局部變量、封裝、 this關(guān)鍵字、構(gòu)造方法。
	常用類	Object類、String、StringBuilder等。
	集合操作	數(shù)據(jù)結(jié)構(gòu)、List、Set、Map等。
	IO操作	字節(jié)輸入流、序列化、字節(jié)輸出流、Apache Commons IO等。
	Java基礎(chǔ)增強(qiáng)	反射、網(wǎng)絡(luò)編程、多線程、注解等。
	JDBC	JDBC基本概述、JDBC入門和步驟分析、DriverManager詳解、Connection詳解、Statement詳解、ResultSet詳解、Driver接口介紹、JDBC的CRUD操作、SQL注入分析、PreparedStatement詳解、JDBC的使用案例、連接池基礎(chǔ)、C3P0連接池的使用。
	Maven	Maven環(huán)境搭建、Maven構(gòu)建、自動化構(gòu)建、本地倉庫&中央倉庫、pom.xml、依賴管理、坐標(biāo)、依賴、生命周期等、IDEA下的Maven使用。
	爬蟲案例	Jsoup、MySQL高級、JDBC、ETL、BI
Hadoop技術(shù)棧	Linux操作系統(tǒng)高級	Linux shell編程、awk、sed、cut、ssh、scp、expect、yum、nestat、top 、iostat等高級命令使用。	可掌握的核心：掌握shell編程；掌握ZooKeeper原理并應(yīng)用；掌握HDFS的使用和MapReduce編程；理解MapReduce原理和調(diào)優(yōu)；掌握Yarn的原理和調(diào)優(yōu)；掌握Hive的使用和調(diào)優(yōu)。可以解決的問題：具備Hadoop開發(fā)能力、離線數(shù)據(jù)倉庫開發(fā)能力。市場價值：可勝任初級Hadoop工程師崗位。
	大數(shù)據(jù)基礎(chǔ)和硬件介紹	大數(shù)據(jù)的特點(diǎn)、分布式存儲概念、分布式計算的概念、服務(wù)器種類介紹、機(jī)架、交換機(jī)、網(wǎng)絡(luò)拓?fù)?、Raid、IDC數(shù)據(jù)中心。
	Zookeeper	Zookeeper的應(yīng)用場景、架構(gòu)和原理、存儲模型、選舉機(jī)制、客戶端操作。
	HDFS	HDFS設(shè)計的特點(diǎn)、Master-Slave架構(gòu)、Block塊存儲、RF拷貝因子、機(jī)架感知、Block拷貝策略、讀寫流程、HDFS Federation、HDFS Snapshots、NameNode HA架構(gòu)和原理、HDFS管理員常用操作、HDFS權(quán)限控制。
	MapReduce	MapReduce架構(gòu)和原理、Split機(jī)制、MapReduce并行度、Combiner機(jī)制、Partition機(jī)制、自定義Partition、MapReduce序列化、自定義排序、數(shù)據(jù)壓縮。
	YARN	Yarn原理和架構(gòu)、Yarn高可用、Container資源的封裝（CPU、內(nèi)存和IO）、資源調(diào)度策略（FIFO、Fair和Capacity）。
	Hive	Hive原理和架構(gòu)、HQL操作、數(shù)據(jù)類型、分區(qū)、分桶、臨時表、Meta Store服務(wù)、HiveServer內(nèi)置函數(shù)、自定義UDF和UDAF、數(shù)據(jù)壓縮、存儲格式、自動化腳本、常見性能優(yōu)化、explain執(zhí)行計劃詳解。
項目一（在線教育）	1、還原大型在線教育的大數(shù)據(jù)平臺。 2、建立企業(yè)數(shù)據(jù)倉庫，統(tǒng)一企業(yè)數(shù)據(jù)中心，把分散的業(yè)務(wù)數(shù)據(jù)集中存儲和處理。 3、項目從需求調(diào)研、設(shè)計、版本控制、研發(fā)、測試到落地上線，涵蓋了項目的完整工序。 4、挖掘分析海量用戶行為數(shù)據(jù)，定制多維數(shù)據(jù)集合，形成數(shù)據(jù)集市，供各個場景主題使用。	基于CM自動部署和配置、數(shù)據(jù)倉庫建模、離線數(shù)倉架構(gòu)分層、使用Git版本控制和CodeReview、使用Oozie進(jìn)行作業(yè)調(diào)度、Hive2的使用和調(diào)優(yōu)、 Sqoop進(jìn)行Mysql和Hive的雙向海量數(shù)據(jù)同步、使用拉鏈表完成增量數(shù)據(jù)的統(tǒng)計分析、使用FineReport完成數(shù)據(jù)可視化。	可掌握的核心：掌握從需求、設(shè)計、研發(fā)、測試到落地上線的完整項目流程；掌握大量教育行業(yè)的真實業(yè)務(wù)邏輯，涉及20多個主題，100多個指標(biāo)；掌握海量數(shù)據(jù)如何調(diào)優(yōu)、使用拉鏈表、增量數(shù)據(jù)處理，以及Hive函數(shù)的具體應(yīng)用等；掌握基于CM的大數(shù)據(jù)環(huán)境部署和管理；掌握數(shù)據(jù)倉庫的核心概念和應(yīng)用；掌握常用離線大數(shù)據(jù)技術(shù)：Oozie、Sqoop、Hive等；掌握FineReport可視化。可以解決的問題：具備企業(yè)級離線數(shù)據(jù)倉庫開發(fā)能力，深入教育行業(yè)需求，提升學(xué)員在行業(yè)的核心競爭力。市場價值：可勝任Hadoop工程師、離線數(shù)據(jù)倉庫工程師、ETL開發(fā)工程師、FineReport BI開發(fā)工程師等崗位。
數(shù)據(jù)微服務(wù)接口開發(fā)	Spring	Spring Boot整合Spring MVC、使用Spring Boot整合MyBatis開發(fā)、搭建Eureka注冊中心、Feign、使用Spring Cloud Gateway搭建微服務(wù)網(wǎng)關(guān)。	可掌握的核心：掌握SpringBoot整合SpringMVC開發(fā)；掌握SpringBoot整合MyBatis開發(fā)；掌握Eureka搭建；掌握Feign的使用。可以解決的問題: 具備后端數(shù)據(jù)微服務(wù)接口開發(fā)，可勝任通過Spring技術(shù)架構(gòu)完成微服務(wù)搭建?？赏瓿善髽I(yè)級數(shù)據(jù)微服務(wù)接口開發(fā)。市場價值：可勝任后端開發(fā)工程師崗位。
	Spring Boot
	Spring Cloud
實時生態(tài)圈	分布式緩存系統(tǒng)	Redis原理及架構(gòu)、Redis Cluster原理及架構(gòu)、Redis常用操作、HBase原理及架構(gòu)、預(yù)分區(qū)、LSM結(jié)構(gòu)、Bloom Filter、co-processor、結(jié)合Phoneix進(jìn)行優(yōu)化查詢、Kafka原理及架構(gòu)分析、分布式實時計算架構(gòu)和思想、ElasticSearch開發(fā)、Logstash數(shù)據(jù)采集、Kibana數(shù)據(jù)可視化。	可掌握的核心：掌握Redis原理及架構(gòu)；掌握Redis命令操作、及數(shù)據(jù)結(jié)構(gòu)；掌握Hbase原理及架構(gòu)；掌握HBase命令操作、MapReduce編程；掌握Phoneix二級索引優(yōu)化查詢；掌握ELK開發(fā)。可以解決的問題: 具備使用Hbase和Redis開發(fā)調(diào)優(yōu)能力、ELK海量數(shù)據(jù)處理能力。市場價值：可勝任ELK開發(fā)工程師、Hadoop開發(fā)工程師等崗位。
	萬億級NoSQL海量數(shù)據(jù)存儲
	分布式流處理平臺
	Elastic Stack
	Flink Stream	Flink DataStream的使用、Flink SQL開發(fā)、Flink 性能監(jiān)控、Flink調(diào)優(yōu)、Flink SQL執(zhí)行計劃、Hive + Flink SQL、Kafka + Flink、Watermark、Checkpoint、任務(wù)調(diào)度與負(fù)載均衡、狀態(tài)管理、Flume+Kafka+Flink+Hbase+Sqoop+Canal+MySQL案例實戰(zhàn)。	可掌握的核心能力：掌握Kafka原理及架構(gòu)；掌握KafkaStreams開發(fā)；掌握基于Flink進(jìn)行實時和離線數(shù)據(jù)處理、分析；掌握基于Flink的多流并行處理技術(shù)；掌握千萬級高速實時采集技術(shù)。可解決的現(xiàn)實問題：具備Kafka消息隊列開發(fā)和調(diào)優(yōu)能力、Flink流式和批量數(shù)據(jù)開發(fā)能力。市場價值：可勝任初級實時計算開發(fā)工程師、初級Flink開發(fā)工程師等崗位。
	Flink DataSet
	Flink Runtime
	Flink SQL
	Flink實戰(zhàn)
項目二（證券、物聯(lián)網(wǎng)任選其一）	1、實時監(jiān)控證券市場的每日業(yè)務(wù)交易，實現(xiàn)對證券市場交易數(shù)據(jù)的統(tǒng)計分析 2、搭建監(jiān)察預(yù)警體系，包括：預(yù)警規(guī)則管理，實時預(yù)警，歷史預(yù)警，監(jiān)察歷史數(shù)據(jù)分析等 3、股市行情交易數(shù)據(jù)實時采集、實時數(shù)據(jù)分析、多維分析，即席查詢，實時大屏監(jiān)控展示	項目采用流處理計算引擎Flink，實時處理100萬筆/s的交易數(shù)據(jù) 基于企業(yè)主流的流處理技術(shù)框架：Flume、Kafka、Flink、Hbase等基于Hive和Kylin的批數(shù)據(jù)處理，可進(jìn)行海量多維分析 Hbase5日內(nèi)秒級行情億級規(guī)模，MySQL5日內(nèi)分時行情千萬級規(guī)模 T-5日內(nèi)實時行情毫秒響應(yīng)，T-5日外的歷史行情秒級響應(yīng) 數(shù)據(jù)存儲以HDFS、Hive、Hbase應(yīng)對PB級規(guī)模數(shù)據(jù) 項目涵蓋主流離線數(shù)倉的技術(shù)和OLAP分析引擎 OLAP分析引擎以Kylin和Druid實現(xiàn)離線和實時的指標(biāo)分析隊列服務(wù)以低延遲、高吞吐-百萬筆/秒的Kafka保障數(shù)據(jù)接收緩存服務(wù)基于Redis的高速緩存，實現(xiàn)數(shù)據(jù)快速交換 TB級別的實時日處理數(shù)據(jù)、存儲PB級歷史數(shù)據(jù) 主備雙大數(shù)據(jù)平臺保障。	可掌握的核心能力：掌握基于FTP、Flume + Kafka的實時數(shù)據(jù)采集開發(fā)；掌握TB級海量規(guī)模下Flink實時處理開發(fā)，保證實時計算高容錯；掌握三種不同時間維指標(biāo)的存儲、計算方案（Druid、MySQL、HBase），例如：毫秒級\秒級\分時等時間維；掌握基于Kylin的即席快速OLAP開發(fā)；掌握基于Flink CEP的實時預(yù)警監(jiān)控開發(fā)；掌握基于Spring Boot的數(shù)據(jù)服務(wù)接口開發(fā)。可解決的現(xiàn)實問題：具備TB級規(guī)模下毫秒級Flink實時計算程序開發(fā)、架設(shè)能力，并具備不同應(yīng)用場景下多種存儲引擎的技術(shù)引擎優(yōu)化能力。以及項目上線部署、運(yùn)維監(jiān)控能力。市場價值：可勝任實時計算開發(fā)工程師、Flink開發(fā)工程師、實時數(shù)倉開發(fā)工程師等崗位。
Spark技術(shù)棧	Scala語言	Scala基礎(chǔ)、變量聲明、數(shù)據(jù)類型、條件表達(dá)式、塊表達(dá)式、循環(huán)、方法和函數(shù)、數(shù)組、元組、集合、Iterator、構(gòu)造器、伴生對象、Akka編程。	可掌握的核心：掌握Scala語言基礎(chǔ)、數(shù)據(jù)結(jié)構(gòu)；掌握Scala語言高階語法特性；掌握Spark的RDD、DAG、CheckPoint等設(shè)計思想；掌握SparkSQL結(jié)構(gòu)化數(shù)據(jù)處理，Spark On Hive整合；掌握Spark Streaming整合Kafka完成實時數(shù)據(jù)處理；掌握Spark Streaming偏移量管理及Checkpoint；掌握Structured Streaming整合多數(shù)據(jù)源完成實時數(shù)據(jù)處理。可以解決的問題: 具備Spark全棧開發(fā)能力，滿足大數(shù)據(jù)行業(yè)多場景統(tǒng)一技術(shù)棧的數(shù)據(jù)開發(fā)，提供就業(yè)核心競爭力。市場價值：可勝任初級Spark開發(fā)工程師、初級大數(shù)據(jù)平臺開發(fā)工程師、初級大數(shù)據(jù)開發(fā)工程師等崗位。
	Spark core	Spark架構(gòu)和原理（運(yùn)行機(jī)制、Driver和Executor、spark任務(wù)提交流程）、RDD開發(fā)和原理（Partition、Task、RDD的依賴關(guān)系、RDD的容錯機(jī)制、RDD的存儲級別、RDD的緩存機(jī)制）、廣播變量、DAG原理（DAG思想、DAG的生成、DAG的處理過程）。
	Spark sql	Spark SQL架構(gòu)和原理、DataFrame、DataSet DSL和SQL開發(fā)、Spark多數(shù)據(jù)源整合（txt、CSV、Json、parquet、JDBC、Hive）、Spark SQL執(zhí)行計劃原理、Spark SQL性能調(diào)優(yōu)。
	Spark Streaming	Spark Streaming流式開發(fā)、DStream API、整合多數(shù)據(jù)源、偏移量管理。
	Structured Streaming	Structured Streaming開發(fā)（input、output、window、watermark、過期數(shù)據(jù)操作、去重等）、Structured Streaming多數(shù)據(jù)源整合（socket、Kafka）、 Flume+kafka+Structured Streaming案例實戰(zhàn)。
項目三（物流、電信任選其一）	1、基于一家大型物流公司研發(fā)的智慧物流大數(shù)據(jù)平臺，日訂單上千萬 2、圍繞訂單、運(yùn)輸、倉儲、搬運(yùn)裝卸、包裝以及流通加工等物流環(huán)節(jié)中涉及的數(shù)據(jù)信息等 3、提高運(yùn)輸以及配送效率、減少物流成本、更有效地滿足客戶服務(wù)要求，并針對數(shù)據(jù)分析結(jié)果，提出具有中觀指導(dǎo)意義的解決方案	涵蓋離線業(yè)務(wù)和實時業(yè)務(wù)、ClickHouse實時存儲和計算引擎、 Kudu + Impala準(zhǔn)實時分析系統(tǒng)、基于Docker搭建異構(gòu)數(shù)據(jù)源、以企業(yè)主流的Spark生態(tài)圈為核心技術(shù)（Spark、Spark SQL、Structured Streaming）、ELK全文檢索、Spring Cloud數(shù)據(jù)微服務(wù)開發(fā)、實時監(jiān)控地圖開發(fā)、存儲和計算性能調(diào)優(yōu)、還原企業(yè)搭建大數(shù)據(jù)平臺的完整過程。	可掌握的核心能力：掌握Docker環(huán)境部署、管理操作；掌握基于Oracle + MySQL異構(gòu)數(shù)據(jù)源數(shù)據(jù)處理技術(shù)；掌握基于Oracle Golden Gate以及Canal的實時采集技術(shù)；掌握Kudu + Spark的快速離線數(shù)據(jù)處理、分析技術(shù)；掌握Kudu + Impala即席數(shù)據(jù)分析技術(shù)；掌握基于ClickHouse高性能存儲、計算引擎技術(shù)；掌握基于ELK的全文檢索技術(shù)；掌握Kudu、Spark的調(diào)優(yōu)能力；掌握基于Spring Cloud的數(shù)據(jù)微服務(wù)接口開發(fā)技術(shù)。可解決的現(xiàn)實問題：具備基于Docker搭建不同數(shù)據(jù)源、實時采集開發(fā)能力，并具備構(gòu)建高性能數(shù)據(jù)存儲處理大數(shù)據(jù)平臺開發(fā)能力。市場價值：可勝任中級Spark開發(fā)工程師、中級大數(shù)據(jù)平臺開發(fā)工程師、中級大數(shù)據(jù)開發(fā)工程師等崗位。
項目四（電商、票務(wù)任選其一）	1、分析來自全品類B2B2C電商系統(tǒng)，以電商核心流程為主線進(jìn)行數(shù)據(jù)分析，支撐運(yùn)營 2、建立基于用戶的全面分析體系，從多個維度建立基于用戶的運(yùn)營體系 3、實時分析用戶訪問流量、訂單、店鋪等運(yùn)營指標(biāo)	涵蓋Kettle同步MySQL數(shù)據(jù)采集方案、JS埋點(diǎn) + Flume實時用戶點(diǎn)擊行為數(shù)據(jù)采集方案、Spark on hive數(shù)據(jù)倉庫解決方案、Apache Superset可視化方案、Kylin交互式快速數(shù)據(jù)分析方案、Canal MySQL業(yè)務(wù)數(shù)據(jù)實時采集方案、Flink實時ETL處理解決方案、Flink + Druid實時數(shù)倉解決方案、HBase + Phoenix明細(xì)數(shù)據(jù)實時查詢方案、Flink CEP實時風(fēng)控方案、Azkaban作業(yè)調(diào)度調(diào)度方案。	可掌握的核心能力：掌握Spark + Hive構(gòu)建離線數(shù)倉；掌握Kafka + Flink + Druid構(gòu)建實時數(shù)倉；掌握基于Kettle的數(shù)據(jù)ETL處理技術(shù)；掌握離線數(shù)倉和實時數(shù)倉分層架構(gòu)；掌握基于Parquet + Snappy的存儲、壓縮技術(shù)；掌握Spark處理數(shù)據(jù)傾斜問題；掌握基于Redis + Flink實時ETL處理技術(shù)；掌握基于Spark引擎的Kylin Cube構(gòu)建技術(shù)；掌握Kylin的碎片管理、Cube調(diào)優(yōu)、增量構(gòu)建等技術(shù)；掌握基于Flume、Canal的實時采集技術(shù)；掌握基于Proto Buf的高效序列化技術(shù)；掌握基于HBase + Phoenix的快速數(shù)據(jù)查詢技術(shù)；掌握基于Flink CEP的實時風(fēng)控處理技術(shù)；掌握基于Superset的BI開發(fā)技術(shù)。可解決的現(xiàn)實問題：具備主流Spark + Hive離線數(shù)倉開發(fā)技術(shù)，并具備海量數(shù)據(jù)處理性能調(diào)優(yōu)能力，具備實時數(shù)倉架構(gòu)能力，構(gòu)建毫秒級的實時計算平臺。市場價值：可勝任高級離線數(shù)倉開發(fā)工程師、高級實時數(shù)倉開發(fā)工程師、高級大數(shù)據(jù)開發(fā)工程等崗位。
可選擇線下或線上
大數(shù)據(jù)平臺化開發(fā)	大規(guī)模大數(shù)據(jù)集群部署、大規(guī)模集群運(yùn)維監(jiān)控	涵蓋主流的一些大數(shù)據(jù)平臺，涵蓋CDH、HDP、Apache、云平臺等部署方案，引入各家的最佳實踐。包含基于平臺下的各個組件的運(yùn)維，包括Prometheus、Zabbix、Grafana、Eagle、CM、Ambari、Ganglia等。	可掌握的核心能力：掌握大數(shù)據(jù)組件的常用運(yùn)維方法解決實際的運(yùn)維方案；掌握大數(shù)據(jù)框架必備的數(shù)據(jù)結(jié)構(gòu)及常用的數(shù)據(jù)結(jié)構(gòu)；掌握企業(yè)級大數(shù)據(jù)架構(gòu)原理及源碼深入剖析；掌握PySpark、PyFlink等Python大數(shù)據(jù)生態(tài)技術(shù)；掌握大數(shù)據(jù)數(shù)據(jù)挖掘常見的算法及應(yīng)用場景；掌握數(shù)據(jù)中臺構(gòu)建思路及實戰(zhàn)；掌握數(shù)據(jù)科學(xué)常見的問題方法；掌握大型互聯(lián)網(wǎng)公司常見面試題。可解決的現(xiàn)實問題: 具備大數(shù)據(jù)平臺運(yùn)維能力；具備企業(yè)數(shù)據(jù)中臺構(gòu)建能力；具備大數(shù)據(jù)數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)模型開發(fā)、調(diào)優(yōu)能力；具備Apache頂級項目二次開發(fā)能力、源碼級調(diào)優(yōu)開發(fā)能力；具備大型企業(yè)大數(shù)據(jù)平臺架構(gòu)能力。市場價值：直通BAT等大廠。
大數(shù)據(jù)數(shù)據(jù)中臺	大數(shù)據(jù)數(shù)據(jù)體系建設(shè)、管理	基于Altlas元數(shù)據(jù)管理工具進(jìn)行數(shù)據(jù)血緣分析、構(gòu)建數(shù)據(jù)地圖，構(gòu)建統(tǒng)一存儲計算平臺，建立數(shù)據(jù)類目體系、標(biāo)簽類目體系、數(shù)據(jù)資產(chǎn)管理，并基于數(shù)據(jù)中臺構(gòu)建數(shù)據(jù)應(yīng)用服務(wù)。
大廠解決方案實戰(zhàn)	出行、電商、視頻、社交等領(lǐng)域大數(shù)據(jù)解決方案	大型門戶可視化任務(wù)提交解決方案、大型旅游出行服務(wù)平臺統(tǒng)一性能監(jiān)控平臺解決方案、B2B2C電商集中實時采集消息隊列存儲方案、出行平臺實時風(fēng)控性能調(diào)優(yōu)方案、大型電商雙十一千萬級實時處理調(diào)優(yōu)、視頻網(wǎng)站海量用戶行為數(shù)據(jù)計算調(diào)優(yōu)。
大數(shù)據(jù)常見架構(gòu)與設(shè)計	一線大廠技術(shù)架構(gòu)	美團(tuán)點(diǎn)評實時數(shù)倉架構(gòu)、拼多多離線數(shù)倉架構(gòu)、小米快速OLAP分析架構(gòu)、抖音小視頻實時推薦架構(gòu)。
新零售項目實戰(zhàn)	新零售大數(shù)據(jù)項目實戰(zhàn)，離線實時全覆蓋	本項目基于國內(nèi)大型新零售巨頭開發(fā)的大數(shù)據(jù)平臺，基于高性能方案構(gòu)建離線數(shù)倉、以及實時數(shù)倉。該項目涵蓋完整的業(yè)務(wù)，包括銷售、屢單、會員、促銷、商品、客戶等主題，每個主題涵蓋大量真實的業(yè)務(wù)場景，項目手把手帶著學(xué)生開發(fā)基于新零售場景下的離線、實時業(yè)務(wù)。本項目采用Hive+Presto架構(gòu)構(gòu)建高性能的離線處理方案，并采用基于ClickHouse的實時數(shù)倉，實現(xiàn)秒級OLAP分析。
工業(yè)大數(shù)據(jù)項目實戰(zhàn)	制造業(yè)大數(shù)據(jù)項目實戰(zhàn)	本項目基于國內(nèi)大型的設(shè)備制造商大數(shù)據(jù)項目開發(fā)。該企業(yè)在全球范圍內(nèi)銷售設(shè)備，設(shè)備涵蓋加油站相關(guān)的所有，例如：加油機(jī)、油罐建設(shè)、加氣機(jī)、自助設(shè)備等設(shè)備生產(chǎn)制造、設(shè)計、銷售，并提供全球性的服務(wù)。在國內(nèi)重點(diǎn)客戶為：中國石油、中國石化、以及各個地域的大型企業(yè)。在國內(nèi)，業(yè)務(wù)覆蓋的油站約8W座，設(shè)備數(shù)量50W臺。拿加油機(jī)設(shè)備來說，一臺設(shè)備包含了眾多的配件，每個配件的維護(hù)，設(shè)備信息的上報，服務(wù)工作人員的調(diào)度、GPS跟蹤定位等，企業(yè)經(jīng)過多年的經(jīng)營，積累了海量的數(shù)據(jù)。集群公司為了能夠確保企業(yè)精細(xì)化運(yùn)營，決定進(jìn)行數(shù)字化轉(zhuǎn)型，依托于大數(shù)據(jù)技術(shù)，以客戶、生產(chǎn)、服務(wù)、運(yùn)營為核心，打造一個全方位的數(shù)字化平臺。
大數(shù)據(jù)數(shù)據(jù)挖掘	企業(yè)級大數(shù)據(jù)數(shù)據(jù)挖掘解決方案	機(jī)器學(xué)習(xí)基礎(chǔ)、SparkMl&SparkMllib基礎(chǔ)實戰(zhàn)、Python核心基礎(chǔ)、Python數(shù)據(jù)科學(xué)庫基礎(chǔ)(Numpy、Pandas、Matplotlib、Seaborn、Imblearn-Learn、Scikit-Learn)、Python數(shù)據(jù)挖掘案例、PyHdfs、PyHive、PyHbase、Kafka-Python、PySpark、PyFLink案例實戰(zhàn)。
BAT直通車	互聯(lián)網(wǎng)公司常見面試題及應(yīng)用場景剖析	BAT大數(shù)據(jù)常見的面試精選題、一線大廠多領(lǐng)域場景剖析、HDFS、MapReduce、Hive、Flume、Sqoop等面試題精講、Spark、Spark Streaming等面試題精講、Flink面試題精講、底層數(shù)據(jù)結(jié)構(gòu)面試題精講。

備注：該課程大綱僅供參考，實際課程內(nèi)容可能在授課過程中發(fā)生更新或變化，具體授課內(nèi)容最終以各班級課表為準(zhǔn)。

基礎(chǔ)差？可免費(fèi)學(xué)基礎(chǔ)班

申請試讀名額

基礎(chǔ)過關(guān)？可直接就讀就業(yè)班

基礎(chǔ)測試

大數(shù)據(jù)學(xué)科項目介紹

企業(yè)級360°全方位用戶畫像

項目簡介：

1、標(biāo)簽是表達(dá)人的基本屬性、行為傾向、興趣偏好等某一個維度的數(shù)據(jù)標(biāo)識，它是一種相關(guān)性很強(qiáng)的關(guān)鍵字，可以簡潔的描述和分類人群。
2、標(biāo)簽的定義來源于業(yè)務(wù)目標(biāo)，基于不同的行業(yè)，不同的應(yīng)用場景，同樣的標(biāo)簽名稱可能代表了不同的含義，也決定了不同的模型設(shè)計和數(shù)據(jù)處理方式。
3、標(biāo)簽標(biāo)簽是構(gòu)建用戶畫像的基礎(chǔ)，會產(chǎn)生兩類用戶畫像，即個人用戶畫像和群體畫像。個人畫像，也叫360度用戶視圖，用于用戶精準(zhǔn)互動和一對一服務(wù)，銷售和運(yùn)營等操作實務(wù)指導(dǎo)為主。群體畫像是群體行為分析，群體行為洞察有利于做趨勢分析、產(chǎn)品規(guī)劃、營銷決策等層面的工作。

項目特色：

1、大型電商真實的用戶畫像項目，真實的業(yè)務(wù)場景；
2、自義定SparkSQL DataSource插件；
3、插件化集成Spark的ML/Mllib建模；
4、自定義Oozie定時工作流自動構(gòu)建；
5、用戶標(biāo)簽的自動化生成；
6、支持對人對物的秒級畫像生成；
7、各種企業(yè)級組合標(biāo)簽設(shè)計的思想和方案(如：高富帥、羊毛黨等組合標(biāo)簽實戰(zhàn))；
8、RFM(客戶價值模型)模型的應(yīng)用實戰(zhàn)。
千億級實時數(shù)據(jù)倉庫

技術(shù)要點(diǎn)：

1、使用Canal采集關(guān)系型數(shù)據(jù)庫結(jié)構(gòu)化的交易數(shù)據(jù)；
2、使用Flume采集非結(jié)構(gòu)化的用戶行為數(shù)據(jù)到Kafka；
3、使用Kafka存儲埋點(diǎn)系統(tǒng)產(chǎn)生的實時的用戶行為數(shù)據(jù)；
4、使用Hive、HBase存儲大規(guī)模數(shù)據(jù)；
5、基于ODS-DWB-DWS-DM-ADS的數(shù)倉分層；
6、使用Oozie調(diào)度Spark定時工作流處理和計算分層數(shù)據(jù)；
7、使用Kylin預(yù)計算DM層的數(shù)據(jù)立方體滿足多維查詢；
8、使用Zeppelin+Impala實現(xiàn)靈活的數(shù)據(jù)開發(fā)功能；
9、使用Superset實現(xiàn)EDW的可視化；
10、使用Flink計算實時訪客相關(guān)指標(biāo)；
11、使用Druid實時聚合訂單和銷售等相關(guān)指標(biāo)；
12、使用ECharts實現(xiàn)實時Dashboard的可視化

項目特色：

1、企業(yè)級離線和流式數(shù)倉建設(shè)的方案和思想；
2、企業(yè)級數(shù)據(jù)倉庫建設(shè)的難點(diǎn)攻克；
3、數(shù)倉模型的設(shè)計分層設(shè)計思想、指標(biāo)/維度設(shè)計思想和模塊設(shè)計思想；
4、阿里巴巴數(shù)倉分層架構(gòu)(ODS-DWS-DWB-DM-ADS)實戰(zhàn)；
5、實時指標(biāo)計算方面，利用Flink的低延遲，狀態(tài)管理等特性進(jìn)行實時指標(biāo)的開發(fā)，提高指標(biāo)的計算效率真正做到指標(biāo)的實時統(tǒng)計；
6、利用druid時序分析數(shù)據(jù)庫進(jìn)行數(shù)據(jù)的存儲以及指標(biāo)的統(tǒng)計；
7、離線部分除了使用傳統(tǒng)數(shù)倉技術(shù)如hive外，我們加入kylin,hbase等框架，實現(xiàn)了數(shù)據(jù)查詢的低延遲，可以利用即席查詢對離線數(shù)據(jù)進(jìn)行快速高效的查詢分析；
8、企業(yè)級真實的數(shù)據(jù)倉庫建設(shè)全部的核心流程和技術(shù)。
黑馬電商推薦系統(tǒng)

項目簡介：

黑馬電商平臺個性化推薦系統(tǒng)通過采集用戶購買、加購、瀏覽、收藏、點(diǎn)擊等用戶動態(tài)行為數(shù)據(jù)，結(jié)合用戶靜態(tài)屬性(基于人口統(tǒng)計學(xué)信息)數(shù)據(jù)。通過混合推薦系統(tǒng)平臺推薦給用戶最可能購買的商品。項目依托于Hadoop大數(shù)據(jù)平臺，完成了用戶行為數(shù)據(jù)采集、用戶數(shù)據(jù)分析、實時查詢、實時展現(xiàn)以及通過構(gòu)建推薦引擎實現(xiàn)離線和實時推薦，將結(jié)果通過Hbase或Redis存儲推薦結(jié)果，通過線下構(gòu)建用戶興趣模型、線上ABTest測試推薦結(jié)果的可行性。

技術(shù)棧：

1、數(shù)據(jù)采集：ngnix+lua+javascript；
2、數(shù)據(jù)存儲：HDFS、HBASE、Redis、MongoDB、Mysql；
3、數(shù)據(jù)處理：HiveSql、SparkSql、SparkStreaming；
4、數(shù)據(jù)統(tǒng)計計算：Hive、SparkSql；
5、數(shù)據(jù)建模：SparkML、SparkMLLib、SparkGraphX、TensorflowOnSpark；
6、數(shù)據(jù)展示：Web(Vue.js)、Neo4j；
7、任務(wù)調(diào)度：Azkaban；
8、搜索服務(wù)：ElasticSearch。

項目特色：

1、使用Spark-ALS算法訓(xùn)練模型和超參數(shù)調(diào)優(yōu)，通過模型的predict方法預(yù)測推薦結(jié)果，通過Rmse比較推薦結(jié)果。
2、通過Spark-FPGrowth算法訓(xùn)練模型和超參數(shù)調(diào)優(yōu)，獲取購買行為類型的樣本數(shù)據(jù)，從數(shù)據(jù)中形成關(guān)聯(lián)挖掘所需的數(shù)據(jù)，算法通過不同的置信度和支持度超參數(shù)設(shè)定，調(diào)整算法模型。
3、項目構(gòu)建基于Scala基礎(chǔ)的UserCF、ItemCF的基于記憶的推薦引擎,得到推薦結(jié)果相關(guān)表，即為初始推薦結(jié)果。
4、項目應(yīng)用SparkGraphX的SVD++算法模型實現(xiàn)基于圖計算的推薦方式，利用neo4j構(gòu)建用戶和商品的關(guān)系圖示。
5、項目擴(kuò)展Tensorflow技術(shù)對CTR排序中的FM、FFM、DeepFM、Wide And Deep模型提取二階及高階特征完成排序。
6、推薦結(jié)果從MongoDB和ElasticSearch中將離線推薦結(jié)果、實時推薦結(jié)果、內(nèi)容推薦結(jié)果混合。
電信信號強(qiáng)度診斷

項目簡介：

1、本項目基于謀公司開發(fā)的手機(jī)測速軟件采集的數(shù)據(jù)對用戶的手機(jī)網(wǎng)速、上行下行流量，網(wǎng)絡(luò)制式、信號強(qiáng)度等信息進(jìn)行宏觀分析。
2、本項目總體分為三大模塊，分別為數(shù)據(jù)導(dǎo)入模塊、數(shù)據(jù)處理模塊、報表生成模塊、地圖處理和渲染。
1）數(shù)據(jù)導(dǎo)入模塊：數(shù)據(jù)加載模塊主要用于在傳統(tǒng)關(guān)系型數(shù)據(jù)庫與大數(shù)據(jù)平臺之間進(jìn)行數(shù)據(jù)傳輸，將mysql數(shù)據(jù)庫內(nèi)的同步到大數(shù)據(jù)平臺中。實時新數(shù)據(jù)首先進(jìn)入mysql中。除此之外，該平臺數(shù)據(jù)導(dǎo)入模塊還負(fù)責(zé)數(shù)據(jù)原始文件、本地wifi文件的自動導(dǎo)入功能。
2）數(shù)據(jù)處理模塊：數(shù)據(jù)處理模塊主要用于對已經(jīng)加載到大數(shù)平臺的數(shù)據(jù)根據(jù)實際業(yè)務(wù)需求進(jìn)行更深入的處理、分析、運(yùn)算、加工。
3）報表生成模塊：報表生成模塊主要用于對已經(jīng)被大數(shù)據(jù)平臺處理過的數(shù)據(jù)進(jìn)行圖形化轉(zhuǎn)化、界面化的展示。以便于領(lǐng)導(dǎo)比較簡單的、直觀的了解經(jīng)處理后的數(shù)據(jù)所傳遞的信息。
4）地圖處理和渲染：百度和高德地圖的LBS服務(wù)使用，地圖網(wǎng)格的切分思想，地圖熱力圖的顯示，街景的實現(xiàn)，大數(shù)據(jù)基于地圖的安防案例實現(xiàn)。

項目特色：

1、調(diào)用高德或者百度的API，實現(xiàn)區(qū)域熱點(diǎn)分析；
2、地圖網(wǎng)格的切分思想和實現(xiàn)；
3、大數(shù)據(jù)技術(shù)+多維地圖展現(xiàn)（包括地圖、衛(wèi)星圖、三維圖）；
4、信號強(qiáng)度熱圖使用多方案展現(xiàn)，并與大數(shù)據(jù)及時方案完美融合；
5、信號強(qiáng)度矩陣圖（矩陣計算），每個獨(dú)立的矩形都要獨(dú)立進(jìn)行計算、一次查詢至少需要計算長*寬次（25*12），并在地圖上渲染，對于查詢的時效性要求極高；
6、以某一用戶為中心，計算用戶八個方向的信號質(zhì)量、系統(tǒng)、APP等并以街景圖形式展現(xiàn)。難點(diǎn)在于計算用戶八個方向的數(shù)據(jù)；
7、大數(shù)據(jù)技術(shù)和地圖完美的整合。