400-888-5228

課程介紹:

作為企業(yè)Hadoop應(yīng)用的核心產(chǎn)品,Hive承載著FaceBook、淘寶等大佬 95%以上的離線統(tǒng)計,很多企業(yè)里的離線統(tǒng)計甚至全由Hive完成.

Hive可以讓你輕松的在Hadoop中存儲、查詢和分析海量數(shù)據(jù)。

 

課程特點:

1,深入淺出中動手實作;

2,對Hive深入淺出的剖析;

3,掌握Hive的優(yōu)化技術(shù);

4,Hive和亞馬遜云計算;

 

課程時長:

2天

課程對象:

軟件工程師;

數(shù)據(jù)庫開發(fā)人員;

網(wǎng)絡(luò)后臺開發(fā)人員;

運維人員;

 

學(xué)員基礎(chǔ):

了解Linux系統(tǒng);

了解網(wǎng)絡(luò);

了解Java;

 

課程大綱:

第1個主題:云計算的四大核心技術(shù)

1.HDFS

2.MapReduce

3.HBase

4.Hive

 

第2個主題:Hive集群與管理

1、Hadoop集群的搭建

2、Hadoop集群的監(jiān)控

3、Hadoop集群的管理

4、集群下運行MapReduce程序

5、安裝并啟動Hive

6、測試Hive

 

第3個主題:Hive的命令、數(shù)據(jù)類型和文件格式

1.Hive的CLI

2.Hive的集合數(shù)據(jù)類型

3.編碼和模式

 

第4個主題:開發(fā)Hive

1.連接Java調(diào)試器到Hive

2.通過Eclipse來開發(fā)Hive代碼

3.Hive的單元測試

 

第5個主題:HQL

1.HQL的數(shù)據(jù)定義

2.使用HQL操作數(shù)據(jù)

3.深入HQL查詢

 

第6個主題:HQL的視圖和索引

1.HQL的視圖:降低查詢的復(fù)雜度和限定特定的條件

2.HQL的索引:索引的創(chuàng)建和管理、定制索引

 

第7個主題:Hive中的函數(shù)

1.使用Hive中已有的函數(shù)

2.自定義聚合函數(shù)

3.自定義表生成函數(shù)

4.在自定義函數(shù)中訪問緩存

 

第8個主題:Hive的存儲過程

1、為何需要Hive中的存儲過程

2、在后臺中運行的存儲過程

3、HiveStorageHandler

4、存儲過程的具體編寫和使用

 

第9個主題:Hive架構(gòu)優(yōu)化

1、降低IO負(fù)載

2、表的分區(qū)、動態(tài)分區(qū)

3、壓縮

4、分布式緩存

 

第10個主題:徹底優(yōu)化HQL

1、HQL優(yōu)化的具體策略和方式

2、Map和Reduce

3、數(shù)據(jù)傾斜

4,執(zhí)行計劃

 

第11個主題:在AWS上使用Hive

1.使用并管理EMRHive集群

2.EMR集群的詳細(xì)配置

3.持久層、元數(shù)據(jù)

4.集群中的HDFS和S3(配置、日志等)

 

第12個主題:Hive的Thrift

1.配置、啟動、使用Thrift

2.Thrift的管理

3.管理HiveServer

4.ThriftMetaStore