目录

  • 1 01.linux第一天
    1. 01_01_初识Linux

      00:13:21

大数据周末直播班(ZM31)

1013人在学
公众号二维码

公众号

小程序二维码

小程序

课程详情

我要提问


├─01.linux第一天
│      01_01_初识Linux
│      01_02.VMware
│      01_03.centos安装
│      01_04.网卡配置
│      01_05.远程连接工具Xshell_周末31班_SC_20190831
│      01_06.linux目录结构及notepad++
│      01_07.linux常用命令
│      01_08.用户和用户组的管理
│      01_09.文件权限的管理
│      01_10.小结
│      
├─02.linux第二天
│      02_01.find命令
│      02_02.vi编辑器
│      02_03.sudo权限
│      02_04.其他命令(上)
│      02_05.其他命令(下)
│      02_06.系统命令(下)
│      02_07.压缩和打包管理(上)
│      02_08.压缩和打包管理(下)
│      02_09.rpm离线安装
│      02_10.yum管理安装包
│      02_11.shell语言上
│      02_12.shell语言中
│      02_13.shell语言下
│      02_14.定时计划任务
│      
├─03.Hadoop第一天
│      03_01.课程介绍_
│      03_02.大数据应用场景_
│      03_03.初识Hadoop_
│      03_04.HDFS架构讲解_
│      03_05.网络拓扑_
│      03_06.副本放置策略_
│      03_07.机架感知_
│      03_08.Hadoop伪分布式集群搭建准备工作_
│      03_09.JDK的安装与部署_
│      03_10.HDFS伪分布式环境部署_
│      03_11.HDFS Web页面无法打开原因总结_
│      03_12.HDFS常用的操作命令_
│      
├─04.hadoop第二天
│      04_01.复习
│      04_02.ClusterID介绍及注意事项
│      04_03.Hadoop安全模式
│      04_04.客户端向HDFS写数据流程分析
│      04_05.客户端从HDFS读数据流程分析
│      04_06.namenode元数据管理机制
│      04_07.SSH远程登录安全协议
│      04_08.YARN集群的搭建与部署
│      04_09.YARN集群介绍及运行mapreduce测试程序
│      04_10.配置历史服务
│      04_11.日志聚合
│      04_12.Maven讲解及windows下hadoop环境配置
│      
├─05.Hadoop第三天
│      05_01.Eclipse环境配置
│      05_02.使用JavaAPI操作HDFS文件系统(上)
│      05_03.使用JavaAPI操作HDFS文件系统(下)
│      05_04.MapReduce基本概念
│      05_05.MapReduce核心思想(上)
│      05_06.MapReduce核心思想(下)
│      05_07.编写一个WordCount程序之Mapper类
│      05_08.编写WordCount程序之重写map方法
│      05_09.编写WordCount程序之重写reduce方法
│      05_10.编写WordCount程序之WordCountDriver类
│      05_11.编写WordCount程序之测试程序
│      05_12.MapReduce程序内部的Shuffle阶段详解(上)
│      05_13.MapReduce程序内部的Shuffle阶段详解(下)
│      
├─06.Hadoop第四天
│      06_01.复习
│      06_02.网站PV统计案例:Mapper类
│      06_03.网站PV统计案例:Reducer类
│      06_04.网站PV统计案例:测试程序
│      06_05.二次排序案例:思路分析
│      06_06.二次排序案例:Mapper类
│      06_07.二次排序案例:自定义分区、分组规则
│      06_08.二次排序案例:测试程序
│      06_09.完全分布式:集群规划及克隆虚拟机
│      06_10.完全分布式搭建
│      06_11.zookeeper应用场景及2n+1原则
│      06_12.zookeeper环境安装与部署
│      06_13.Hadoop HA高可用环境搭建
│      
├─07.Hive第一天
│      07_01.初识Hive
│      07_02.数据库和数据仓库应用场景
│      07_03.Hive实现机制
│      07_04.SQL On Hadoop概念
│      07_05.Hive的环境安装与部署
│      07_06.初始hive shell命令行
│      07_07.Hive体系结构
│      07_08.Metastore的讲解
│      07_09.安装MYSQL数据库(上)
│      07_10.安装MYSQL数据库(下)
│      07_11.配置Hive远程Metastore服务
│      07_12.Metastore服务知识点补充
│      07_13.Hive常用的SQL语句
│      
├─08.Hive第二天
│      08_01.Hive常用的扩展配置
│      08_02.Hive常用的Linux Shell参数
│      08_03.Hive常用的三种建表方式
│      08_04.Hive外部表(上)
│      08_05.Hive外部表(下)
│      08_06.Hive分区表使用场景介绍
│      08_07.Hive分区的使用方法
│      08_08.分析函数练习
│      08_09.向Hive表导入数据的多种方式
│      08_10.从Hive表导出数据的多种方式
│      08_11.Hive常用的SQL语句(上)
│      08_12.Hive常用的SQL语句(下)
│      08_13.Hive排序函数讲解
│      
├─09.Hive第三天
│      09_01.复习
│      09_02.自定义函数UDF
│      09_03.Hive远程服务HiveServer2讲解
│      09_04.Java客户端使用代码远程连接Hive
│      09_05.Hive Fetch运行模式
│      09_06.CDH版本介绍
│      09_07.CDH版本快速部署(上)
│      09_08.CDH版本快速部署(下)
│      09_09.大数据协作框架sqoop介绍
│      09_10.sqoop环境搭建与部署
│      09_11.sqoop import命令的基本操作
│      09_12.sqoop import增量导入
│      09_13.把mysql表里的数据直接导入到hive表
│      09_14.sqoop export基本操作
│      
├─10.Hive第四天
│      10_01.复习
│      10_02.sqoop job基本操作
│      10_03.sqoop实现OptionsFile讲解
│      10_04.案例一:网站指标分析介绍
│      10_05.案例一:网站指标分析流程
│      10_06.案例一:动态分区
│      10_07.案例二:shell脚本实现hive自动加载数据到分区表
│      10_08.使用正则表达式处理特殊的日志字段
│      10_09.Hive结合Python实现数据预处理
│      10_10.hive时间戳函数:unix_timestamp和from_unixtime
│      10_11.hive语句之case when语句讲解
│      10_12.案例三:网站多维度指标分析之思路整理
│      10_13.案例三:网站多维度指标分析
│      
├─11.Hbase第一天
│      11_01.复习
│      11_02.Hadoop和Hive数据压缩
│      11_03.Hive数据倾斜产生原因及解决思路
│      11_04.数据倾斜优化方案
│      11_05.初识HBase
│      11_06.HBase存储模式
│      11_07.HBase表的特点
│      11_08.HBase环境搭建与部署
│      11_09.启动Hbase服务进程
│      11_10.HBase相关术语介绍
│      11_11.Hbase架构介绍
│      11_12.namespace分组命名
│      11_13.ddl分组命令
│      
├─12.HBase第二天
│      12_01.复习
│      12_02.dml分组命令
│      12_03.多个数据版本演示
│      12_04.HBase表列族参数解析
│      12_05.HBase数据存储目录
│      12_06.HBase存储设计(一)
│      12_07.HBase存储设计(二)
│      12_08.HBase存取数据API讲解(一)
│      12_09.HBase存取数据API讲解(二)
│      12_10.HBase存储设计(三)
│      
├─13.HBase第三天
│      13_01.复习
│      13_02.HBase与MapReduce集成讲解
│      13_03.HBase导入工具importtsv讲解
│      13_04.HBase导入工具之completebulkload讲解
│      13_05.HBase使用MapReduce程序读-写案例(一)
│      13_06.HBase使用MapReduce程序读-写案例(二)
│      13_07.HBase使用MapReduce程序读-写案例(三)
│      13_08.HBase预分区建表
│      13_09.HBase表的设计原则
│      13_10.HBase性能优化之开启SNAPPY压缩
│      13_11.HBase性能优化之region的拆分优化
│      
├─14.HBase第四天+Flume第一天
│      14_01.复习
│      14_02.HBase性能优化之regionserver及region
│      14_03.演示hbase到hive的映射表用法
│      14_04.演示hive到hbase的映射表用法
│      14_05.HBase与Phoenix集成环境搭建
│      14_06.Phoenix基本语法
│      14_07.HBase表与Phoenix进行关联
│      14_08.通过Java代码操作Phoenix
│      14_09.HBase完全分布式环境搭建部署
│      14_10.Flume概述
│      14_11.Flume组件介绍
│      14_12.Flume环境搭建与部署
│      14_13.Flume的基本命令讲解
│      
├─15.Flume第二天
│      15_01.复习
│      15_02.案例一:入门案例
│      15_03.案例二:收集网站用户点击流数据到HDFS(一)
│      15_04.案例二:收集网站用户点击流数据到HDFS(二)
│      15_05.案例三:收集指定目录下的日志文件到HDFS
│      15_06.案例四:监控指定文件,使用Flume收集到Hive(一)
│      15_07.案例四:监控指定文件,使用Flume收集到Hive(二)
│      15_08.案例五:扇入的使用场景
│      15_09.案例五:扇入案例
│      15_10.演示多个agent配置到一个文件里
│      
├─16.CM第一天
│      16_01.复习
│      16_02.案例六:扇出
│      16_03.Flume拦截器介绍
│      16_04.时间戳拦截器
│      16_05.主机拦截器
│      16_06.静态拦截器
│      16_07.CM概述
│      16_08.CM安装前准备工作
│      16_09.CM安装之基本配置
│      16_10.安装JDK和NTP时间同步服务
│      16_11.安装MySQL
│      16_12.安装ClouderaManager
│      16_13.在CM里安装hadoop生态体系软件
│      
├─17.Scala第一天
│      17_01.复习
│      17_02.Scala概述
│      17_03.Scala环境搭建
│      17_04.Scala初体验
│      17_05.退出Scala交互式解释环境
│      17_06.Scala数据类型以及值与变量
│      17_07.Scala基础语法介绍
│      17_08.Scala函数和方法
│      17_09.匿名函数
│      17_10.函数参数
│      17_11.IF、WHILE、DO WHILE语句
│      17_12.FOR循环语句
│      17_13.元组(Tuple)
│      17_14.数组(Array)
│      
├─18.Scala第二天
│      18_01.集合List
│      18_02.集合Set
│      18_03.集合Map
│      18_04.IDEA的安装与配置
│      18_05.类的定义形式和无参方法
│      18_06.构造器、伴生类和伴生对象、apply
│      18_07.Scala中的继承和Trait
│      18_08.高阶函数介绍和类型推断
│      18_09.常见的高阶函数用法演示
│      18_10.模式匹配
│      18_11.隐式转换
│      
├─19.python基础第一天
│      19_01.python_环境搭建
│      19_02.python_变量&基本数据类型
│      19_03.python_字符串1
│      19_04.python_字符串2
│      19_05.python_列表
│      19_06.python_列表2&元祖与字典&集合
│      
├─20.python基础第二天
│      20_01.条件控制
│      20_02.循环语句
│      20_03.函数
│      20_04.函数2
│      
├─21.SparkCore
│      21_01.spark介绍一
│      21_02.spark介绍二
│      21_03.MR和spark的对比
│      21_04.spark的源码编译的步骤
│      21_05.spark本地环境配置
│      21_06.spark的词频统计案例
│      21_07.使用groupByKey实现词频统计
│      21_08.使用reduceByKey实现词频统计
│      21_09.groupByKey和reduceByKey的区别
│      21_10.基于wc的结果进行topn计算
│      21_11.自定义排序器top
│      21_12.standAlone环境搭建
│      21_13.standAlone讲解
│      21_14.standAlone的master的HA
│      21_15.spark的历史服务讲解
│      21_16.spark历史服务的restApi
│      21_17.spark的应用架构介绍
│      21_18.python作业讲解
│      21_19.上周内容回顾一
│      21_20.上周内容回顾二
│      21_21.创建spark的maven项目
│      21_22.pvuv案例分析介绍
│      21_23.pv指标的实现
│      21_24.Uv指标的分析
│      21_25.使用groupBykey和reduceByKey实现uv计算
│      21_26.rdd的distinct的源码介绍
│      21_27.pv和uv的结果进行join操作
│      21_28.rdd结果写入mysql中实现
│      21_29.rdd写入mysql中
│      21_30.spark配置参数设置的区域介绍
│      21_31.spark应用的提交方式介绍
│      21_32.spark常用的参数介绍一
│      21_33.spark常用的参数介绍二
│      21_34.spark常用的参数介绍三
│      21_35.spark内存管路模型一
│      21_36.spark内存管路模型二
│      21_37.spark动态资源调度以及sparkonyarn
│      21_38.课程安排介绍
│      21_39.昨日回顾以及sparkonyarn的jobhistoryserver
│      21_40.RDD的特点介绍
│      21_41.课RDD的五大特性
│      21_42.数据本地化特性
│      21_43.RDD的源码分析
│      21_44.RDD的构建方式
│      21_45.RDD的重分区方式
│      21_46.RDD的方法类型
│      21_47.RDD的缓存等级
│      21_48.RDD的输出方式
│      21_49.分组排序TopN程序实现方式一
│      21_50.分组排序TopN程序实现方式三
│      21_51.二次排序实现
│      21_52.Spark的优化方式
│      21_53.RDD的依赖
│      21_54.spark应用架构的介绍
│      21_55.Spark在standalone上的运行原理
│      21_56.回顾上周所讲内容
│      21_57.回顾spark在standalone上的执行流程
│      21_58.spark在yarn上的client模式的执行流程
│      21_59.sparkshuffle的知识点
│      21_60.spark的job的调度方式
│      21_61.spark广播变量的介绍
│      21_62.使用普通的代码实现去除特殊符号计算词频统计
│      21_63.使用广播变量的代码实现去除特殊符号计算词频统计
│      21_64.spark的累加器的介绍
│      21_65.spark的累加器的代码实现
│      
├─22.SparkSQL
│      22_01.介绍sparksql
│      22_02.SparkSQL和hive的关系
│      22_03.sparksql和hive集成的实现
│      22_04.spark-sql命令行脚本的使用
│      22_05.sparksql的thriftserver服务的使用
│      22_06.scala代码连接sparksql的thriftserver服务
│      22_07.sparksql中null值的处理方式
│      22_08.昨日内容回顾
│      22_09.sparksql的read的编程模型一
│      22_10.sparksql的read的编程模型二
│      22_11.sparksql的read的编程模型三
│      22_12.sparksql的read的编程模型四
│      22_13.sparksql的write的编程模型一
│      22_14.sparksql的write的编程模型二
│      22_15.sparksql的案例一hive表迁移到mysql
│      22_16.sparksql的案例一读取mysql的表制成临时表
│      22_17.临时表和全局临时表的区别
│      22_18.DataFrame的几种输出的讲解
│      22_19.DataFrame输出到hbase中
│      22_20.sparksql应用程序在yarn上执行
│      22_21.sparksql在yarn上执行错误排查
│      22_22.DataSet和DataFrame和RDD之间的相互转换
│      22_23.sparksql的内置函数和自定义函数讲解
│      22_24.sparksql的案例四模拟数据的产生
│      22_25.sparksql案例四计算每个用户的平均sal值
│      22_26.复习上周内容
│      22_27.自定义UDF函数
│      22_28.自定义聚合函数UDAF
│      22_29.RDD转成DataFrame的两种方法案例
│      22_30.Spark新老版本读取CSV文件
│      22_31.出租车案例代码计算
│      22_32.出租车案例结果输出
│      22_33.SparkDSL语法的select的使用
│      22_34.SparkDSL语法的排序方法使用
│      22_35.SparkDSL语法的join方法使用
│      
├─23.Kafka
│      23_01.介绍kafka框架
│      23_02.Kafka结构图讲解
│      23_03.Kafka环境安装一
│      23_04.Kafka环境安装二
│      23_05.Kafka的topic的基本使用一
│      23_06.Kafka的topic的基本使用二
│      23_07.官方的生产者消费者脚本演示
│      23_08.老版本新版本自带消费者脚本讲解
│      23_09.复习昨日内容,以及画图演示生产者储存过程
│      23_10.Kafka储存的消息格式
│      23_11.Kafka消息储存机制一
│      23_12.kafka消息产生及收集机制
│      23_13.Kafka消息储存机制二
│      23_14.flume和kafka集成一
│      23_15.flume和kafka集成二
│      23_16.flume和kafka结果展示
│      23_17.flume和kafka集成案例二
│      23_18.解决案例二的报错
│      23_19.kafka的集群监控
│      23_20.kafka的集群监控演示
│      23_21.Kafka新版本的生产者java代码一
│      23_22.Kafka新版本的生产者java代码二
│      23_23.Kafka新版本的生产者scala代码
│      23_24.Kafka旧版本的生产者java代码一
│      23_25.Kafka旧版本的生产者java代码二
│      23_26.消费者代码
│      23_27.高等级消费者代码一
│      23_28.高等级消费者代码二
│      23_29.高等级消费者代码一
│      23_30.高等级消费者代码二
│      23_31.自动偏移量管理消费者代码
│      23_32.手动偏移量管理消费者代码
│      23_33.自动偏移量管理以及指定偏移量消费代码
│      23_34.解决消费者只消费一个分区的问题,使用多线程
│      
├─24.SparkStreaming
│      24_01.介绍SparkStreaming框架
│      24_02.SparkStreaming和strom的区别
│      24_03.SparkStreaming的官方案例
│      24_04.SparkStreaming的官方案例代码编写过程
│      24_05.SparkStreaming的运行原理receiver模式
│      24_06.SparkStreaming的运行原理direct模式
│      24_07.SparkStreaming的两种输入源
│      24_08.SparkStreaminghekafka集成的两种方式
│      24_09.SparkStreaming和kafka集成的receiver模式案例一
│      24_10.复习上次内容以及receiver的方法二实现代码一
│      24_11.复习上次内容以及receiver的方法二实现代码二
│      24_12.receiver模式下开启背压机制
│      24_13.direct的方法一实现代码一
│      24_14.direct的方法一实现代码二
│      24_15.direct的方法二实现代码
│      24_16.sparkstreaming和kafka集成的优化receiver模式
│      24_17.direct模式下的代码优化
│      24_18.direct模式下的检查点机制
│      24_19.包下的direct模式的两种方法的区别
│      24_20.包的偏移量保存到mysql中
│      24_21.成包下的direct两种方式讲解
│      24_22.成包下的自动提交偏移量的方法
│      24_23.成包下的手动提交偏移量的方法
│      24_24.总结sparkstreaming和kafka的集成
│      24_25.sparkstreaming的transform的使用
│      24_26.sparkstreaming的foreachRDD的使用
│      24_27.sparkstreaming的updateStateBykey的使用
│      24_28.复习上周内容的内容
│      24_29.Window功能的讲解
│      24_30.Window功能代码具体实现过程
│      
├─25.PySpark
│      25_01.PySpark在windows下的环境搭建
│      25_02.PySpark在linux下的环境搭建
│      25_03.PySpark命令行代码测试
│      25_04.windows下的IDEA编写代码案例一
│      25_05.解决本地没有SPARK_HOME的三种方法
│      25_06.使用jupyter运行代码
│      25_07.聚合类的算子讲解
│      25_08.过滤,去重类算子
│      25_09.PairRDD下的算子介绍
│      25_10.排序算子讲解
│      25_11.RDD之间的join算子讲解
│      25_12.SparkCore案例二输出方式讲解
│      25_13.top3程序实现方式一
│      25_14.top3程序实现方式二
│      25_15.pyspark在sparksql下的案例一
│      25_16.回顾昨日内容
│      25_17.SparkSQL案例二RDD转成DataFrame的方式一
│      25_18.RDD转成DataFrame的方式二,以及数据写入数据库
│      25_19.PySpark环境下SparkSQL集成hive
│      25_20.SparkSQL中使用pymysql模块数据写入mysql中
│      25_21.使用pymysql模块数据写入mysql中,解决报错
│      25_22.SparkStreaming的官方案例
│      25_23.SparkStreaming和kafka集成的receiver模式
│      25_24.receiver模式下解决缺少jar包的问题
│      25_25.SparkStreaming和kafka集成的direct模式,fromoffsets为None的代码
│      25_26.解决fromOffsets为None的代码的问题一
│      25_27.解决fromOffsets为None的代码的问题二
│      25_28.SparkStreaming和kafka集成的direct模式,fromoffsets不为None的代码
│      25_29.linux下安装pymysql模块一
│      25_30.linux下安装pymysql模块二
│      25_31.direct模式下,保存偏移量到mysql
│      25_32.DStream中的transform和foreachRDD
│      25_33.DStream中的updateStateByKey和Windows
│      
├─26.大数据离线项目
│      26_01.介绍项目架构一
│      26_02.介绍项目架构二
│      26_03.数据生产模块构建模拟数据一
│      26_04.数据生产模块构建模拟数据二
│      26_05.数据生产模块构建模拟数据三
│      26_06.windows运行模拟数据代码
│      26_07.打包在linux运行产生模拟数据
│      26_08.数据采集层使用flume采集数据保存kafka
│      26_09.编写shell脚本执行数据采集
│      26_10.创建hbaseConusmer消费者代码
│      26_11.编写PropertiesUtil工具类
│      26_12.执行hbase消费者代码,演示消费数据
│      26_13.创建HbaseUtil工具类
│      26_14.创建初始化表方法
│      26_15.测试HBaseUtil中的封装方法
│      26_16.编写HBaseDao类
│      26_17.编写得到分区号的regionCode代码
│      26_18.编写数据写入hbase的put方法
│      26_19.回顾昨日上课内容
│      26_20.运行代码,实现消费kafka的数据写入hbase表中
│      26_21.编写过滤器工具类一
│      26_22.编写过滤器工具类二
│      26_23.测试使用过滤器查询数据一
│      26_24.测试使用过滤器查询数据二
│      26_25.编辑协处理器类一
│      26_26.编辑协处理器类二
│      26_27.运行测试,使用协处理器写入数据一
│      26_28.运行测试,使用协处理器写入数据二
│      26_29.现实预分区的功能一
│      26_30.现实预分区的功能二
│      26_31.测试代码实现数据写入预分区表
│      26_32.编写ScanRowkeyUtil获取startRowkey和endRoeKey一
│      26_33.编写ScanRowkeyUtil获取startRowkey和endRoeKey二
│      26_34.拓展数据仓库
│      26_35.介绍下一模块数据分析模块
│      26_36.展示最后效果图
│      26_37.回顾上周以及创建数据分析模块
│      26_38.创建数据分析模块的一些包
│      26_39.创建时间、联系人维度
│      26_40.创建时间、联系人组合维度类
│      26_41.编写mapreduce的mapper阶段代码
│      26_42.编写mapreduce的reducer阶段代码
│      26_43.编写setHBaseInputConifg代码
│      26_44.自定义输出类MySQLoutputFormat代码
│      26_45.编写维度转成维度id的converter代码
│      26_46.编写获取维度id的方法getDimensionID
│      26_47.编写execSQL方法代码
│      26_48.讲解自定义输出类MySQLoutputFormat代码
│      26_49.测试运行代码报错,解决默认文件系统的问题
│      26_50.运行出错,时间维度结果不对一
│      26_51.运行出错,时间维度结果不对二
│      26_52.创建数据展示模块,javaweb项目
│      26_53.社区办IDEA安装tomcat插件,然后运行项目
│      26_54.使用tablebu连接数据展示数据
│      
└─27.Spark项目
        27_01.数据仓库的概念
        27_02.数据库与数据仓库的区别
        27_03.数仓的发展_特性及数据来源
        27_04.数仓建模基本理论
        27_05.数仓数据规模及技术选型
        27_06.数仓数据处理流程
        27_07.M5数仓总体架构
        27_08.M5数仓分层
        27_09.启动日志_字段解释
        27_10.事件日志_字段解释
        27_11.ODS层启动日志的加载
        27_12.dwd层启动日志解析及加载
        27_13.dwd层基本事件解析及加载
        27_14.dwd层其他事件解析加载
        27_15.业务术语
        27_16.常见日期函数
        27_17.通过脚本自动加载数据1
        27_18.通过脚本自动加载数据2
        27_19.活跃用户相关数据处理
        27_20.使用SparkSQL处理活跃主题数据
        27_21.新增用户主题
        27_22.留存用户分析1
        27_23.留存用户分析2
        27_24.沉默用户分析
        27_25.exists_not_exists_in的使用及区别
        27_26.本周回流用户分析
        27_27.连续三周活跃用户统计
        27_28.连续3天级以上活跃的用户统计
        27_29.电商平台介绍
        27_30.电商业务数据
        27_31.数据同步策略
        27_32.业务数据数仓建设
        27_33.漏斗分析及成交额统计
        27_34.数仓项目总结
        27_35.数仓项目面试相关问题1
        27_36.数仓项目面试相关问题2
        27_37.数仓项目面试相关问题3
        27_38.数仓项目笔试题
        

评价(0) 立即评论
0/150