目录

  • 1 01.Linux第一天
    1. 01_01.Linux_初识linux

      00:22:00

大数据周末直播班(ZM30)

1013人在学
公众号二维码

公众号

小程序二维码

小程序

课程详情

我要提问


├─01.Linux第一天
│      01_01.Linux_初识linux
│      01_02.Linux_VMware安装
│      01_03.Linux_centos7安装
│      01_04.Linux_环境配置
│      01_05.Linux_配置网络映射
│      01_06.Linux_远程连接工具及根目录的使用
│      01_07.Linux_常用命令讲解(1)
│      01_08.Linux_用户用户组管理
│      01_09.Linux_文件权限管理
│      01_10.Linux_常用命令讲解(2)
│      
├─02.Linux第二天
│      02_01.Linux_find命令vi命令讲解
│      02_02.Linux_sudo权限管理
│      02_03.Linux_linux符号命令
│      02_04.Linux_常用系统管理命令
│      02_05.Linux_压缩和打包管理
│      02_06.Linux_软件管理
│      02_07.Linux_shell语法
│      02_08.Linux_定时任务计划
│      
├─03.hadoop第一天
│      03_01.大数据的应用场景介绍
│      03_02.大数据业务处理流程
│      03_03.namenode和datanode讲解
│      03_04.HDFS的block和文件切片讲解
│      03_05.HDFS副本放置策略
│      03_06.Linux系统里安装JDK
│      03_07.Hadoop伪分布式环境搭建(上)
│      03_08.Hadoop伪分布式环境搭建(下)
│      03_09.ClusterID介绍及注意事项
│      03_10.HDFS常用的操作命令
│      03_11.HDFS的三大缺陷
│      
├─04.hadoop第二天
│      04_01.客户端向HDFS写数据流程
│      04_02.客户端从HDFS读数据的流程
│      04_03.namenode元数据的管理机制
│      04_04.edits和fsimage文件存储位置
│      04_05.SSH远程登录安全协议
│      04_06.YARN集群的搭建与部署
│      04_07.运行第一个MapReduce程序wordcount
│      04_08.历史服务和日志聚合
│      04_09.Maven介绍
│      04_10.搭建windows平台下hadoop开发环境
│      04_11.使用JAVA API操作一下HDFS文件系统
│      
├─05.hadoop第三天
│      05_01.复习_Hadoop
│      05_02.Hadoop安全模式
│      05_03.MapReduce基本概念
│      05_04.MapReduce核心思想(上)
│      05_05.MapReduce核心思想(下)
│      05_06.编写一个WordCount程序(上)
│      05_07.编写一个WordCount程序(下)
│      05_08.运行mapreduce的2种方式
│      05_09.MapReduce程序内部的Shuffle过程详解(上)
│      05_10.MapReduce程序内部的Shuffle过程详解(下)
│      05_11.Combiner优化
│      05_12.MapReduce程序运行在Yarn集群流程分析(上)
│      05_13.MapReduce程序运行在Yarn集群流程分析(下)
│      
├─06.hadoop第四天
│      06_01.NativeIO本地库报错问题解决方案
│      06_02.网站PV统计案例之Mapper类_
│      06_03.网站PV统计案例之Mapper类优化_
│      06_04.网站PV统计案例之Reducer类
│      06_05.网站PV统计案例之Driver类
│      06_06.网站PV统计案例之运行调试
│      06_07.二次排序思路整理
│      06_08.二次排序案例之自定义map输出key类型
│      06_09.二次排序案例之自定义分区和分组
│      06_10.二次排序案例之运行测试代码
│      06_11.完全分布式集群部署准备工作
│      06_12.hadoop完全分布式集群搭建
│      06_13.zookeeper知识点讲解
│      06_14.zookeeper分布式集群部署
│      06_15.HDFS HA高可用环境部署
│      
├─07.hive第一天
│      07_01.复习
│      07_02.初识Hive
│      07_03.数据库和数据仓库的应用场景分析(上)
│      07_04.数据库和数据仓库的应用场景分析(下)
│      07_05.Hive实现机制(上)
│      07_06.Hive实现机制(下)
│      07_07.Hive环境搭建与部署
│      07_08.初识Hive Shell(CLI)命令行环境
│      07_09.Hive体系架构
│      07_10.Metastore讲解
│      07_11.数据库
│      07_12.配置Hive远程Metastore服务
│      07_13.基本HQL(HiveSQL)语句讲解
│      
├─08.hive第二天
│      08_01.0ive扩展环境配置
│      08_02.0ive常用的Linux Shell参数讲解
│      08_03.0ive常用的三种建表方式
│      08_04.0ive外部表讲解
│      08_05.0ive分区表讲解
│      08_06.0ive常用的分析函数
│      08_07.0Hive表加载数据的多种方式
│      08_08.0Hive表导出数据的多种方式
│      08_09.0ive常用的HQL语句讲解
│      08_10.Hive与MapReduce相关参数
│      08_11.Hive与MapReduce相关参数
│      08_12.Hive多种排序函数讲解
│      
├─09.Hive第三天
│      09_01.复习
│      09_02.用户自定义函数(UDF)
│      09_03.Hive远程服务HiveServer2讲解
│      09_04.在Java Clinet连接Hive服务
│      09_05.Hive Fetch运行模式
│      09_06.虚拟列介绍
│      09_07.Hadoop生态圈版本介绍
│      09_08.CDH版本快速部署
│      09_09.大数据协作框架Sqoop
│      09_10.Sqoop的环境部署
│      09_11.sqoop import基本操作
│      09_12.把MySQL数据直接导入到Hive
│      09_13.sqoop export基本操作
│      09_14.sqoop job基本操作
│      
├─10.Hive 第四天
│      10_01.复习
│      10_02.Sqoop OptionsFile讲解
│      10_03.案例一:网站流量指标分析(上)
│      10_04.案例一:网站流量指标分析(中)
│      10_05.案例一:网站流量指标分析(下)
│      10_06.案例二:shell脚本实现hive自动load数据到分区表
│      10_07.使用crontab定时器定时执行auto_load
│      10_08.使用正则表达式的方式加载数据
│      10_09.Hive结合Python实现数据的预处理
│      10_10.案例三:网站多维度指标分析(上)
│      10_11.案例三:网站多维度指标分析(下)
│      10_12.Hadoop和Hive压缩讲解
│      
├─11.HBase第一天
│      11_01.复习
│      11_02.Hive数据倾斜
│      11_03.hive的推测执行
│      11_04.初识HBase
│      11_05.HBase存储模式
│      11_06.HBase表的特点
│      11_07.HBase表相关名称的概念
│      11_08.hbase环境部署准备工作部署zookeeper
│      11_09.HBase伪分布式环境部署
│      11_10.hbase架构介绍
│      11_11.hbase shell常用的namespace和ddl命令
│      11_12.hbase shell常用的ddl和dml命令
│      
├─12.HBase第二天
│      12_01.复习
│      12_02.HBase表多个数据版本演示
│      12_03.hbase表列族参数解析
│      12_04.hbase数据存储目录及hbase元信息表
│      12_05.HBase存储设计讲解方式介绍
│      12_06.HBase存储设计:LSM和hbase存储模块介绍
│      12_07.HBase存储设计:hbase region讲解
│      12_08.HBase存储设计:HFile文件解析
│      12_09.HBase存储设计:WAL预写日志解析
│      12_10.HBase存储设计:Compaction合并讲解
│      12_11.HBase存取数据API讲解(上)
│      12_12.HBase存取数据API讲解(下)
│      
├─13.HBase第三天
│      13_01.复习
│      13_02.HBase与MapReduce集成讲解
│      13_03.HBase导入工具importTSV讲解
│      13_04.HBase导入工具completebulkload讲解
│      13_05.HBase使用mapreduce读写案例(上)
│      13_06.HBase使用mapreduce读写案例(下)
│      13_07.测试mapreduce读写案例
│      13_08.HBase预分区建表简介
│      13_09.HBase预分区建表
│      13_10.HBase表设计原则
│      13_11.HBase支持Snappy压缩算法
│      13_12.HBase性能优化
│      13_13.HBase与Hive的集成
│      
├─14.Flume第一天
│      14_01.复习
│      14_02.HBase和Phoenix集成讲解(上)
│      14_03.HBase和Phoenix集成讲解(下)
│      14_04.通过Java代码操作Phoenix_HBase
│      14_05.HBase完全分布式_HBase
│      14_06.Flume概述
│      14_07.Flume环境搭建与部署
│      14_08.Flume的基本命令讲解
│      14_09.案例一:入门案例
│      14_10.案例二:收集网站用户点击流数据存储到HDFS
│      14_11.案例三:监控指定的文件,使用Flume收集到Hive表里
│      14_12.案例四:收集指定目录下日志文件到HDFS
│      
├─15.CM第一天
│      15_01.复习
│      15_02.Flume扇入案例
│      15_03.Flume扇出案例
│      15_04.时间戳拦截器案例
│      15_05.主机拦截器案例
│      15_06.静态拦截器案例
│      15_07.CM概述
│      15_08.CM安装前的准备
│      15_09.服务器基本环境配置
│      15_10.安装MSYQL
│      15_11.CM的安装
│      15_12.安装CM服务(安装过程中出现问题,后续补录视频)
│      15_13.安装CM Server & Agent
│      15_14.安装Zookeeper和HDFS服务
│      15_15_安装Yarn、Hive、HBase、Sqoop及Flume服务
│      15_16_安装Spark2
│      
├─16.scala第一天
│      16_01.课程介绍和scala介绍
│      16_02.scala的环境搭建
│      16_03.scala的变量
│      16_04.IDEA中scala环境的配置
│      16_05.scala数据类型
│      16_06.scala的if-else的使用
│      16_07.scala的while的使用
│      16_08.scala的do-while的使用
│      16_09.scala的for循环的使用
│      16_10.scala的基本函数的使用
│      16_11.scala默认和变长函数
│      16_12.scala的高阶函数
│      16_13.scala的高阶函数的简化
│      16_14.scala的数组
│      16_15.scala的可变数组
│      16_16.scala的元组
│      16_17.scala的不可变集合
│      16_18.scala的可变集合
│      16_19.scala的作业布置
│      
├─17.scala第二天
│      17_01.昨日回顾
│      17_02.foreach和map的使用
│      17_03.flatMap的使用
│      17_04.聚合类的函数介绍
│      17_05.排序类的函数介绍
│      17_06.set集合介绍
│      17_07.Map集合的使用
│      17_08.面向对象介绍
│      17_09.class中get个set方法
│      17_10.class中作用域的使用
│      17_11.class中构造函数
│      17_12.伴生类和伴生对象
│      17_13.scala的apply和update方法
│      17_14.caseclass样例类
│      17_15.scala的特质trait
│      17_16.scala模式匹配
│      17_17.scala的泛型
│      17_18.scala的隐式转换
│      
├─18.spark第一天
│      18_01.spark介绍
│      18_02.spark的起源和mapreduce的对比
│      18_03.spark的模块介绍
│      18_04.spark的local环境搭建
│      18_05.spark的local环境测试
│      18_06.词频统计案例
│      18_07.groupByKey和reduceByKey的使用
│      18_08.groupByKey和reduceByKey画图理解
│      18_09.spark的编译
│      18_10.TopN程序计算
│      18_11.top方法的使用
│      18_12.自定义top方法
│      18_13.standALone环境搭建
│      18_14.standalone环境测试
│      18_15.standalone进程宕机
│      18_16.master高可用性配置一
│      18_17.master高可用性配置二
│      18_18.应用监控
│      
├─19.spark第二天
│      19_01.spark日志聚合服务配置
│      19_02.historyserver的restAPI介绍
│      19_03.spark的应用架构
│      19_04.spark应用程序举例讲解
│      19_05.windows下编写spark应用程序
│      19_06.spark读取不同路径的数据
│      19_07.使用groupByKey实现pv计算
│      19_08.使用groupByKey实现uv计算
│      19_09.使用ReduceByKey实现去重
│      19_10.PVUV案例简化
│      19_11.RDD数据写入数据库
│      19_12.代码打包方式
│      19_13.spark应用程序在local和standalone上运行
│      19_14.client模式和cluster的区别
│      19_15.spark应用程序资源调优参数讲解一
│      19_16.spark应用程序资源调优参数讲解二
│      19_17.spark应用程序资源调优参数讲解三
│      19_18.spark应用程序资源调优参数讲解四
│      
├─20.spark第三天
│      20_01.回顾上周以及内存管理模型介绍
│      20_02.动态内存管理模型介绍
│      20_03.内存管理模型总结
│      20_04.内存管理模型总结2
│      20_05.动态资源调整
│      20_06.spark on yarn模式介绍
│      20_07.RDD是分区的
│      20_08.RDD的五大特性
│      20_09.分区的方式
│      20_10.RDD的源码分析之读取数据的方式
│      20_11.RDD的源码分析之分区的确认
│      20_12.重分区的方式
│      20_13.RDD的方法类型
│      20_14.RDD的数据输出
│      20_15.分组排序TopN实现方式1
│      20_16.分组排序TopN实现方式2
│      20_17.分组排序TopN实现方式2实现讲解
│      20_18.分组排序TopN实现方式3
│      
├─21.spark第四天
│      21_01.回顾昨日内容
│      21_02.spark二次排序的实现
│      21_03.spark二次排序的实现2
│      21_04.spark的优化方式和RDD的依赖
│      21_05.spark的应用架构组成
│      21_06.standAone_client模式的流程
│      21_07.standAone_client模式的流程2
│      21_08.yarn_client模式的流程
│      21_09.yarn_cluster模式的流程
│      21_10.yarn_client模式的流程2
│      21_11.spark的shuffle
│      21_12.spark的job的调度模式
│      21_13.spark的广播变量的讲解
│      21_14.普通方式实现特殊符号过滤
│      21_15.使用广播变量去掉特殊符号
│      21_16.累加器的使用介绍
│      21_17.自定义累加器的使用案例
│      
├─22.SparkSQL第一天
│      22_01.上周内容回顾
│      22_02.Spark应用参数优化介绍
│      22_03.sparksql介绍
│      22_04.Sparksql如何和hive集成环境
│      22_05.sparksql命令行使用
│      22_06.sparksql命令行使用2
│      22_07.scalaApi连接sparksql多服务
│      22_08.sparksql读取HDFS的json文件使用
│      22_09.sparksql读取HDFS的json文件使用2
│      22_10.DataFrame的介绍
│      22_11.SparkSQLread的API介绍
│      22_12.SparkSQLread的API介绍2
│      22_13.SparkSQLread的API介绍3
│      22_14.SparkSQLwrite的API介绍
│      22_15.SparkSQLwrite的API介绍2
│      22_16.SparkSQLwrite的API介绍3
│      22_17.hive中的表迁移到mysql中
│      22_18.解决sparksql中数据仓库地址默认在本地的问题
│      22_19.sparksql案例一hive和mysql表的join
│      22_20.创建临时视图的两种方式比较
│      22_21.sparksql案例一hive和mysql表的join2
│      22_22.sparksql在yarn上运行
│      22_23.sparksql创建上下文的两种方式
│      22_24.DataFrame转成RDD的方式
│      22_25.sparksql的内置函数
│      22_26.自定义UDF函数
│      22_27.自定义UDAF函数思路讲解
│      22_28.自定义UDAF函数代码实现
│      22_29.DataFrame数据输出的方式
│      22_30.DataFrame数据写入hbase中
│      22_31.编写spark上下文工具类
│      22_32.rdd转成dataframe 的反射机制
│      22_33.解决代码中出现的问题
│      22_34.Sparksql案例三读取csv文件实现
│      22_35.Sparksql案例三读取csv文件实现2
│      22_36.Sparksql案例四DSL语法的使用
│      
├─23.Kafka
│      23_01.上周内容回顾
│      23_02.DSL中where和filter的使用
│      23_03.DSL中sort的使用
│      23_04.DSL中orderBy的使用
│      23_05.DSL中groupBy的使用
│      23_06.DSL中join的使用
│      23_07.中间件的介绍
│      23_08.kafka的介绍
│      23_09.kafka储存组件的说明
│      23_10.kafka的安装
│      23_11.kafka的服务开启以及topic的创建
│      23_12.topic的基本操作
│      23_13.kafka自带的生产者和消费者脚本测试
│      23_14.kafka的log储存格式
│      23_15.kafka的消息储存机制
│      23_16.kafka的分布式机制
│      23_17.kafka的消费机制
│      23_18.kafka快的5点原因
│      23_19.回顾上周内容
│      23_20.flume和kafka集成案例一
│      23_21.flume和kafka集成案例一测试运行
│      23_22.flume和kafka集成案例二编写代码
│      23_23.flume和kafka集成案例二问题解决过程
│      23_24.flume和kafka的区别和使用场景
│      23_25.kafka的集群监控offsetmonitor
│      23_26.kafka生产者API介绍
│      23_27.kafka生产者API配置参数说明
│      23_28.kafka生产者API案例编写
│      23_29.kafka生产者代码案例二
│      23_30.自定义分区器编写
│      23_31.自定义分区器结果演示
│      23_32.kafka消费者java代码官方案例
│      23_33.自动管理偏移量和手动管理偏移量的讲解
│      23_34.手动管理偏移量代码编写
│      23_35.批量数据保存数据库的代码实现
│      23_36.手动管理偏移量的优化方式
│      
├─24.Sparkstreaming
│      24_01.上周内容回顾以及讲解实时计算
│      24_02.sparkstreaming介绍
│      24_03.sparkstreamig和strom对比
│      24_04.sparkstreaming的架构和计算流程
│      24_05.sparkstreaming的socket案例
│      24_06.sparkstreaming的数据接收器方式一
│      24_07.sparkstreaming的数据接收器方式二
│      24_08.sparkstreaming的数据接收器方式三
│      24_09.sparkstreaming的direct模式
│      24_10.DStream讲解
│      24_11.DStream的remember的使用
│      24_12.SparkStreaming基础源的介绍
│      24_13.SparkStreaming和kafka集成介绍
│      24_14.receiver案例一
│      24_15.receiver案例二
│      24_16.direct案例一
│      24_17.direct案例一编写代码
│      24_18.direct案例二编写代码
│      24_19.回顾昨天的内容
│      24_20.receiver模式优化代码
│      24_21.多个数据接收器代码
│      24_22.动态资源调度和背压机制
│      24_23.checkpoint的代码演示
│      24_24.背压机制的代码实现
│      24_25.手动管理偏移量写入数据库
│      24_26.偏移量写入数据库测试代码
│      24_27.解决偏移量重复写入数据库的问题
│      24_28.演示解决偏移量重复写入的方法
│      24_29.0.10集成版本的演示
│      24_30.spark和kafka集成总结
│      24_31.transform的实现代码
│      24_32.使用foreachRDD将数据写入hbase中的两种方式
│      24_33.updateStateByKey实现
│      24_34.window窗口的介绍
│      24_35.window代码案例演示
│      24_36.spark阶段复习总结
│      
├─25.Python 第一天
│      25_01.Python介绍以及安装
│      25_02.Python的变量
│      25_03.Python的数据类型和字符串格式化
│      25_04.Python的数值类型
│      25_05.Python的if判断语句
│      25_06.Python的for循环和while循环
│      25_07.Python的break和continue
│      25_08.Python的函数、递归函数以及尾递归函数
│      25_09.Python的运算符
│      25_10.Python的列表
│      25_11.Python的元组
│      25_12.Python的字典
│      25_13.Python的set集合
│      25_14.Python的常用高阶函数
│      25_15.Python的模块
│      25_16.Python的变量作用域
│      25_17.Python的的windows和linux的环境搭建
│      25_18.linux下python的编译安装
│      
├─26.hadoop项目
│      26_01.介绍项目构架
│      26_02.创建项目结构
│      26_03.编写模拟数据代码
│      26_04.编写模拟数据代码并测试运行
│      26_05.使用flume收集数据保存kafka
│      26_06.创建properties解析类
│      26_07.编写hbase消费者代码
│      26_08.编写hbaseUtil的工具类
│      26_09.编写hbase创建表的方法
│      26_10.测试hbaseUtil工具类方法
│      26_11.生成rowkey的方法
│      26_12.生成预分区键代码
│      26_13.生成分区号代码
│      26_14.预分区表插入数据实现
│      26_15.预分区代码测试运行
│      26_16.过滤器代码实现一
│      26_17.回顾昨天授课内容
│      26_18.过滤器代码实现二
│      26_19.过滤器代码测试运行
│      26_20.优化建表方式,提出使用协处理器
│      26_21.协处理器类的编写一
│      26_22.协处理器类的编写一
│      26_23.协处理器功能测试
│      26_24.查找协处理器使用错误原因
│      26_25.基于rowkey查找数据
│      26_26.定义生成startrowkey和stoprowkey的代码
│      26_27.测试使用rowkey查询代码
│      26_28.介绍数据分析模块,需要使用的维度,和数据中心的表
│      26_29.创建模块结构目录以及编写联系人维度代码
│      26_30.编写时间维度代码
│      26_31.回顾上周讲的内容_
│      26_32.编写CountDurationMapper类_
│      26_33.编写CountDurationVlaue类_
│      26_34.编写CountDurationReducer类_
│      26_35.编写CountDurationRunner类_
│      26_36.自定义MYsqlOutputFomat类_
│      26_37.编写DimensionConverter类一_
│      26_38.编写DimensionConverter类二_
│      26_39.编写execSQL执行代码_
│      26_40.编写DimensionConverter类三_
│      26_41.测试模块三代码,将数据写入mysql中_
│      26_42.编写模块四代码,构建代码层级_
│      26_43.编写dao层代码_
│      26_44.编写前端jsp页面_
│      26_45.使用tomcat展示前端页面以及tableau展示前端页面
│      26_46.项目总结_
│      
├─27.PySpark
│      27_01.回顾上次pyspark内容
│      27_02.使用spark的pyspark命令行编写代码
│      27_03.windows下IDEA编程注意配置spark的环境变量
│      27_04.介绍RDD下常用的算子
│      27_05.RDD下的聚合类算子
│      27_06.RDD下的交集,并集,差集,以及分组和排序算子
│      27_07.PairRDD下的xxxByKey算子
│      27_08.解决IDEA中和本地环境变量python版本不一致的问题
│      27_09.RDD中的join算子
│      27_10.介绍去三个地址下找真实的数据集
│      27_11.TopN程序实现方式一1
│      27_12.TopN程序实现方式一2
│      27_13.TopN程序实现方式二1
│      27_14.TopN程序实现方式二2
│      27_15.SparkSQL中两种创建临时表的区别
│      27_16.SparkSQL中DSL语法的使用
│      27_17.sparksql的表结果写入数据库中
│      27_18.ema的方式出现表中的数据为null
│      27_27_19.回顾上周上课内容
│      27_27_20.SparkSQL和HIve集成
│      27_27_21.官方案例scoketTextStream
│      27_27_22.SparkStreaming和kafka集成讲解
│      27_27_23.SparkStreaming和kafka集成receiver模式
│      27_27_24.SparkStreaming和kafka集成receiver模式问题总结
│      27_27_25.SparkStreaming和kafka集成direct模式
│      27_27_26.SparkStreaming和kafka集成direct模式代码测试
│      27_27_27.SparkStreaming的transform和foreachRDD使用
│      27_27_28.SparkStreaming的updateStateByKey
│      27_27_29.SparkStreaming的updateStateByKey代码测试
│      27_27_30.SparkStreaming的window代码
│      
├─28.Spark项目阶段
│      28_01.spark项目介绍
│      28_02.spark在美团的实践介绍
│      28_03.美团项目数据来源
│      28_04.美团架构历史讲解
│      28_05.美团sparkETL模板
│      28_06.Spark在交互式用户行为系统中的实践
│      28_07.spark项目架构流程介绍
│      28_08.昨日课程回顾以及java代码调用shell脚本
│      28_09.java代码调用shell脚本实现代码编写
│      28_10.案例,使用java代码调用shell脚本,提交spark程序在yarn上运行
│      28_11.介绍项目模块和指标说明
│      28_12.模块一需要的数据介绍
│      28_13.模块一用户信息表模拟数据实现
│      28_14.用户行为数据模拟实现一
│      28_15.用户行为数据模拟实现二
│      28_16.用户行为数据模拟实现三
│      28_17.模块一的数据处理流程
│      28_18.模块一代码实现上下文构建以及获取task参数
│      28_19.过滤参数实现sql的讲解
│      28_20.根据sessionID对用户行为数据进行分组
│      28_21.模块一需求一,总会话个数和总会话长度计算
│      28_22.模块一需求一,各个小时段的会话统计
│      28_23.模块一需求一各个指标代码测试运行
│      28_24.上周内容回顾以及模块一需求二分析思路
│      28_25.上周内容回顾以及模块一需求二代码实现过程讲解
│      28_26.模块一需求二数据补充抽样的实现讲解一
│      28_27.模块一需求二数据补充抽样的实现讲解二
│      28_28.模块一需求二数据补充抽样的实现讲解三
│      28_29.模块一需求二数据补充抽样的数据写入hdfs和mysql
│      28_30.模块一需求三分析过程讲解
│      28_31.模块一需求三实现代码讲解
│      28_32.模块一需求四分析过程讲解
│      28_33.模块二各区域热门商品分析过程讲解
│      28_34.模块二各区域热门商品第一部分,获取任务参数
│      28_35.模块二获取任务参数,对原始的用户日志表进行过滤
│      28_36.模块二获取任务参数,对原始的用户日志表进行过滤代码实现
│      28_37.模块二过滤sql遇到问题,解决sex的解析问题一
│      28_38.模块二过滤sql遇到问题,解决sex的解析问题二
│      28_39.模块二对产品id的值进行解析转换
│      28_40.模块二访问数据库读取city_info制成临时表
│      28_41.模块二统计各区域下的各个商品的点击次数
│      28_42.回顾昨日授课内容以及介绍神策的Demo
│      28_43.继续介绍神策的Demo
│      28_44.编写自定义聚合函数一
│      28_45.编写自定义函数二
│      28_46.编写自定义函数三并进行运行测试
│      28_47.计算需求三各区域热门商品top10
│      28_48.模块二需求四将最终的结果写入hdfs和数据库
│      28_49.模块四分析以及整体项目架构介绍
│      28_50.介绍黑名单过滤和新增黑名单用户过程
│      28_51.编写kafka生产者代码实现模拟数据
│      28_52.运行测试kafka生产者代码
│      28_53.模块四编写sparkstreaming和kafka集成创建流
│      28_54.模块四将读进来的数据按照样例类保存
│      28_55.黑名单用户过滤代码实现一
│      28_56.黑名单用户过滤代码实现二
│      28_57.模块四需求一实现代码
│      28_58.模块四需求二代码实现
│      28_59.模块四需求三代码实现
│      
├─29.Flink-Day01
│      29_01.课程软件下载说明
│      29_02.课程内容介绍
│      29_03.Flink发展及在阿里和快手的引用
│      29_04.大数据平台架构
│      29_05.常见的流式计算框架
│      29_06.根据工业流水线来理解流式计算
│      29_07.Flink的定义及有界流和无界流
│      29_08.Flink的流处理特性
│      29_09.Flink的架构和基本编程模型
│      29_10.Flink的下载及本地安装测试
│      29_11.本地模式下运行官方案例
│      29_12.伪分布standalon搭建及运行
│      29_13.Flink和hadoop集成概述
│      29_14.Flink和hadoop集成部署及测试
│      
├─30.Flink-Day02
│      30_01.Flin on Yarn概述及Yarn Seesion模式
│      30_02.Yarn Seesion模式详解
│      30_03.向yarn提交单个flink job
│      30_04.Flink on Yarn的运行机制
│      30_05.程序和并行化数据流
│      30_06.分布式运行时环境
│      30_07.Slot(槽位)和资源及Operator Chain和Slot Sharning Group
│      30_08.在IDEA中搭建maven工程的flink的开发环境
│      30_09.添加必要的maven依赖
│      30_10.编写wordcount进行测试
│      30_11.从HDFS获取数据的wordcount案例
│      
└─31.Flink-Day03
        31_01.作业解读
        31_02.编程步骤回顾及启用本地web服务
        31_03.绘图理解datastream编程结构
        31_04.内置基于集合和元素的数据源
        31_05.自定义source1
        31_06.自定义source2
        31_07.Flink和Kafka集成兼容性说明及maven依赖
        31_08.Kafka2.2.1安装及测试
        31_09.Flink和Kafka集成编码及测试
        31_10.Flink和Kafka集成指定起始的offset
        31_11.Flink支持的Sink概述
        31_12.读取Kafka写入MySQL准备工作
        31_13.自定义MySQL sink编码及测试
        31_14.Window及Time的概念
        31_15.Window(时间和时间个数)的编码及测试
        

评价(0) 立即评论
0/150