获课:www.bcwit.top/3060/
获取ZY↑↑方打开链接↑↑
第一章:大数据基础架构与核心组件
数据采集与预处理
多源异构数据接入(日志、API、IoT 设备)
数据清洗与质量监控(缺失值 / 异常值处理)
实时流数据采集(Flume/Kafka/Canal)
分布式存储技术
HDFS 架构与副本机制
NoSQL 数据库(HBase/Cassandra)应用场景
对象存储(MinIO/S3)与文件系统优化
分布式计算框架
MapReduce 原理与 YARN 资源调度
Spark 生态解析(Core/Spark SQL/MLlib)
Flink 流处理与状态管理
第二章:大数据处理与分析
SQL on Hadoop
Hive 数据仓库与 HQL 优化
Impala/Presto 实时查询引擎对比
数据湖仓架构(Delta Lake/Hudi)
机器学习与大数据
特征工程(特征提取 / 选择 / 分箱)
分布式机器学习(Spark MLlib/XGBoost 分布式)
模型评估与调优(离线 A/B 测试)
实时数据处理
实时计算模型(Lambda/Kappa 架构)
FlinkCEP 复杂事件处理
实时数据仓库(Apache Doris/StarRocks)
第三章:大数据工具链实战
数据开发与调度
Apache Airflow/DolphinScheduler 工作流编排
数据血缘与依赖管理
元数据管理(Atlas/Amundsen)
数据可视化与 BI
Tableau/Power BI 企业级报表设计
动态数据看板(Grafana/Pinot)
地理信息可视化(GeoTools/Mapbox)
数据治理与安全
数据资产目录与标签体系
数据生命周期管理(冷热分层)
敏感数据脱敏(脱敏规则引擎)
第四章:行业场景实战
电商大数据应用
用户行为分析(点击流 / 转化漏斗)
商品推荐系统(协同过滤 / 深度学习)
实时库存预警与补货策略
金融风控与反欺诈
交易行为异常检测(孤立森林 / One-Class SVM)
反洗钱资金流分析(图计算 / Neo4j)
智能风控模型(XGBoost + 规则引擎)
智能客服与舆情分析
对话日志解析与意图识别(BERT+CRF)
情感分析与热点挖掘(LDA 主题模型)
智能工单分配(强化学习)
第五章:大数据前沿技术
湖仓一体架构
数据湖与数据仓库融合(Iceberg/Trino)
统一元数据管理(Unity Catalog)
存算分离架构优化
联邦学习与隐私计算
横向 / 纵向联邦学习实践(FATE 框架)
同态加密与安全多方计算
数据沙箱与合规分析
AI 与大数据结合
生成式 AI 在数据增强中的应用
大模型与知识图谱融合
智能数据标注(CLIP+Segment Anything)
第六章:大数据工程实践
数据管道设计
批流一体架构(Flink+Kafka+Iceberg)
数据同步工具(Sqoop/DataX)
数据血缘与影响分析
性能优化与调优
Spark 内存管理与 GC 优化
Flink Checkpoint 调优策略
分布式 SQL 查询优化(CBO/RBO)
监控与运维
Prometheus+Grafana 监控体系
故障诊断与容灾恢复
自动扩缩容策略(K8s+VPA)
企业级实战项目:
电商实时推荐系统(含数据采集、特征工程、模型部署)
金融反欺诈实时监控平台(Flink+ES+Kibana)
日志分析系统(ELK+Flink+Doris)
全栈工具覆盖:
掌握 Hadoop/Spark/Flink 生态工具链
实战数据湖仓(AWS Lake Formation)
云原生大数据(EMR/Azure HDInsight)
行业认证准备:
Cloudera CCA175/CCA275 认证特训
华为 HCIP-Big Data 认证冲刺
工具准备:
安装 Docker 部署 Hadoop/Spark 集群
配置 JupyterLab+PySpark 开发环境
注册 AWS/Azure 云服务体验数据湖
- 请尽量让自己的回复能够对别人有帮助
- 支持 Markdown 格式, **粗体**、~~删除线~~、
`单行代码`
- 支持 @ 本站用户;支持表情(输入 : 提示),见 Emoji cheat sheet
- 图片支持拖拽、截图粘贴等方式上传