Direct Connect涉及网络知识较多,名词和术语多,配置步骤复杂。其中一个相对很难学习的地方在于Direct Connect无法自助学习配置,当没有真实专线连接的时候,Direct Connect云端界面无法完全模拟所有操作,因此给动手实验带来很大的困难。针对这个问题,本文将Direct Connect主要配置流程和方法进行梳理,并辅以截图进行讲解。
使用Kinesis Data Firehose将数据导入S3数据湖,设置分区键,并转换为Parquet列格式。通过Athena可以极低的开销做低频查询。本方案成本低效果好,对现有系统不侵入,可作为现有大数据分析手段的补充。点击跳转:文档,视频。
场景2:KDF准实时流式入仓(1分钟级)+ 高频查询
使用Kinesis Data Firehose将原始数据以GZIP压缩方式在S3落盘,并按照60秒的间隔自动加载到数Redshift数据仓库。Redshift为MPP架构分布式数仓,支持通过JDBC方式调用,满足BI系统多并发的高频查询要求。点击跳转:文档。
场景3:KDS实时流式入仓(秒级)+ 高频查询
使用Kinesis Data Stream将原始数据放在Kinesis流中,可使用多种消费方式包括KDA(托管Flink)、Redshift等方式消费。本方案采用Redshift的物化视图方式对Kinesis数据流进行消费,并通过自动刷新物化视图实现秒级的延迟。Redshift可满足BI系统多并发的高频查询要求。点击跳转:文档。