使用CloudTrail和Athena分析S3访问日志

本文更新于2023年8月,新增了对于大量CloudTrail历史数据,需要实现创建分区键的说明。否则按照CloudTrail控制台推荐的默认的Athena建表语句进行查询,将是针对数个GB数据的全表扫描带来不必要的成本。按照本文新增章节,创建带有分区键的Athena表,即可显著降低查询成本。分区键推荐采用Region和日期的方式。

一、背景

S3存储桶的文件读写日志包括Server Access Log和CloudTrail两种方式。二者之间的差别可参考如下网址:

https://docs.aws.amazon.com/zh_cn/AmazonS3/latest/userguide/logging-with-S3.html

在官方上描述非常详细,可看到CloudTrail采集的信息更加丰富,因此本文将介绍使用CloudTrail做分析。如下截图。

Continue reading “使用CloudTrail和Athena分析S3访问日志”

S3数据湖+Athena+Glue 无服务器数据分析实验

一、准备工作

在S3上新建一个存储桶,多人实验时候请注意存储桶名称需要唯一。在存储桶内新建两个目录,一个名为 raw 用于存放原始数据,第二个目录名为 etl 用于存放转换过的数据。

请将测试数据 sample.json 文件上传到存储桶的raw目录内。请记住文件大小,稍后将会进行对比。

Continue reading “S3数据湖+Athena+Glue 无服务器数据分析实验”

创建并连接MSK服务

一、背景

Amazon Managed Streaming for Apache Kafka 是AWS推出的托管Kafka服务。主要优势体现在:

  • Amazon MSK 使您可以专注于创建流应用程序,而无需担心管理 Apache Kafka 环境的运营开销。Amazon MSK 为您管理 Apache Kafka 集群和 Apache ZooKeeper 节点的预置、配置及维护。Amazon MSK 还在 AWS 控制台中显示关键的 Apache Kafka 性能指标。
  • Amazon MSK 创建 Apache Kafka 集群,并在一个 AWS 区域内提供多可用区复制。Amazon MSK 持续监控集群的运行状况,并自动替换发生故障的组件。
  • Amazon MSK 可为您的 Apache Kafka 集群提供多级安全性,包括 VPC 网络隔离、使用 AWS IAM 进行控制层面 API 授权、静态加密、传输中 TLS 加密。
Continue reading “创建并连接MSK服务”

Redshift Demo

一、前言

Amazon Redshift 是一种完全托管的 PB 级云中数据仓库服务。Amazon Redshift 数据仓库是一个节点组成的各种计算资源构成的集合,这些节点归属于集群的组中。每个集群运行一个 Amazon Redshift 引擎并包含一个或多个数据库。开始时,您可以只使用几百 GB 数据,然后扩展至 1 PB 或更多。这样,您可以使用数据获得对您的业务和客户的新简介。

本文是个简单测试,本文汇总了AWS官网文档中的操作和交互流程,并整理成如下文章。

Continue reading “Redshift Demo”

执行 yarn application 连接失败且超时的错误解决

在AWS EMR使用多个Master高可用部署场景下,需要创建3台Master节点上。登录到其中一台节点,运行如下命令:

yarn application -list

在某些场景下会遇到如下报错。报错信息:

WARN ipc.Client: Failed to connect to server: ip-172-31-22-134.cn-northwest-1.compute.internal/172.31.22.134:8032: retries get failed due to exceeded maximum allowed retries number: 0
java.net.ConnectException: Connection refused
Continue reading “执行 yarn application 连接失败且超时的错误解决”

使用Athena的排查ELB后的网站错误

一、排查思路

遇到网站访问错误,例如网站报告504错误,建议分段排查。如果网站有多个服务商组成,例如在AWS之前使用了CDN、WAF等,这需要分段排查。思路如下。

1、分段排查,分成 域名解析 -> 第三方WAF -> AWS ELB -> AWS EC2 几段。

2、各段打开LOG,根据LOG报错排查。

为了方便调查,这里将使用AWS Athena快速检索网站日志。

Continue reading “使用Athena的排查ELB后的网站错误”