Glue在做ETL转换时候,因为数据源文件的格式和字段问题,可能无法正确的分区,因此会导致一个一个大文件被转换为若干个小文件,存在一个目录下。如下截图。
Continue reading “Glue ETL 生成单一文件”使用Gateway Load Balancer实现集中的网络流量深度检测
一、背景
Gateway Load Balancer(以下简称GWLB)于2020年Re-Invent上被宣布并在2021年3月发布。
Continue reading “使用Gateway Load Balancer实现集中的网络流量深度检测”使用Rekognition识别视频中的名人
一、原理和架构
Rekognition服务目前在AWS海外区域可用,在中国区暂时不可用。
1、原理
Rekognition的原理是:
- 上传视频到S3中,获得完整的S3存储地址;
- 调用Rekognition的API发起对S3中的某个视频文件的识别,不同类型的识别有不同的接口,比如识别物体、人脸、名人为不同的调用接口,此任务为异步,返回 JobId 信息。
- 视频分析完毕后,Rekognition回call SNS通知服务,并可根据 JobId 查询;
- 应用程序接收到SNS通知后,从SNS消息总线中取出ID,然后再次调用Rekognition的获取分析接口,获得JSON格式的输出结果,输出结果包含人物ID、任务信息、时间线等;
- 最后调用获取名人信息接口,输入人物ID,获得名称和公开信息(URL网址)。
Gateway Load Balancer Demo
视频有讲解,注意调整音量。
Continue reading “Gateway Load Balancer Demo”使用KMS对S3存储桶进行加密
一、背景
本文描述了如何使用Server Side Encryption – KMS方式对S3存储桶的文件加密,并测试解密和访问。
Continue reading “使用KMS对S3存储桶进行加密”S3数据湖+Athena+Glue 无服务器数据分析实验
一、准备工作
在S3上新建一个存储桶,多人实验时候请注意存储桶名称需要唯一。在存储桶内新建两个目录,一个名为 raw
用于存放原始数据,第二个目录名为 etl
用于存放转换过的数据。
请将测试数据 sample.json
文件上传到存储桶的raw目录内。请记住文件大小,稍后将会进行对比。
使用Data Replication Hub从AWS Global S3区域向中国区S3复制数据
一、背景
Data Replication Hub是AWS的数据复制方案,可用于在云间复制,或者在AWS Global和中国区之间复制数据。本文以从海外复制到中国区为例。
其他使用场景,请参考官方文档。
Continue reading “使用Data Replication Hub从AWS Global S3区域向中国区S3复制数据”使用VPC Endpoint之Gateway Endpoint和Interface Endpoint实现从VPC或IDC内网访问S3
2023年5月更新
一、背景
本文讲述了从内网访问S3的两种Endpoint配置方式,并对Interface Endpoint进行了访问压力测试。
Continue reading “使用VPC Endpoint之Gateway Endpoint和Interface Endpoint实现从VPC或IDC内网访问S3”创建并连接MSK服务
一、背景
Amazon Managed Streaming for Apache Kafka 是AWS推出的托管Kafka服务。主要优势体现在:
- Amazon MSK 使您可以专注于创建流应用程序,而无需担心管理 Apache Kafka 环境的运营开销。Amazon MSK 为您管理 Apache Kafka 集群和 Apache ZooKeeper 节点的预置、配置及维护。Amazon MSK 还在 AWS 控制台中显示关键的 Apache Kafka 性能指标。
- Amazon MSK 创建 Apache Kafka 集群,并在一个 AWS 区域内提供多可用区复制。Amazon MSK 持续监控集群的运行状况,并自动替换发生故障的组件。
- Amazon MSK 可为您的 Apache Kafka 集群提供多级安全性,包括 VPC 网络隔离、使用 AWS IAM 进行控制层面 API 授权、静态加密、传输中 TLS 加密。
使用为ECS Fargate使用Spot实例
一、背景
ECS Fargate极大的简化了集群的管理,通过提供无服务器方式的容器,用户可专心关注在应用本身,而无需花费过多时间精力去管理容器运行所在的EC2。使用Fargate虽然简化运维但成本相对EC2的手工管理方式成本较高,因此针对互联网方式的无状态应用,可使用Spot实例来大幅降低成本。如果应用程序本身是传统的有状态方式,或者需要维护长链接的额,那么还应该继续使用普通Fargate方式而不是Spot实例。
此外,ECS Fargate Spot模式不支持与CodeDeploy集成,因此不能直接使用CodeDeploy做蓝绿发布,由此需要用户自行管理发布流水线来发布多版本,并自行做调度和切换。因此如果是计划直接采用CodeDeploy,那么Fargate Spot也是不适用的。
下面开始实验。
Continue reading “使用为ECS Fargate使用Spot实例”AWSCLI V1升级到V2方法
AWS CLI V2版本已经正式成为了稳定版本,有些特别的调用需要V2版本才可以支持,V1版本无法运行。当在一个Amazon Linux 2操作系统上,输入 aws 命令并回车之后,系统提示如下信息,则表示这是1.x版本,可以升级到2.x版本。
Note: AWS CLI version 2, the latest major version of the AWS CLI, is now stable and recommended for general use. For more information, see the AWS CLI version 2 installation instructions at: https://docs.aws.amazon.com/cli/latest/userguide/install-cliv2.html
执行 aws –version 命令可以查看当前版本。这表示当前的版本是1.18版本,需要升级到V2。
[ec2-user@ip-172-31-200-161 ~]$ aws --version
aws-cli/1.18.147 Python/2.7.18 Linux/4.14.214-160.339.amzn2.x86_64 botocore/1.18.6
[ec2-user@ip-172-31-200-161 ~]$
升级过程如下。
Continue reading “AWSCLI V1升级到V2方法”在Redshift上使用Spectrum查询S3中的数据
一、配置Redshift使用的IAM Role
1、新建Redshift运行角色
进入IAM界面,点击新建角色。如下截图。
Continue reading “在Redshift上使用Spectrum查询S3中的数据”使用CLI发起CodeDeploy部署新的ECS版本
注:本实验针对已经在CodeDeploy图形界面上进行过部署的场景,因此CodeDeploy的Application、Deployment Group、Deployment configurations均为已经配置好的状态。本脚本目标是让整个流程通过CLI自动运行。
Continue reading “使用CLI发起CodeDeploy部署新的ECS版本”ECS 201 Workshop(四)通过CodeDeploy实现蓝绿发布
ECS是AWS自行研发的容器管理平台,相对于流行的K8S架构,ECS更加简单易用,学习门槛相对很低。此外,Fargate无服务器技术的支持,将ECS完全从管理底层架构中解放出来,用户不需要再去关心Node节点的EC2配置,而是只在乎启动的任务,非常便于高效、快速的将既有容器投入使用。
ECS 201 Workshop分成:
共四个部分。此外,在ECS实验之前,还有一个基础篇是如何Build容器镜像,请参考这里。
下面开始第四篇。演示视频如下:
Continue reading “ECS 201 Workshop(四)通过CodeDeploy实现蓝绿发布”