'전체 글'에 해당하는 글 2039건

약 1년 정도 EKS fargate + grafana 로 모니터링과 알람을 사용했다. 이왕 설치했으니까, 나름 피곤한 세팅 해가면서, 이쁘게 커스텀 잘 해왔는데, 보안 점검때마다 EKS 와 plugin 을 최신버전으로 올리는 바람에 그 때마다 Node 날아가고 전부 새로 설치+세팅 해야 한다는 점... 한번은 그냥 기분 좋게 했었는데, 두번은 못하겠다. 이게 다 fargate 를 사용해서...? AWS 의 EKS 인 만큼, AWS 안에서 모니터링과 알람을 만드는 것이 옳다고 생각하고 방법을 찾아봤다.

 

CPU / MEM / Traffic 모니터링은 기본이고, 배포시(혹은 장애시) 슬랙 알림 전송이 목표이며, 유일하게 AWS CloudWatch Container Insights 를 찾았다.

 

Container Insights 는 ECS/EKS 의 EC2/Fargate 에서 컨테이너 어플리케이션의 지표 및 로그를 수집하고 집계할 수 있다. 일반적으로 워커노드의 kubelet 이 /metrics/cadvisor 엔드포인트에서 CPU, 메모리, 디스크, 네트워크 사용량 등의 리소스 지표를 노출하는데, EKS Fargate 네트워킹 구조상 이 kubelet 에 접근이 안되기 때문에 프록시 역할을 할 ADOT(AWS Distro for OpenTelemetry 수집기를 사용하여, 워커노드의 지표 및 로그(CPU, 메모리, 트래픽) 들을 CloudWatch 로 전달한다. 그럼에도 CloudWatch 의 [향상된 관찰 기능] 은 지원되지 않는다.

 

 

 

 

ADOT Pod 생성

 

1. fargate profile 생성

 

$ kubectl create namespace fargate-container-insights
namespace/fargate-container-insights created

 

 

2. 서비스 계정 생성

 

ADOT 수집기에는 성능 로그 이벤트를 CloudWatch로 보내려면 IAM 권한이 필요하다. AWS 관리형 정책 CloudWatchAgentServerPolicy 와 연결할 역할(EKS-Fargate-ADOT-ServiceAccount-Role)을 만들고, EKS 의 서비스계정(adot-collector) 을 생성하여 연결하는 스크립트이다. YOUR-EKS-CLUSTER-NAME 과 YOUR-EKS-CLUSTER-REGION 을 적절히 수정한다.

 

$ ##!/bin/bash
CLUSTER_NAME=YOUR-EKS-CLUSTER-NAME
REGION=YOUR-EKS-CLUSTER-REGION
SERVICE_ACCOUNT_NAMESPACE=fargate-container-insights
SERVICE_ACCOUNT_NAME=adot-collector
SERVICE_ACCOUNT_IAM_ROLE=EKS-Fargate-ADOT-ServiceAccount-Role
SERVICE_ACCOUNT_IAM_POLICY=arn:aws:iam::aws:policy/CloudWatchAgentServerPolicy

$ eksctl utils associate-iam-oidc-provider \
--cluster=$CLUSTER_NAME \
--approve

$ eksctl create iamserviceaccount \
--cluster=$CLUSTER_NAME \
--region=$REGION \
--name=$SERVICE_ACCOUNT_NAME \
--namespace=$SERVICE_ACCOUNT_NAMESPACE \
--role-name=$SERVICE_ACCOUNT_IAM_ROLE \
--attach-policy-arn=$SERVICE_ACCOUNT_IAM_POLICY \
--approve

2023-11-27 22:09:08 [ℹ]  eksctl version 0.75.0
2023-11-27 22:09:08 [ℹ]  using region ap-northeast-2
2023-11-27 22:09:09 [ℹ]  1 iamserviceaccount (fargate-container-insights/adot-collector) was included (based on the include/exclude rules)
2023-11-27 22:09:09 [!]  serviceaccounts that exist in Kubernetes will be excluded, use --override-existing-serviceaccounts to override
2023-11-27 22:09:09 [ℹ]  1 task: {
    2 sequential sub-tasks: {
        create IAM role for serviceaccount "fargate-container-insights/adot-collector",
        create serviceaccount "fargate-container-insights/adot-collector",
    } }2023-11-27 22:09:09 [ℹ]  building iamserviceaccount stack "eksctl-test-addon-iamserviceaccount-fargate-container-insights-adot-collector"
2023-11-27 22:09:10 [ℹ]  deploying stack "eksctl-test-addon-iamserviceaccount-fargate-container-insights-adot-collector"
2023-11-27 22:09:10 [ℹ]  waiting for CloudFormation stack "eksctl-test-addon-iamserviceaccount-fargate-container-insights-adot-collector"
2023-11-27 22:09:26 [ℹ]  waiting for CloudFormation stack "eksctl-test-addon-iamserviceaccount-fargate-container-insights-adot-collector"
2023-11-27 22:09:43 [ℹ]  waiting for CloudFormation stack "eksctl-test-addon-iamserviceaccount-fargate-container-insights-adot-collector"
2023-11-27 22:09:43 [ℹ]  created serviceaccount "fargate-container-insights/adot-collector"

 

 

3. ADOT StatefulSet 배포

 

https://github.com/aws-observability/aws-otel-collector/blob/main/deployment-template/eks/otel-fargate-container-insights.yaml

 

파일을 다운받아, YOUR-EKS-CLUSTER-NAME 과 region=us-east-1 을 적절히 수정하여 배포한다.

 

$ kubectl apply -f eks-fargate-container-insights.yaml
clusterrole.rbac.authorization.k8s.io/adotcol-admin-role created
clusterrolebinding.rbac.authorization.k8s.io/adotcol-admin-role-binding created
configmap/adot-collector-config created
service/adot-collector-service created
statefulset.apps/adot-collector created

 

 

4. CloudWatch Log Group 확인

 

몇 분이 지나면 CloudWatch 로그 그룹에 로그가 쌓이는 것을 확인할 수 있다.
/aws/containerinsights/CLUSTER_NAME/performance

 

 

5. CloudWatch 대시보드 생성

 

Metrics > ContainerInsights 지표를 활용하여 CPU, 메모리, 트래픽 정도의 대시보드를 구현할 수 있다.
(배포 알림은 ContainerInsights 가 아닌 ALB target-group 의 HealthyHostCount 로 측정하였음. PromQL 가 없으니 잇몸으로...)

 


WRITTEN BY
손가락귀신
정신 못차리면, 벌 받는다.

,

2024 갑진년

Daily/Diary 2024. 1. 2. 01:49

청룡

 

 

2024년 갑진년, 청룡의 해...
 
만 나이...  사람들이 쓰고 있는지는 모르겠다만 어쨌든 내 나이 만 45세. 궁금해 하는 사람도 없고, 만 나이까지 등장하면서 지금 나이가 몇살인지 신년이 되니까 세어 본다.
 
2023년을 잠시 되돌아 보자면,
 
그저 열심히 일했다고 생각한다. 이렇게 하루 중 대부분의 시간을 일에 할애하는 것이 맞는건가 싶다. 이 나이가 되도록 효과적/효율적으로 일하는 방법도 모르는 듯 하다. 술도 꾸준히 열심히 먹고 있다. 운동은 주 2~3회 정도만 하고 있고 (이 역시 술때문...), 허리는 랙에 들어가지만 않으면 별 문제 없고, 2년 넘게 괴롭히던 사마귀도 사라졌고, 노안이 좀 불편하긴 하지만 그 외 특별히 아픈 곳은 없다.
 
회사에 그렇게 오랜 시간을 있었는데 내 기술은 1년 전과 별 다를 바가 없다고 생각하니, 뭔가 개선의 필요는 있어 보인다. 팀을 더 잘 꾸려 나가야 할 것이고, 여러 방면으로 고민과 공부할 것들이 산더미다. 시간은 한정되어 있고, 우선순위를 잘 정해서 실행해야 한다.
 
2023년 가장 잘한 것은 회사 일이라고 생각하며, 그 외 잘한 것은 딱히 없다고 본다.
개발 업데이트는 손도 안댄것 같고, 영어도 맛만 보다 말았고, 재즈도 뭐 그냥 저냥.
집의 안락하고 편안함 속에 젖어서, 술만 마시다가 1년이 지난 듯하다.
술이 좋다기 보다, 집에서 편히 뻗어있는게 좋다. 술먹고 뻗어있으면 더 없이 좋다.
 
뭐 2023년은 그렇게 보냈다고 치자.
올해부터는 어떻게 하면 좋을까.
 
물론 다 잘하고 싶지만, 어느 시점에든 하고 싶은 것과, 해야할 것들은 잘 구분해야 한다.
해야할 것은 회사와 관련된 모든 것들이 될 수 있다. 개발은 물론이고 인력관리나 성과를 위해서도 고민해야 한다.
사람들에게도 더 잘해야 하고, 잘 이끌어야 하고, 많이 도와야 한다. 공감 능력도 많이 길러야 한다.
혼술 때문에 운동을 빠지지는 말자.
부동산과 재테크는 계획대로 실천하고, 시간 낭비 하지 말자.
남는 시간에는 내가 하고 싶은거 잘 계획 세워서 실천하기.
 
그저 이렇게 1년 더~
 
 

WRITTEN BY
손가락귀신
정신 못차리면, 벌 받는다.

,

 

말 그대로 인스턴스를 미리 예약(구매)하는 것이다. 내가 사용할 인스턴스를 1년 이상 약정하고 그 만큼의 할인 혜택(최대75%)을 받는 것이다. 인스턴스 서비스를 제공하는 Amazon EC2, RDS, ElastiCache, OpenSearch, Redshift 등이 대상이다. 일단 인스턴스를 미리 생성해서 사용하다가, CPU/MEM 등이 적절한 인스턴스 사양을 찾아 최대한 빨리 RI 를 적용하는 것이 이득이다. 1년도 사용하지 않을 계획이라면 쳐다도 보지 않는 것이 좋다;

 

 

RI 설정

 

해당 서비스의 대시보드에 들어가면 좌측 메뉴에 예약 인스턴스(Reserved Instance), 예약 노드 등이 있는데 이곳에서 RI 를 생성하면 된다. 부수적인 옵션이 각각 있지만, 공통적으로 사용할 인스턴스 사양, 결제방법 등이 중요하다.

 

결제방법 (1년/3년)

  • 선결제 없음 : 매달 할인 받은 금액으로 결제
  • 부분 선결제 : 반 선결제 하고, 매달 할인 받은 금액 결제
  • 전체 선결제 : 즉시 전체 결제하고 1년/3년 사용

 

전체 선결제는 즉시 결제이므로 3가지 결제방법 중 할인율이 가장 크다. 선결제 없음은 초기 비용이 발생하지 않지만 3가지 결제방법 중 할인율이 가장 적다. 1년/3년을 무조건 사용할 예정이라면 전체 선결제를 선택하면 되고, 그 안에 사양 업그레이드 등 변화가 예상되는 경우는 선결제 없음을 선택하는 것이 좋다. 사용하던 하지 않던 구매하는 순간 요금은 발생되므로 주의해야... 해당 RI 가 만료되면 온디맨드 요금으로 변경되므로, 수동 재계약. (예약 구매 가능)

 

 

EC2 RI 사용 예)

 

예1) 1일부터 c5.xlarge 를 이용해오다, 15일에 해당 서비스의 ri 를 구매할 경우
 - 적용시간부터 ri 요금이 적용된다.

예2) 1일부터 c5.xlarge 를 이용해오다, 15일에 c5.2xlarge 로 교체할 경우 (인스턴스 크기 유연성: 같은 리전의 정규화 시간당 유닛만큼 할인)
 - 15일부터 사용하는 c5.2xlarge(16) 의 요금중, 기존 사용중인 c5.xlarge 의 정규화 시간당 유닛(8)만큼 할인 받고, 나머지 c5.xlarge(8) 의 온디맨드 요금 발생

예3) RI 구매했지만 서비스를 그만 사용할 경우
 - Marketplace 에 등록하여 남은 사양만큼을 타인에게 판매.

 

표준 타입이 아닌 컨버터블 타입의 RI 를 사용한다면, 다른 인스턴스 패밀리(m, x, r...), 운영 체제 또는 테넌시를 변경할 수 있는 여러가지 옵션들이 있으며 다른 RI 와 병합도 가능하다. (비싼 요금에서 싼 요금으로의 변경은 불가능하다...) 컨버터블 타입의 경우, 요구조건이 까다로워서 AWS 문서를 확인하는 편이 확실할 듯 하다. EC2 가 아닌 다른 대부분의 다른 서비스 RI 는 수정/삭제가 불가능하므로, 마찬가지로 주의해서 생성해야 한다. RDS, ElastiCache, OpenSearch, Redshift...

 

 

요금 비교

 

권한이 있다면(ViewBilling,ViewAccount, ...), 비용(Cost) 대시보드에서는 최근 사용해 온 서비스 들로부터 RI 권장사항도 확인할 수 있다. 또는, 본인이 사용하는 서비스의 인스턴스 사양의 온디맨드 요금과 예약 인스턴스 요금을 구글에서 검색해 본다.


예) ec2 ri 요금

 

 

 


WRITTEN BY
손가락귀신
정신 못차리면, 벌 받는다.

,

태백산

Daily/Hiking 2023. 2. 17. 06:19

2023. 02. 16.

 

버킷 리스트 중 하나가 바로 산의 정상에서 설경을 감상하는 것이었다. 하지만 설경을 마주한다는 것이 어디 쉬운일인가. 일단 가장 싫어하는 것 중 하나가 추위인데다, 강원도 산골에 폭설이 내리면 설경이 예술이겠지만, 그 정도로 눈이 오면 눈길에 운전도 쉽지 않을뿐더러 고립이 될 수도 있기 때문에 내 의지 만으로는 이룰 수 없는 소원이었다. 하지만 언제나 준비하고 있으면 기회는 찾아오는 법. 겨울 산행 준비는 진작에 끝내놨었고 때만 기다리고 있었는데, 기상청에서 3일전 눈예보를 확인했고, 어제까지 강원도에 폭설경보. 그리고 기온도 0도 정도라 도로도 거의 얼지 않았을테고, cctv로 눈덮힌 설악산과 태백산은 찜 해놓았고... 하지만 이제 설악산은 무릎 때문에 못갈듯 하고, 아직 가보지 못한... 설경으로 유명한 태백산을 가기로 결정했다.

 

※ 코스

유일사주차장 - 주봉 장군봉 - 정상 천제단 - 망경사 - 유일사주차장

 

3월말 무등산에서 우연히 설경을 보고 욕심이 생겼는지, 설레서 잠을 못잤다. 새벽 3시반에 출발하려고 했는데 이래저래 잠이 안와서 그냥 TV나 보다가 밤 홀딱 새고 3시간짜리 운행을 했다. 마지막 한시간은 너무도 괴로웠음. 집에 올때도...; 왜 맨날 등산하기 전날엔 잠을 못자는지. 딱 어릴적 소풍가는 그 기분. 자 그럼 눈뽕 감상모드 시작.

 

 

 

 

주차장 영하 7도. 정상은 대충 영하 11도. 바람 때문에 체감은 영하 20도 정도? 빨리 내려가고 싶은 생각 밖에는 ㅜ. 그래도 보다시피 오늘 하루는 정말 예술이었다. 예술이란 말보다는 더 감성적인 말로 형용되어야 할 것 같다. 정말 다른 세상에 있는 듯한 느낌. 정상을 제외하고는 거의 바람도 없었고... 딱 한가지 아쉬운 점이라면 구름 예보를 확인했지만 어짜피 안갈수도 없는거, 구름이라도 멋진 구름이길, 곰탕만은 아니길... 했는데 곰탕이었다. 그럼에도 불구하고 정말 환상적이었다.^^ 내 인생에 '눈' 이라는 키워드를 생각하면 이 곳 태백산에서는 눈만 생각날 것 같다. 설경이 이렇게 감동적일 줄은...

 

다들 너무 쉽다고들 해서 방심하다가 초반에 설경을 보고 빨리 정상에 가고 싶은 마음에 오버 페이스가 됐다. 뭐 그래도 쉬운 코스라 별 문제는 없었지만ㅎ 가장 맘에 드는건 돌길이 거의 없다는거? 눈 때문에 약간 폭신한 느낌도 있어서 무릎에 충격 완화가 된 것 같기도 하고. 피곤했지만 너무 좋았던 산행.

 

 

 

 


WRITTEN BY
손가락귀신
정신 못차리면, 벌 받는다.

,

EKS version update

Daily/Prog 2023. 2. 14. 20:39

 

* AWS Email 전문

 

2023년 2월 15일부터 Amazon EKS는 Kubernetes 1.21 버전을 더 이상 지원하지 않습니다. 또한 그 이후, 더 이상 새 1.21버전의 클러스터를 생성할 수 없으며 Kubernetes 1.21 버전을 사용중인 모든 EKS 클러스터는 최신 플랫폼 버전의 Kubernetes 버전 1.22로 업데이트될 예정입니다.
...
1.21 버전의 클러스터를 Kubernetes 1.22 버전 이상으로 업데이트하는 것을 권장드립니다. 클러스터를 바로 가장 최신 Kubernetes 버전인 1.24 버전으로 업데이트하여, 버전 업데이트를 수행해야 하는 빈도를 최소화할 수 있습니다.

 

 

일단 EKS 버전 업데이트가 처음인데다가, 현재 운영중인 클러스터라 다운타임이 발생하면 회사에 치명적, 내 수명에도 치명적... 다른일 처리하다가 미루고 미루다 보니 내일 모레가 듀 데이트... 다행히 개발/운영 클러스터를 각각 사용하고 있어서 개발 클러스터로 다운타임이 발생하지 않는지 확인할 수 있었다. 결론부터 말하면 fargate 사용시 다운타임은 발생하지 않았다.

 

이왕 손댔을 때, 메일에 쓰인대로 1.21 버전에서 1.24 버전으로 올리면 좋겠지만 한번에 하나의 마이너버전 업데이트만 가능하다. 일단 업데이트 전 버전별 업데이트 주의사항들을 확인해 봤다.

 

https://docs.aws.amazon.com/eks/latest/userguide/update-cluster.html

 

Updating an Amazon EKS cluster Kubernetes version - Amazon EKS

Even though Amazon EKS runs a highly available control plane, you might experience minor service interruptions during an update. For example, assume that you attempt to connect to an API server around when it's terminated and replaced by a new API server t

docs.aws.amazon.com

 

요약하자면,

  • kubectl client/server 버전 동기화
  • 사라지는 v1beta API 들 체크하여, 기존 YAML 파일 변경
  • AWS Load Balancer Controller 2.4.1 이상으로 업데이트

 

이 정도인 것 같다. kubectl 은 로컬에 lens, docker 등에서도 설치가 되어 최신버전이 표시되게 설정이 필요하다. kubectl 버전은 EKS 클러스터 API 버전을 기준으로 마이너버전 +-1 만 사용이 가능하다. 예를 들어 1.23 kubectl Client 는 Kubernetes 1.22, 1.23, 1.24 클러스터에서 사용이 가능하다... 고는 하는데, kubectl client 1.24 과 server 1.21 을 사용할 때 큰 이슈는 없었다... 아무튼 최신버전(1.25+)에서는 제약이 있는 듯. yaml 파일 수정은 rbac.authorization.k8s.io/v1beta1 하나 했고, ALB Controller 는 업데이트 하지 않았더니 무한 restart...ㅎ

 

 

EKS v1.22 업데이트 순서

 

(현재 프로젝트용 fargate 와 모니터링용 node-group 을 사용중이다.)

 

1. 클러스터 버전 업데이트

 

$ eksctl upgrade cluster \
--name my-cluster \
--version 1.24 \
--approve

 

2. 노드 그룹 버전 업데이트 (옵션)

 

$ eksctl upgrade nodegroup \
--name=node-group-name \
--cluster=my-cluster \
--region=region-code \
--kubernetes-version=1.24

 

노드 그룹의 경우 볼륨 수대로 파드가 생성되서 에러인줄 알고 깜놀했는데, 10여분정도 뒤에 업데이트가 끝나면 알아서 다 정리된다. 프로메테우스는 재설치 했다..;

 

3. Custom Resources 업데이트

 

$ helm repo update
$ kubectl apply -k "github.com/aws/eks-charts/stable/aws-load-balancer-controller/crds?ref=master"
customresourcedefinition.apiextensions.k8s.io/ingressclassparams.elbv2.k8s.aws configured
customresourcedefinition.apiextensions.k8s.io/targetgroupbindings.elbv2.k8s.aws configured

 

4. AWS Load Balancer Controller 2.4.1 이상으로 업데이트

 

$ helm upgrade aws-load-balancer-controller eks/aws-load-balancer-controller \
-n kube-system \
--set clusterName=my-cluster \
--set serviceAccount.create=false \
--set serviceAccount.name=aws-load-balancer-controller \
--set region=my-region \
--set vpcId=vpc-1234567890 \
--set image.repository=my-region-id.dkr.ecr.my-region.amazonaws.com/amazon/aws-load-balancer-controller

 

5. EKS 대시보드의 [추가기능] 업데이트

  • Amazon VPC CNI
  • CoreDNS
  • kube-proxy

업데이트시, 충돌 옵션을 선택하지 않으면 아래와 같은 에러가 발생한다. 옵션에서 [재정의] 를 선택하면 된다.

 

Conflicts found when trying to apply. Will not continue due to resolve conflicts mode. Conflicts: ConfigMap kube-proxy-config - .data.config DaemonSet.apps kube-proxy - .spec.template.spec.containers[name="kube-proxy"].image DaemonSet.apps kube-proxy - .spec.template.spec.containers[name="kube-proxy"].image

 

 

6. 프로젝트 deployment 각각 restart (업데이트 버전의 노드 확인)

 

$ kubectl rollout restart -n my-namespace deployment/my-project
...

 

 

EKS v1.23 업데이트

v1.23 에서는 노드그룹(EC2) 를 사용한다면, EBS CSI driver 설치를 해주어야 한다. EKS 대시보드의 [추가기능] 에서 생성. 생성시 필요한 IAM 역할 생성은 아래 사이트 참고.

 

https://docs.aws.amazon.com/eks/latest/userguide/csi-iam-role.html

 

Creating the Amazon EBS CSI driver IAM role for service accounts - Amazon EKS

Creating the Amazon EBS CSI driver IAM role for service accounts The Amazon EBS CSI plugin requires IAM permissions to make calls to AWS APIs on your behalf. For more information, see Set up driver permission on GitHub. When the plugin is deployed, it crea

docs.aws.amazon.com

 

EBS CSI driver 가 정상적인 권한으로 설치되지 않으면 Volumes mount 가 실패하고 에러가 발생한다.

failed to provision volume with StorageClass "gp2": rpc error: code = Internal desc = Could not create volume "pvc-c1234a61-1234-4321-1234-12347d4f1234": could not create volume in EC2: NoCredentialProviders: no valid providers in chain caused by: EnvAccessKeyNotFound: failed to find credentials in the environment. SharedCredsLoad: failed to load profile, . EC2RoleRequestError: no EC2 instance role found caused by: RequestError: send request failed caused by: Get "http://111.111.111.111/latest/meta-data/iam/security-credentials/": context deadline exceeded (Client.Timeout exceeded while awaiting headers)

 

 

EKS v1.24 업데이트

 

v1.24 에서는 따로 설정을 변경한 것은 없었지만, PSP(PodSecurityPolicy) 가 v1.25에서는 제거될 예정이라 PSS(PodSecurityStandards) 로 대체할 수 있다. PSS 설치 내용이 너무 길어서; v1.25 언제 쓸지도 모르는데 일단 그때까지 보류하는걸로

https://aws.amazon.com/ko/blogs/containers/implementing-pod-security-standards-in-amazon-eks/

 

Implementing Pod Security Standards in Amazon EKS | Amazon Web Services

Introduction Securely adopting Kubernetes includes preventing unwanted changes to clusters. Unwanted changes can disrupt cluster operations and even compromise cluster integrity. Introducing pods that lack correct security configurations is an example of a

aws.amazon.com

 

 

 

그저 단순 업데이트처럼 보이지만 참으로 살떨리는 작업이었다...ㅋ

 


WRITTEN BY
손가락귀신
정신 못차리면, 벌 받는다.

,