반응형

분류 전체보기 68

DMS Task를 Lambda + EventBridge로 스케줄링하기

회사에서 DMS Task를 매일 정해진 시간에 자동으로 시작/중지하려고 했다. 수동으로 관리하기에는 번거로워서 EventBridge와 Lambda를 활용한 자동화를 구현해봤다.🎯 목표기존에 구성된 DMS Task를 매일 밤 1시에 시작하고, 새벽 3시에 중지하는 자동화를 만들려고 했다.⚙️ Lambda 함수 구현1. DMS Task 시작 함수import boto3import jsonimport osdef lambda_handler(event, context): dms_client = boto3.client('dms') # 환경변수에서 Task ARN 가져오기 task_arn = os.environ['DMS_TASK_ARN'] try: response = ..

카테고리 없음 2025.09.04

AWS ML용 EC2 용량 블록 예약 정리

들어가며그동안 AWS에서 온디맨드 용량 예약만 쓰고 있었는데, 최근에 ML용 EC2 용량 블록 예약이라는 게 새로 생긴 것 같아서 정리할 겸 글을 써본다.기존에 쓰던 온디맨드 예약과 뭐가 다른지, 언제 써야 할지 궁금해서 찾아보니 꽤 흥미로운 내용들이 있었다.🤔 왜 굳이 ML 전용으로 따로 만들었을까?기존 온디맨드 용량 예약의 아쉬운 점들지금까지 쓰던 온디맨드 용량 예약은 이런 특징이 있다:예약하면 바로 쓸 수 있음언제든 취소 가능안 써도 시간당 요금 나감근데 ML 작업을 하다 보니 이런 문제들이 있더라:GPU 인스턴스 구하기가 어려움: P4, P5 같은 고급 GPU는 항상 부족함비용이 너무 비쌈: 몇 주씩 돌려야 하는데 온디맨드 가격으로는 부담스러움미리 계획이 필요함: ML 프로젝트는 보통 언제 시작..

카테고리 없음 2025.08.19

AWS DMS를 이용한 데이터베이스 마이그레이션 워크샵 정리

이 문서는 AWS Database Migration Service(DMS)를 사용하여 MySQL 데이터베이스를 마이그레이션하는 단계별 가이드입니다.전체 구성 개요이 워크샵에서는 AWS DMS를 사용하여 온프레미스 MySQL 데이터베이스를 Amazon RDS MySQL로 마이그레이션합니다. 마이그레이션은 연속 데이터 복제(CDC: Change Data Capture) 방식으로 진행되어 최소한의 다운타임을 보장합니다.1단계: 네트워크 설정보안 그룹 구성DMS 복제 인스턴스용 보안 그룹 생성:이름: RI-SG설명: DMS 복제 인스턴스용 보안 그룹VPC: TargetVPC인바운드 규칙: 없음 (기본값 유지)아웃바운드 규칙: 모든 트래픽 허용RDS 타겟 데이터베이스용 보안 그룹 생성:이름: DB-SG설명: RD..

카테고리 없음 2025.08.11

업스테이지(Upstage) for Enterprise 소개자료 정리

업스테이지 소개자료 2025년 6월 버전을 받아서 정리할 겸 작성하게 되었다.🚀 업스테이지는 어떤 회사인가?업스테이지는 불과 몇 년 만에 글로벌 기업들의 핵심 AI 인프라 제공업체로 성장한 한국의 스타트업입니다. 2020년 설립된 이후 눈부신 성장을 이어가고 있죠.성장 히스토리:2020년: 회사 설립2021년: 시리즈 A 투자 유치 (2,200만 달러)2022년: Document AI 출시2023년: 매출 140만 달러 달성2024년: 시리즈 B 투자 유치 (7,200만 달러), Solar LLM 출시, 매출 2,000만 달러 돌파현재 포춘 500대 기업들을 위해 매일 300만 개 이상의 문서를 처리하고 있으며, 100명 이상의 엔지니어들이 최대 700개의 AI 모델을 훈련하고 서비스하고 있습니다.🏆..

카테고리 없음 2025.08.06

ec2 종료 트리거로 AMI 만들기(Lambda, EventBridge, SNS)

EC2 인스턴스를 예약 종료하는 스케줄링을 걸어두고 나면, 혹시나 모를 상황을 대비해서 해당 시점의 AMI를 만들어놓고 싶을 때가 있다.예를 들면 리전 용량(capacity) 이 부족해서, 다른 리전이나 AZ로 이사를 가야 할 가능성이 있는 상황이다.이럴 땐 EC2를 정지시키기 전에 AMI를 생성해두는 게 좋다. 왜냐하면 동일한 환경으로 다시 인스턴스를 띄워야 하기 때문이다.AMI와 EC2의 차이: 리전 기반 vs AZ 기반먼저 이걸 이해하고 가자.EC2 인스턴스는 AZ(가용 영역) 단위로 생성된다.반면에 **AMI(아마존 머신 이미지)**는 리전 단위로 존재한다.즉, AMI를 하나 만들어두면, 그 리전 내의 어떤 AZ에서도 인스턴스를 복원할 수 있다.하지만 만약 리전 자체가 안 되는 상황이라면? → A..

AWS 2025.08.05

NVIDIA A100 "RmInitAdapter failed" 에러와 PCI 디바이스 리셋

문제 상황AWS EC2에서 A100 GPU 8장을 사용하는 인스턴스를 띄웠는데, nvidia-smi로 확인해보니 7장만 잡히는 상황이 발생했다. 분명히 8장짜리 인스턴스를 요청했는데 하나가 빠져있었다.# nvidia-smi(base) [ec2-user@{instance-id} ~]$ sudo nvidia-smiMon --- - --:--:-- 2025+-----------------------------------------------------------------------------------------+| NVIDIA-SMI 570.133.20 Driver Version: 570.133.20 CUDA Version: 12.8 ||-----------------..

AWS 2025.08.04

AWS Nuke로 모든 리소스 한 번에 정리하기

AWS 계정을 사용하다 보면 테스트용으로 만든 리소스들이나 불필요한 서비스들이 쌓이게 된다. 이런 리소스들을 하나하나 찾아서 삭제하는 것은 정말 번거로운 일이다. 이럴 때 AWS Nuke를 사용하면 모든 리소스를 한 번에 깔끔하게 정리할 수 있다!AWS Nuke 다운로드먼저 AWS Nuke를 다운로드 받아야 한다. GitHub 릴리즈 페이지에서 최신 버전을 받을 수 있다.다운로드 링크: https://github.com/rebuy-de/aws-nuke/releases운영체제에 맞는 바이너리를 다운로드 받고 PATH에 추가해주면 된다.1. AWS Nuke 설정 파일 준비먼저 config.yml 파일을 작성해야 한다. KMS 같은 경우는 삭제가 불가능하거나 위험할 수 있어서 resource-types의 ex..

AWS 2025.08.01

AWS Systems Manager(SSM) EC2 자동 시작/중지 스케줄링

p4de.24xlarge와 같은 고가의 EC2 인스턴스를 사용할 경우, 항상 켜두는 방식은 비용 부담이 클 수 있다. 그래서 실제 사용 시간 외에는 꺼두고, 필요할 때만 자동으로 시작하는 방식으로 스케줄링을 구성해 비용을 절감하려 한다.이를 위해 AWS Systems Manager(SSM)의 유지관리 기간(maintenance window) 기능을 활용해 자동 시작/중지 작업을 등록하는 방법을 정리해보려 한다.✅ 사전 조건자동화가 제대로 작동하려면 몇 가지 전제 조건이 필요하다:EC2 인스턴스에 SSM Agent가 설치되어 있어야 한다.SSM Agent가 AWS와 통신할 수 있도록 인터넷 또는 VPC 엔드포인트가 구성되어 있어야 한다.EC2에 적절한 IAM 역할이 연결되어 있어야 한다.1. EC2에 IA..

AWS 2025.07.30

AWS KMS 키 접근 권한 상실 후 복구 경험기

🧩 문제 발생 배경필자가 속한 팀에서는 AWS KMS(Key Management Service)를 활용하여 중요 데이터를 암호화하고 있었다. 그런데 최근 교육생이 실습 도중, 실수로 KMS 키를 생성했던 IAM 사용자 계정을 삭제하는 일이 발생하였다. 이로 인해 해당 KMS 키에 대한 정책 수정 권한과 관리 권한을 모두 상실하게 되었다.❌ 확인된 문제KMS 키의 정책을 수정할 수 없음콘솔에서 키 정책 편집 버튼 비활성화kms:PutKeyPolicy, kms:ScheduleKeyDeletion 등 관리 작업 시 AccessDeniedException 발생복호화 요청은 정상 처리되나, 키 자체의 제어는 불가능한 상태🔎 원인 분석AWS KMS는 IAM 정책 외에도 Key Policy라는 별도의 권한 관리 ..

AWS 2025.07.21

AWS Client VPN Endpoint 생성 및 트러블슈팅

AWS Client VPN을 사용하여 원격에서 VPC 내 리소스에 접근하는 환경을 구축하던 중 겪었던 문제와 해결 과정을 정리해보겠습니다. 특히 보안 그룹 설정에서 많은 분들이 겪는 흔한 실수와 해결 방법을 다루겠습니다.🏗️ 초기 구성Client VPN Endpoint 기본 설정Client CIDR: 30.x.x.x/16대상 네트워크: Public Subnet 중 1개 선택권한 부여: 0.0.0.0/0 (모든 IP 허용)분할 터널: 활성화 (인터넷 트래픽 우회 가능)DNS 서버: VPC CIDR의 두 번째 IP (예: 10.0.0.2)IAM 역할 및 인증 설정Client VPN을 위한 적절한 IAM 역할을 생성하고 연결했습니다. 이 부분은 일반적으로 문제가 되지 않는 부분입니다.🚨 문제 발생: Pri..

카테고리 없음 2025.07.10
반응형