티스토리 뷰
AI 개발을 위해 필요한 H/W , S/W
기업 자체 AI 구축시 고려사항
당연하게도 GPU 필요
순차컴퓨팅 -> CPU
병렬 컴퓨팅 -> GPU
동시에 많은 계산을 하는 연산 방법이 필요하다.
병렬 컴퓨팅은 단순한 계산을 빠르게 수행할 수 있다.
LLM : 병렬컴퓨팅은 동시에 많은 계산을 할 수 있기 때문에 LLM과 같은 생성형 AI는 매우 많은 파라미터를 학습시켜야 하기 때문에 CPU보다 GPU가 훨씬 유리하다.
LLM 추론을 위해 필요한 메모리 요구량 : LLAMA 7B = 168GB 메모리가 필요하다.
NVIDIA H100 = 80GB, NVIDIA H200 - 144GB, AMD MI300 - 192GB
앞으로 점점 더 LLM 모델들의 파라미터 수가 계속 증가할 수록 VGD 메모리가 더 중요해질 것이다.
NVIDIA GPU H100 : NVIDIA의 Hopper 아키텍처 기반 최신 데이터센터 GPU
GPU Server : 데이터센터 GPU를 다수 탑재한 AI 학습 및 추론용서버, Intel & AMD CPU+NVIDIA GPU로 구성
AMD GPU Instinct MI300 : AMD의 CDNA3 아키텍처 기반 최신데이터센터 GPU
그 외에도 IDE 툴, 프로그래밍 언어가 필요하다.
라이브러리, API, GPGPU 기술이 필요하다.
GPU를 활용해서 연산을 할 수 있게 해준다.
CUDA, OpenCL, AMD ROCm
python언어로 nvidia gpu를 사용
python, pytorch, nvidia cuda
hugging face, tensorflow
c++ 언어로 AMD gpu
AMD , ROCm
기업 자체 AI 구축 시 고려사항
우리 회사만의 정보를 기반으로 한 챗봇 서비스
1. 데이터 셋 만들기 - 다양한 데이터 소스를 한테 모은 다음
데이터 정체, 태깅 및 분류 작업 후 새로운 데이터 저장공간에 보관
정제 과정을 거쳐 AI가 학습할 수 있는 상태의 데이터 셋 만들기
2. AI 모델 만들기 - OpenAI GPT API 활용, microsoft azure
3. AI 모델 파인튜닝 하기
자체 데이터셋으로 파인튜닝, OpenAI API 활용 또는 Azure OpenAI studio에서 파인튜닝 가능
4. 챗봇 UI/UX에 파인튜닝 된 AI 모델 적용
기업을 위한 AI 구축 서비스 제공 기업 - 마이크로 소프트 , lg cns, 삼성 sds
자주 발생하는IT 인프라 장애유형 및 대처방안
404 Not Found :
서버 자체는 존재하나, 해당 서버에 클라이언트가 요청한 데이터가 없을 때 나타난다.
일반적으로 호스팅하고 있는 서비스의 DNS 정보가 변경되었는지 확인이 필요하다.
DNS 서버가 변경이 되면, value 값이 변경이 될 수 있다.
그렇기에 기존에 사용하고 있는 도메인 정보가 맞는지 확인해야 한다.
DNS서버가 해당 value라고 했는데, 웹 서버는 바뀌어서 그런것
온프라이스에서는 서버 관리자 메뉴에서 DNS 설정 변경
대처 방안 : 클라우드에서는 IP 설정 관리자 메뉴에서 DNS 설정 변경
503 Service Temporarily Unavailable
서비스를 일시적으로 이용할 수 없습니다.
서버 과부하 상태이다.
부하 분산 시켜주면 된다.
로드밸런서 - 대기열을 만들어준다.
개발자와 인프라 운영자의 효율적인 커뮤니케이션
장애 상황 발생 시 커뮤니케이션 프로세스
고객사 연락
현재 비즈니스 영향도 및 원인파악
대안제시(선 조치)
후속조치 및 장애 보고
후속 대안
※ 이렇게하면큰일나요!
장애 상황 발생시,책임 회피로 오해를 살수있는 언행 절대금지
해당 오류 저희는 잘 모르겠는데요?
그건 따로 알아보셔야해요.
저희 업무는 여기까지입니다. 더 이상은 모르겠어요.
우리 책임이 아니에요.
그건 저도 모르겠는데요?
일단 알아보겠다고 하고, 모르겠으면 그떄 가서 모르겠다고 해라
(이렇게하실것을추천해요)
IT 팀 전체가 정신 없으시겠어요.
그런데 차장님 정말 죄송한데, 오늘 중으로 테스트 못하면 클라이언트에서 컴플레인 걸지도 몰라서요.
바쁘시겠지만, 오늘 중으로만 테스트 서버 배포 가능할까요?
늦게라도 배포해주시면 제가 야근해서라도 테스트는 끝낼게요.
장애 상황 보고
(이렇게 하실 것을 추천해요.)
아, 장애가 그 웹 서버 펌웨어 업데이트하면서 발생한 것 같아요. 최근에 Tomcat 서버 최신 버전에서 업데이트 이후 503 에러 뜨는 사례가 커뮤니티에 자주 올라오더라고요. 그거 제가 회의 끝나고 점검할 테니 펌웨어 업데이트 다 되면 알려주세요. 보안을 위해서라도 최신 버전 업데이트는 필요할 테니까요.
장애 상황 발생 시 해결 방안 도출
장애 시나리오
장애 인지 - 고객사 일부 지점에서 내부 그룹웨어 시스템 접급이 불가하다는 고객사의 장애 상황이 유선을 통해 접수된다.
점검 포인트
① 고객사 담당자와 이슈가 언제인가? (발생 시점이 언제인가?)
② 전사적으로 접속이 안 되는 현상인가? 아니면 특정 지점 또는 특정 사용자만 문제가 되는가? (비즈니스 영향도 파악)
③ 장애 종류는 무엇인가? 시스템 접근만 불가한가? 아니면 다른 기능에도 문제가 있는가?
④ 같은 네트워크 단이라 할 경우, 해당 시스템만 문제가 있는 것인가? 다른 시스템은 문제가 없는가?
⑤ 종합적으로 판단했을 때 지점 <-> 본사간 VPN 연결 구간이 의심됨으로 해당 네트워크 구간의 회선 상태 / 트래픽 / 미인가 작업 여부 / 정전을 포함한 각종 시설 이슈 등을 고려하여 대안 도출
장애를 해결되었다면, 후속 조치를 한다.
장애 해결 보고
2022년 10월 11일 (월) 10:00에 VPN 네트워크 트래픽 폭주로 인한 시스템 접근 불가 원인 확인
2022년 10월 11일 (월) 12:00에 긴급 VPN 회선 대역 폭 확대, 이상 트래픽 유발 사용자의 접근 차단 시행
2022년 10월 11일 (월) 13:00부터 장애 해결 후 시스템 정상화 공지
장애 해결 후 해야할 것
① 고객사에 장애 상황 처리 결과 보고: 장애로 인한 피해 현황, 장애 원인 분석 및 조치 사항, 처리 결과 보고
② 재발 방지 대책 보고: 같은 상황이 다시 발생하지 않기 위해 필요한 대책 보고 - 네트워크 대역폭 증대, 트래픽 관리 방안, 사용자 역할별 접근 제어 방안, 네트워크 상태 모니터링 필요성
③ 통합 관제 서비스 제안: SIEM (Security Information and Event Management)
또 다른 시나리오
2021년 12월 31일 17시 종무식으로 업무가 일찍 종료된 시각. 홍길동 대리로부터 업무에 중요한 일부 파일들이 조회가 안 되며, 파일명과 확장자가 암호처럼 보이는 파일들이 생성되었다고 보고됨.
① 파일 문제인지 다른 (서버나 스토리지) 문제인지 우선 확인 필요
② 언제 최초로 인지하였는지. 현재 파일들 상태 (변경된 현상)가 어떻게 되었는지 확인
③ 해당 서버 OR 스토리지만 나타나는 현상인지. 다른 서버나 스토리지에도 영향이 없는지 확인
④ 백업 파일 상태 확인, 마지막 백업이 언제인지. 백업 파일은 정상인지 확인 필요
⑤ 랜섬웨어가 강하게 의심되는 상황이면 2차 전파 피해가 없도록 해당 서버, 스토리지 최우선 격리 조치
장애 해결 후 해야할 것
① 고객에게 장애 처리 사항 및 원인 분석 결과 보고: 장애 원인 분석, 복구 상황, 피해 상황 등을 실시간으로 보고 및 공유 - 복구 TFT에 고객사 실무자, 책임자 참여
② 원인 분석 및 취약점 해결 방안 보고: 랜섬웨어 감염 경로, 감염 타임라인, 감염 취약점 등을 명확히 확인 및 보고 - 재발 방지 및 취약점 개선을 위한 설득력 있는 보안 강화 방안 제시
③ 문서 중앙화 제안: 파일 암호화, 파일 중앙화, 백업 자동화, 파일 유출 방지