[42 서울/목요특강] 클라우드 Big Data & Machine Learning 기초 by. 김환태 멘토

728x90

03/24

42 서울에서 진행하는 목요특강으로 김환태 멘토님의 클라우드 Big Data & Machine Learning 기초 특강을 듣게 되었습니다. 클라우드에서 빅데이터와 머신러닝 구현에 대한 기본적인 내용들을 구글 클라우드를 기반으로 살펴보고 Q&A 시간을 가진 것에 대해서 기록해보았습니다.

빅데이터

시작 : 구글 파일 시스템 (페이스북, 인스타 등)정보 및 데이터가 엄청 많은 것이 특징이다.
" 분산 병렬 처리 + 통상적인 하드웨어 = 합리적인 비용 "
>> 저렴하게 효율적으로 처리할 수 있는 방법을 찾다가 빅데이터 처리의 기원이 된 것이다. (하둡 == 빅데이터)
- 이전 데이터 처리방식 ~> 최근
- ETL -> ELT
- 필요한 데이터만 추출 후 나머지는 버린다.(비싼 저장공간으로 많이 발생하는 로그 데이터 버리는 것이다.)
- 하둡 등 많은 데이터를 관리할 수 있는 툴이 생겨 적재를 해 놓고 필요할 때마다 관리한다.

하둡의 데이터 처리방식
- 데이터를 쌓아놓고 분석이 필요한 경우 코드를 짠다.
- 이후 추출 변환이 발생하고 그 다음 결과를 반영한다.(코드를 뿌린다.)
- 단점 : 병렬 처리가 안될 경우가 있어 코드를 짜는 게 힘들 수 있다. 분산 병렬 처리 시 치우친 데이터가 있을 경우 시간이 오래 걸린다. 이를 해결하기 위해서는 데이터가 골고루 쌓여있어야 한다. 즉, 성능 튜닝이 필요하고 분산키를 다시 처리해야 한다.

>> 기본적으로 요즘 하둡을 깔고 간다.

구글
데이터 활용을 아직 1프로 밖에 하지 못하고 있다.
빅데이터 첼린지란
물리적 하드웨어 추상화 -> 가상화
유연성으로 클라우드에서 빅데이터 처리가 유용함
- 클라우드로 마이그레이션 하는 방법
- 주요 소스는 스트리밍 데이터!!

클라우드에서 빅데이터를 쓰는 이유?
실시간 스트리밍 데이터가 유용하게 쓰이면서
- 클라우드 이서는 컴퓨팅 부분과 클라우드 부분이 나뉘어있다.
- 로컬 비용보다 저렴하다.
- 유동적으로 필요할 때마다 효율적으로 관리할 수 있다.
- 데이터의 치우침을 완화할 수 있다. (연결 링크를 조정하는 것으로 재분산 가능 ; 효율이 더욱 좋아진다.)
- 빅데이터 처리를 요즘은 대부분 클라우드로 한다.

모빙 데이터 웨어하우스 == 클라우드 데이터 웨어하우스
- 서버 관리를 대부분 하지 않는다(관리 최소화)
- 클라우드 베이스
- 성능과 확장성이 좋다(가상화로)
- 백업 자동화
ex) google cloud, 하둡

! 질문!
1. 기업에서 자체 클라우드를 만든다?
- it system을 가상화시킨다.
- 유지하려면 인프라 관리하고 하드웨어를 관리할 인재가 필요함(상당한 규모가 아니고선 비용 대비 효율이 나오지 않는다)
- 보안 문제를 염려 >  private / public / hybrid cloud 존재
2. it의 최근 동향
- 탈 중앙화, 자동화
- 중앙 집중적인 체제에서는 반응이 느리다 > 권안을 위임하고 탈 중앙 화해서 빠른 대응이 필요 >> MS, 자동화
- 자동화해서 단위업무의 효율을 높인다.
- 본질적인 업무에 집중 >> 클라우드 사용(효율 및 장점이 명확).
3. 금융권에서 클라우드 서비스를 도입
- ex) kb one cloud -> public으로 변경
- 일부 규제 때문에 자체적인 클라우드 서비스를 도입하기 힘든 부분이 있다

머신러닝

초기 : 검색 엔진에 대한 효과적인 노출
>> 한계가 명확, 룰 베이스(업데이트 필요) ~> 머신러닝 사용

머신러닝이란?
기계가 학습을 통해 결과를 도출해 내는 것.
- 클라우드에서 사용할 경우 연산 시간을 줄일 수 있다.
- 피처 데이터에 따라서 퍼포먼스(성능값)의 차이가 있다.

딥러닝이란?
비전형 대이터에 대한 처리
- 1차 가공 후 정형 데이터에 포함시킬 수 있도록 한다.
- 많은 데이터들을 입력시켜서 학습하도록 한다.

! 구글 클라우드 스킬 부스트
! 질문!
1. 분석 시스템의 발전 방향이 예전은 질문 기반 -> 현재 데이터 기반한 의사결정
- 빅데이터 때문에 데이터 기반 의사소통이 좋아졌다고 보기는 어렵다.
- 과거 데이터 축적(데이터 웨어하우스 등), 미래예측 포어 케스팅) 점점 사람의 개입이 줄어들고 있다.
- 어떤 경우에는 액션까지 자동화될 수 있도록
- 의사결정이란 게 굉장히 광범위하다.
- ec) 적정 재고를 예측 -> 이전 판매량을 기준으로 매입의사 결정
- automation 이 추세이다.

728x90

저작자표시 비영리 변경금지 (새창열림)

'42 SEOUL' 카테고리의 다른 글

[42 서울] 자가진단 후기 (0)	2022.03.24

ㅃㄴㅇㅅㅅㅎㅇㅅ

[42 서울/목요특강] 클라우드 Big Data & Machine Learning 기초 by. 김환태 멘토

빅데이터

머신러닝

'42 SEOUL' 카테고리의 다른 글

댓글

티스토리툴바

[42 서울/목요특강] 클라우드 Big Data & Machine Learning 기초 by. 김환태 멘토

빅데이터

머신러닝

'42 SEOUL' 카테고리의 다른 글

관련글

댓글

티스토리툴바