본문 바로가기
프로그래밍/Spark&Hadoop 공부

1) 빅데이터란?

by Mr.noobiest 2022. 6. 29.

과거에는 하드웨어적인 성능이 부족하여 데이터를 직접적으로 활용하는 집단은 특정 연구 집단이나 군사 집단등 국가에서 지원하지않으면 안될정도의 집단외에는 사용이 불가 하는등 제한사항이  많았다.

 

하지만 시대가 바뀌면서 IOT/인터넷/SNS등 수많은 데이터들이 범람하게  되었고, 각 기업에서는 "데이터에서 유의미한 지표 분석"이 가능하다는것을 알게된것이다.

 

1) 데이터 저장기술의 폭발적인 발전

2) 데이터 처리 기술의 발달

3) 데이터 생산 주체의 다양화(SNS / 연구 데이터 / 기후 정보 등)

 

 

 

빅데이터의 특징은 초기에는 3V(Volumn / Variety / Velocity)로 정의되었고, 5V를  거쳐 최근에는 7V라고 정의되고  있다.

 

3V

1) Volumn(규모) - 일반적인 데이터보다 압도적으로 많은  물리적 데이터량

2) Variety(다양성) - 정형/비정형/반정형과 같이 다양한 데이터를 수용가능

3) Velocity(속도) - 데이터 처리기술 발달로 빠르게 처리/분석이 가능하다.

 

5V

3V +

1) Veracity(진실성) - 데이터가 커지면서 일정한 패턴이 발생하는데, 해당 패턴을 벗어나는 데이터가 오류나 노이즈가 아닌 데이터의 특징이라고 할 수 있을정도로 데이터의 신뢰성, 타당성이 높아야 한다.(엉터리로 입력된 데이터는 쓰레기 데이터이므로 빅데이터라고 할 수 없다)

 

2) Value(가치) - 빅데이터를 분석함으로써 결론적으로는 유용한 가치 도출이 가능해야한다, 즉 아무 데이터나 사용하는게 아닌 가치 유도가 가능한  데이터만을 활용할 수 있어야한다.

 

7V

1) Validity(정확성) - Veracity(진실성)과 비슷한 개념이나 ,Veracity는 노이즈/바이어스와 같은 "이상치로 인한 잘못된 결론"을 방지하고, Validity는 데이터가 정확하지  않다면 아무리 데이터가 많아도 쓸모가 없는것이다(강아지 / 고양이를 구분하는 데이터인데 실제로는  반대로 라벨링이 되어있다면 Validity(정확성) 오류이다.

 

2) Volatility(휘발성) - 빅데이터는 단기적 활용보다 장기적 활용을 위해 저장되는 방식이 중요하다. 시간이 바뀌면서 기존에 사용중이던 데이터가 의미가 없어질수도 있고, 변경될수도 있다.

 

 

 

 

데이터의 형태

 

-정형

 데이터 베이스 , CSV , Excel과 같이 컬럼단위의 명확한 구분자와 형태가 정해진 데이터

 

-반정형

 XML,HTML , JSON형태와 같이 여러가지 형태가 있으나, 메타데이터나 스키마가 존재하는 데이터

 

-  비정형

  동영상, SNS 메시지 , 사진 , 오디오 , 음성 데이터와 같이 형태가 존재하지 않은 데이터

 

 

 

데이터의 수집 시간

배치 - 특정 시간 / 주기를 기준으로 수집,처리,업데이트 되는 데이터

실시간 - 실시간 검색어,실시간  차트 처럼 사용자의 입력과 동시에 처리되는 데이터


사실 제일 중요한것은 데이터가 사용되는 현장의 소리를 파악하는것이 제일 중요하다.

 

 

해당 이미지는 2차 세계대전 당시 폭격기들이 대공포나 적 전투기에 의해 손상을 가장 많이 받은 부분을 표시한 그림이다,

당시 정비사들은 피탄된 부분을 방호하기 위하여 철판을 덧대었으나 생존률은 높아지지 않았다,

이유는 간단하였다.

"표시된 부분이 아닌곳에 손상이 발생하면 기지에 돌아올수 없는 것이다."

즉, 데이터가 없는곳(==피탄 표시가 안된곳)의 방호력을 높여야 하는 것이다.

이를 "생존자 편향의 오류" 라고 한다.

 

이처럼 같은 데이터라도 어떻게 분석하냐에 따라 쓸모있는 데이터인지 쓸모없는 데이터인지가 결정되는 것이다.  

하물며 수만 수억행의 빅데이터를 분석할때에는 더욱 분석 방법과 도출하고자 하는 목표를 명확하게 정해야 한다.

 

728x90
반응형