비정형 데이터란?
비정형 데이터는 미리 정의된 방식에 따라 정리되지 않은 정보입니다. 일반적으로는 고유한 내부 구조(예: 이미지 또는 오디오 파일)를 가지고 있습니다. 미리 설정된 구조가 없기 때문에 비정형 데이터는 네이티브 형식으로 저장됩니다.
비정형 데이터의 일반적인 유형에는 텍스트 데이터와 멀티미디어 데이터(또는 리치 데이터)가 있습니다. 비정형 데이터는 수집된 정보의 상당 부분을 차지하며, 디지털 시스템이 생산하는 데이터의 양이 계속 증가함에 따라 그 규모도 커지고 있습니다.
비정형 데이터의 가치는 머신러닝(ML)이나 인공지능(AI)과 같은 고급 분석을 통해 도출되는 인사이트에서 비롯됩니다.
비정형 데이터는 정형 데이터와 관련된 통계나 숫자만으로는 충분히 알 수 없는 훨씬 더 많은 정보를 설명할 수 있습니다.
비정형 데이터와 정형 데이터 비교
비정형 데이터 | 정형 데이터 |
---|---|
비정형 데이터는 트랜잭션 시스템에서 적극적으로 관리되지 않습니다. | 정형 데이터는 관계형 데이터베이스 관리 시스템(RDBMS)과 같은 데이터베이스 환경에서 저장 및 관리됩니다. |
비정형 데이터는 명확하게 정의된 프레임워크나 모델로 구성되지 않습니다. | 정형 데이터는 미리 설정된 매개변수에 따라 행과 열 기반의 프레임워크에 저장됩니다. |
비정형 데이터는 비관계형(NoSQL) 데이터베이스 및 데이터 레이크에 저장됩니다. | 정형 데이터는 데이터 웨어하우스 및 RDBMS와 같은 행과 열 기반(SQL 기반) 데이터베이스에 저장됩니다. |
비정형 데이터는 일반적으로 네이티브 형식으로 저장됩니다. | 정형 데이터는 미리 정의된 형식으로 존재합니다. |
비정형 데이터는 정성적 데이터로, 어떤 일이 발생하는 원인을 설명해 주는 패턴과 추세를 식별합니다. | 정형 데이터는 정량적 데이터로, 무슨 일이 발생하는지를 설명해 주는 패턴과 추세를 식별합니다. |
비정형 데이터는 분석이 어렵고, 머신러닝(ML)이나 자연어 처리(NLP)와 같은 고급 분석 도구가 필요합니다. | 정형 데이터는 스프레드시트와 같은 단순한 도구로 쉽게 분석할 수 있습니다. |
비정형 데이터는 확장 가능성이 높으며, 모든 데이터 유형을 포괄할 수 있습니다. | 정형 데이터는 비정형 데이터보다 확장 가능성이 낮으며, 제한적으로 고정된 데이터 유형을 포함합니다. |
비정형 데이터는 예측 분석을 지원합니다. | 정형 데이터는 통계 분석을 지원합니다. |
비정형 데이터의 예시
비정형 데이터를 넓은 범주로 나누면 리치 미디어(즉, 멀티미디어)와 텍스트 파일이 있습니다. 비정형 데이터의 예시는 다음과 같습니다.
- 고객 피드백
- 이메일
- 지리공간 데이터(예: 지도, 고도 모델, 인구 데이터)
- 이미지(예: JPG, PNG, TIFF)
- 사물 인터넷(IoT) 데이터(예: 센서 데이터, 실시간 스트리밍 데이터, 기기 데이터)
- 온라인 리뷰(예: Google Reviews, Yelp, Consumer Reports)
- 개방형 설문조사 응답
- 위성 이미지
- 서버, 웹사이트, 애플리케이션 로그
- 소셜 미디어 게시물(예: Facebook, X, Instagram, TikTok)
- 음성, 음악 및 기타 음향 녹음(예: MP3, WAV, FLAC)
- 감시 데이터(예: 건강, 보안, 행동 관련 데이터)
- 텍스트 파일(예: doc, pages, RTF, txt)
- 동영상(예: MP4, AVI, MOV)
- 기상 데이터(예: 기온, 풍속, 강수량)
반정형 데이터란?
반정형 데이터는 비정형 데이터와 마찬가지로 미리 정해진 형식이 없습니다. 그러나 비정형 데이터는 내부 카테고리, 메타 태그, 마킹을 포함하고 있어, 비정형 데이터를 그룹, 쌍, 계층으로 구분하고 차별화한다는 점에서 비정형 데이터보다는 다소 구조화되어 있다고 볼 수 있습니다.
두 유형의 데이터의 또다른 유사점으로는 반정형 데이터 역시 관계형 데이터베이스에서 조직될 수 없다는 점이 있습니다. 반정형 데이터 및 관련 데이터 형식의 예시는 다음과 같습니다.
이메일
이메일은 대표적인 비정형 데이터의 예시입니다. 날짜, 발신자, 수신자, 제목과 같은 카테고리로 분류되지만, 본문이나 메시지의 내용은 비정형 데이터에 속합니다. 또한 이메일은 받은 편지함, 보낸 편지함, 휴지통, 스팸, 사용자 지정 폴더 등으로 저장됩니다.
웹 페이지
웹 페이지는 최상위 탐색 및 하위 탐색을 통해 계층적 범주로 구성됩니다(예: 최상위 탐색 ‘회사’, 하위 탐색 ‘소개’, ‘리더십’, ‘채용’). 웹 페이지는 HTML의 느슨한 구조를 사용하여 비정형 데이터를 표시합니다.
HTML
HTML(Hyper Text Markup Language)은 웹 페이지와 같은 데이터를 표시하는 데 사용되는 계층적 언어입니다. HTML의 반정형적 특성은 주석을 사용하여 비정형 데이터(예: 텍스트 및 이미지)를 표시한다는 점입니다.
반정형 문서
CSV, XML, JSON은 반정형 데이터에 일반적으로 사용되는 세 가지 언어입니다.
- CSV(Comma-Separated Values)는 쉼표로 구분된 값의 묶음으로 평문 텍스트를 저장합니다.
- XML(Extensible Markup Language)은 태그로 표시된 요소, 속성, 텍스트로 데이터를 저장합니다.
- JSON(JavaScript Object Notation)은 키-값 쌍으로 구성된 객체 형태로 데이터를 저장하는 텍스트 형식입니다.
소셜 미디어 게시물과 같이 비정형 데이터로 구성된 콘텐츠는 CSV, XML, JSON을 통해 반정형 데이터로 구조화됩니다.
NoSQL 데이터베이스
NoSQL(Not only SQL 또는 Non-SQL) 데이터베이스는 비관계형 데이터베이스로, 반정형 및 비정형 데이터를 저장하는 데 사용됩니다. NoSQL 데이터베이스의 주요 유형에는 문서, 키-값, 와이드 컬럼, 그래프 등이 있습니다.
전자 데이터 교환(EDI)
EDI는 구매 주문서, 재고 정보, 송장과 같이 종이로 된 비즈니스 문서를 사용하는 기존 방식을 전자 문서 전송 시스템으로 대체합니다. 표준 형식(예: NSI, EDIFACT, TRADACOMS, ebXML)은 비정형 데이터를 공유할 수 있는 공통 구조를 제공합니다.
비정형 데이터의 활용 사례
비정형 데이터는 주로 비즈니스 인텔리전스(BI) 및 분석에 사용됩니다. 조직에서 비정형 데이터를 활용하는 예시는 다음과 같습니다.
고객 서비스
비정형 데이터를 분석하여 디지털 및 인적 고객 서비스 상호 작용을 개선할 수 있습니다.
- 상담원이 고객 문의 사항에 더 빠르게 답변을 제공할 수 있도록 지원
- 챗봇 기반 라우팅 개선
- 자주 묻는 질문 파악
인프라 및 제조
인프라를 유지 관리하는 모든 조직은 비정형 데이터(예: 센서 데이터 및 시스템 로그)를 예측 분석에 활용하여 운영을 최적화할 수 있습니다.
- 장비 고장을 사전에 탐지
- 유지 관리가 필요한 영역 식별
- 사이버보안 시스템의 효과성 강화
- 사용 현황 모니터링 및 패턴 파악
- 시스템 충돌 방지
제품 개발
비정형 데이터 분석은 제품 개발에 중요한 인사이트를 제공합니다.
- 제품 및 서비스 개선 방안 탐색
- 향후 제품 관심도 예측
- 시장 동향 파악
- 경쟁사 모니터링
규정 준수
비정형 데이터 분석은 다음과 같은 영역의 규정 준수를 지원합니다.
- 데이터 거버넌스
- 데이터 액세스 정책 시행
- 민감 정보 식별
영업 및 마케팅
소매업체 및 기타 여러 조직은 비정형 데이터를 분석하여 다음을 수행할 수 있습니다.
- 고객 니즈 예측
- 타겟 마케팅
- 고객 만족도 향상
- 구매 동향 파악
- 고객 경험 개선
- 신규 및 기존 고객에게 더 나은 제품 또는 서비스 추천 제공
- 기존 고객 대상 업셀링 프로그램의 적절한 시기 결정
- 제품, 고객 서비스, 브랜드에 대한 고객의 정서 이해
비정형 데이터의 도전 과제
데이터 거버넌스의 어려움
조직은 다음과 같은 비정형 데이터에 대한 데이터 거버넌스 규칙을 시행하는 데 어려움을 겪습니다.
- 액세스 제어
- 암호화 요구 사항
- 개인정보 권리 요청 대응
- 보유 및 삭제 기간
비정형 데이터 활용의 어려움
- 처리하기 전에 기계가 읽을 수 있는 형식으로 변환 필요
- 유용한 정보를 얻으려면 인덱싱과 스키마 필요
사이버 공격에 대한 취약성 증가
- 비정형 데이터는 이질적이며 분산되어 있어 적절한 보호 조치가 부족한 경우가 많음
- 대규모 비정형 데이터는 공격 표면을 확대함
규정 미준수
- 비정형 데이터는 검증되지 않은 상태로 민감 정보를 포함하는 경우가 많음
- 규제되지 않은 데이터는 법적 위험과 규정 미준수 위험을 초래할 수 있음
확장의 어려움
- 비정형 데이터의 크기가 매우 큰 경우 처리할 수 없음
- 비정형 데이터를 저장하는 데 많은 비용이 요구됨
- 방대한 규모의 비정형 데이터에 대한 저장 및 처리 시스템을 유지하는 데 막대한 자원이 필요함
데이터 사일로화
- 비정형 데이터가 여러 위치(예: 채팅, 이메일, 오디오 로그)에 사일로화되어 수집 및 저장됨
- 여러 시스템에 걸쳐 이질적인 형태의 정보로 존재
비정형 데이터의 무궁무진한 가치
비정형 데이터는 비즈니스가 활용할 수 있는 가장 훌륭한 자산입니다. 강력한 도구와 서비스를 활용하면 비정형 데이터에서 얻을 수 있는 인사이트는 사실상 무한합니다. 내부에서 생성된 데이터, 외부 데이터, 그리고 이 둘을 결합한 데이터는 조직이 트렌드를 식별하고 미래 행동을 예측할 수 있게 해주며, 데이터 기반의 전술적 의사결정과 전략적 계획을 수립하는 데 중요한 정보를 제공합니다.