정형 데이터와 비정형 데이터를 간단히 살펴보면, 비교 정형 데이터는 고도로 조직화되고 형식화되어 있어 검색과 분석이 용이하며, 비정형 데이터는 미리 정의된 형식이나 구조가 없어 검색과 분석이 더 어렵습니다.
x 대 y 구도인 많은 경우와 달리, 정형 데이터와 비정형 데이터는 선택의 문제가 아닙니다. 데이터는 단지 두 가지 유형 중 하나일 뿐입니다.
또한, 정형 데이터와 비정형 데이터의 장단점은 사용자가 어떤 종류의 데이터를 사용할지 결정하게 해주는 요인을 의미하지 않습니다. 오히려 각 데이터 유형의 이점과 한계를 사용자가 이해하고 데이터를 최적으로 활용할 수 있도록 돕습니다.
정형 데이터란?
정형 데이터는 고도로 조직화된 정량적인 데이터입니다. 일반적으로 데이터베이스나 스프레드시트의 행과 열에 맞는 지정된 형식을 따르며, 데이터 웨어하우스에 저장되기도 합니다.
정형 데이터는 사람이 생성한 질의를 통해 쉽게 관리하고 검색할 수 있으므로 비즈니스 사용자와 개인에게 가장 널리 사용됩니다. 자동화된 분석 방법과 머신러닝(ML) 알고리즘도 정형 데이터를 검색하는 데 활용될 수 있습니다.
정형 데이터의 예시
- 고객 관계 관리(CRM) 데이터, 고객 거래 기록, 데이터베이스, 재무 기록, 재고 기록, 판매 시점 시스템 데이터, 가격 세부 정보, 제품 카탈로그, 예약 시스템 데이터, 웹 양식 데이터 등 비즈니스 정보
- Apple Numbers 및 Pages, Google Docs 및 Sheets, Microsoft Office Word 및 Excel 파일 등 애플리케이션에서 생성된 파일
- 진료 후 요약지, DNA, 건강 기록, X-ray 및 스캔 결과, 기타 검사 결과 등 의료 정보
- 파일 및 메시지의 메타데이터
- 주소, 은행 거래 기록, 연락처 기록, 날짜, 주문 정보, 시간 등 텍스트와 숫자
정형 데이터의 장단점
정형 데이터 또는 비정형 데이터의 사용을 고려할 때는 정형 데이터의 장단점을 이해하는 것이 중요합니다.
정형 데이터의 장점 | 정형 데이터의 단점 |
---|---|
-데이터 관련 주제를 이해하는 초급 수준 사용자를 비롯한 모든 기술 수준의 사용자가 이용 가능 | -데이터를 정렬, 관리, 검색하기 위해 생성, 삽입, 선택하려면 데이터 정의 언어(DDL) 명령 필요 |
정형 데이터 도구
저장소는 매우 중요한 도구이며, 사용할 수 있는 저장소의 유형은 데이터가 정형인지 비정형인지에 따라 달라집니다. 정형 데이터의 주요 저장소 유형은 다음과 같습니다.
- 스프레드시트
정형 데이터의 가장 기본적인 저장 유형은 스프레드시트입니다. 스프레드시트는 데이터를 연결, 검색, 조작, 관리하는 데 사용됩니다. 스프레드시트 솔루션으로는 Microsoft Excel, Apple Numbers, Google Sheets 등이 있습니다. - 관계형 데이터베이스 관리 시스템(RDBMS)
관계형 데이터베이스는 정형 데이터를 수집하고 미리 정의된 관계에 따라 정리합니다. 데이터는 열과 행으로 구성된 하나 이상의 테이블(“관계”)에 저장되며, 여기서 관계는 서로 다른 테이블 간의 연결을 의미합니다.
관계형 데이터베이스 관리 시스템으로는 IBM DB2, Microsoft SQL Server, MySQL, PostgreSQL, Oracle Database 등이 있습니다. - 데이터 웨어하우스
데이터 웨어하우스는 비즈니스 인텔리전스(BI) 및 심층적인 데이터 분석을 위해 특별히 설계된 관계형 데이터베이스 관리 시스템의 한 유형입니다. 데이터 웨어하우스 솔루션의 예로는 Amazon Redshift, Azure Synapse Analytics(이전 명칭: Microsoft Azure SQL Data Warehouse), Google BigQuery, Snowflake가 있습니다.
도구는 저장소에서 데이터를 검색하고, 분석을 수행하며, 보고서를 제공하는 데 사용됩니다. 이러한 도구의 기능은 다음과 같습니다.
- 데이터 마이닝
- 데이터 분석
- 비즈니스 인텔리전스
추가로, 정형 데이터를 다루는 데 사용되는 관리 도구는 다음과 같습니다.
- 정형 데이터를 실행, 테스트, 관리하고 업데이트를 지원하는 스키마 리소스 및 관리 도구
- 기본 정형 데이터를 생성하는 데 사용되는 정형 데이터 도구
- 다양한 정형 데이터 유형을 디버깅하고 정형 데이터가 의도대로 정확히 표현되는지 확인하는 스키마 검증 도구
정형 데이터 사용 사례
정형 데이터 사용 사례는 매우 다양합니다. 몇 가지 예시는 다음과 같습니다.
- 은행 정보(예: 금융 거래 및 계좌 정보)
- 고객 관계 관리(CRM) 데이터(예: 고객 프로필, 잠재 고객 정보, 판매 데이터)
- 고객 리뷰
- 배달 앱(예: 식료품 및 음식점)
- 전자상거래 사이트 정보(예: 제품 설명, 가격 데이터, SKU 번호)
- 전자 승차 공유 시스템
- 의료 정보(예: 처방전, 환자 데이터, 검사 결과, 진료 기록)
- 예약 시스템(예: 호텔 및 항공사)
비정형 데이터란?
비정형 데이터는 지정된 형식을 따르지 않는 원시적이고 정성적인 정보이며, 존재하는 데이터의 대부분을 차지합니다.
비정형 데이터는 이미지, 동영상, 문자 메시지, 음성 녹음 등으로 표현됩니다. 표준화된 형식이 없기 때문에 비관계형 또는 NoSQL 데이터베이스, 데이터 레이크에 저장됩니다.
비정형 데이터는 처리하기 어려울 수 있지만, 인사이트의 보고라 할 수 있습니다.
비정형 데이터는 집계 및 분석을 통해 미래 행동이나 결과에 대한 예측, 사용자의 정서 등 풍부하고 복잡한 인사이트를 제공할 수 있습니다.
비정형 데이터의 예시
- 모바일 활동, 소셜 미디어 게시물, 위성 이미지, 감시 영상, 지리공간 데이터, 금융 시세 데이터, 날씨 정보 등 기기 및 앱에서 파생된 데이터
- 송장, 기록, 웹 사용 기록, 이메일, 음성 및 문자 메시지, 동영상, 사진 등의 문서
- 오디오 파일, 이미지 파일, 텍스트, 동영상 파일 등의 파일 유형
비정형 데이터의 장단점
정형 데이터 또는 비정형 데이터의 사용을 고려할 때는, 비정형 데이터의 장단점을 이해하는 것이 중요합니다.
비정형 데이터의 장점 | 비정형 데이터의 단점 |
---|---|
-데이터 관리 비용을 최소화하면서 공유 클라우드 또는 하이브리드 클라우드 서버에 저장 가능 | -파악하기 어려울 수 있음 |
비정형 데이터 도구
정형 데이터와 비정형 데이터는 저장 방식이 다릅니다. 비정형 데이터는 비관계형 데이터베이스(예: NoSQL 또는 Hadoop)에 저장됩니다.
비정형 데이터의 경우, 데이터 웨어하우스는 데이터 레이크로 대체됩니다. 데이터 레이크는 스키마나 변환 없이 비정형 데이터를 원시 형태로 저장할 수 있는 중앙 집중식 저장소입니다. 데이터 레이크 솔루션의 예로는 Amazon Web Services의 AWS Data Lake, Cloudera SDX의 Data Lake Service, Databricks Lakehouse Platform, Google Cloud Data Lake, Microsoft Data Lake가 있습니다.
비정형 데이터에서 인사이트를 분석하고 제공하는 데 도움이 되는 도구의 예시는 다음과 같습니다.
- 분석 결과를 보여주는 시각화 도구(예: MongoDB Charts)
- 실시간 분석을 가능하게 하는 고속 처리 지원 도구(예: Apache Spark)
- 데이터 정제, 변환 및 추출 도구(예: MapReduce, Pig)
- 셀프 서비스 비즈니스 인텔리전스 도구(예: Domo, Microsoft Power BI, Tableau)
비정형 데이터 사용 사례
챗봇 최적화
고객과의 상호 작용 데이터를 분석하고 이를 지침으로 변환하여 챗봇이 요청에 더 효과적으로 대응하도록 지원합니다.
이미지 및 음성 분류
딥러닝을 사용하여 이미지와 음성 분류를 수행합니다. 예를 들어, 모터의 소리를 사용하여 고장 직전의 모터를 감지하도록 모델을 훈련시켜 사전 예방적인 유지 관리를 수행할 수 있습니다. 이미지 분류는 방사선학, 마케팅, 경쟁사 리서치 등 여러 분야에서 다양하게 활용됩니다.
비정형 데이터를 정형 데이터로 변환
자연어 처리(NLP)와 머신러닝을 활용한 텍스트 분석을 통해 비정형 데이터에 구조를 부여할 수 있습니다.
고객 인사이트
온라인 소매업체 웹사이트에서 수집한 클릭 데이터, 채팅, 이메일 등 비정형 데이터 세트에 데이터 마이닝을 적용하면 고객의 구매 습관과 시기, 구매 패턴, 특정 제품에 대한 정서를 파악할 수 있습니다.
예측 유지 관리
산업 기계의 비정형 센서 데이터를 예측 분석에 활용할 수 있습니다. 그 결과, 조직은 문제가 발생하기 전에 사전 유지 관리 조치를 취해 많은 비용이 수반되는 고장을 예방할 수 있습니다.
정형 데이터와 비정형 데이터 비교
정형 데이터 | 비정형 데이터 |
---|---|
정형 데이터 분석 방법: | 비정형 데이터 분석 방법: |
정형 데이터를 처리하는 역할: | 비정형 데이터를 처리하는 역할: |
정형 데이터 소스: | 비정형 데이터 소스: |
정형 데이터의 특성: | 비정형 데이터의 특성: |
정형 데이터 저장 방식: | 비정형 데이터 저장 방식: |
정형 데이터 사용 시: | 비정형 데이터 사용 시: |
정형 데이터와 비정형 데이터 최대한 활용하기
비정형 데이터가 폭발적으로 증가하기 시작했을 때, 조직은 비정형 데이터가 가치 있는 자산임을 인식했지만 이를 활용할 수 있는 도구가 충분하지 않았습니다. 이제 기술 발전으로 상황이 달라지면서 정형 데이터와 비정형 데이터 모두에 대한 접근 가능성과·활용은 더 이상 문제가 되지 않게 되었습니다.
정형 데이터 또는 비정형 데이터의 사용을 고려할 때 중요한 것은 두 유형의 데이터를 비교하기보다 CIA 3원칙 즉, 데이터의 기밀성, 무결성, 가용성을 지원하는지 여부를 고려하는 데 두어야 합니다. 이렇게 하면 조직은 데이터에서 최대한의 가치를 도출해 낼 수 있으며, 이를 보호할 수 있는 시스템도 함께 갖출 수 있습니다.