네이버 부스트캠프 AI Tech/Data Visualization

[부스트캠프 AI Tech] Interactive visualization & 비정형 데이터셋 viz

중앙백 2022. 2. 17. 15:12

Interactive Visualization

  • Why Interactive visualization?
    예를들어 10개의 feature를 정적 시각화로 분석하려면 45개의 plot이 필요 → 공간적 낭비 큼
  • Interactive 종류
    Select : mark sth as interesting
    Explore : show me sth else
    Reconfigure : show me a different arrangement
    Encode : show me a different representation
    Abstract : show me more or less detail
    Filter : show me sth conditionally
    Connect : show me related items
  • 대표 라이브러리 : Potly / Bokeh / Altair

Interactive Viz Library
  1. Matplotlib
    - 인터렉티브를 제공하지만 주피터 노트북 / Local 에서만 실행 가능
    - mpld3를 사용하면 웹에서 D3-based Viewer 제공
  2. Plotly
    - 가장 많이 사용됨
    - 예시 + 문서화 Good !
    - 통계 / 지리 / 3D / 금융 등 다양한 시각화 기능 제공
    - Js 시각화 라이브러리 D3js를 기반으로 만들어져 웹에서 사용 가능
  3. Plotly Express
    - Plotly의 단순화 버전이면서 seaborn과 유사하게 만들어 쉬운 문법
    - 커스텀 부분 부족하지만 다양한 함수 제공
    - scatter, line, bar, hist, kdeplot, boxplot, violinplot, stripplot, heatmap, pairplot, sunburst, treemap. scatter_3d, parallel_coordinates, parallel_categories, scatter_geo, choropleth..
  4. Bokeh
    - Matplotlib과 유사한 문법
    - 기본 테마가 Plotly에 비해 깔끔
    - 문서화 bad
  5. Altair
    - Vega 라이브러리를 사용해 만든 인터렉티브
    - 시각화를 + 연산 등으로 배치하는 특징
    - 데이터 크기에 5000개 제한
    - Bar, Line, Scatter, Histogram에 특화

 

 

비정형 데이터셋에 사용할 수 있는 EDA & Visualization

  1. dataset meta data visualization
  2. dataset listup
  3. visual analytics
  4. train/inference visualization
  5. etc

EDA(Exploratory Data Analysis, 탐색적 데이터 분석)

Image Data