네이버 부스트캠프 AI Tech/Data Visualization
[부스트캠프 AI Tech] Interactive visualization & 비정형 데이터셋 viz
중앙백
2022. 2. 17. 15:12
Interactive Visualization
- Why Interactive visualization?
예를들어 10개의 feature를 정적 시각화로 분석하려면 45개의 plot이 필요 → 공간적 낭비 큼 - Interactive 종류
Select : mark sth as interesting
Explore : show me sth else
Reconfigure : show me a different arrangement
Encode : show me a different representation
Abstract : show me more or less detail
Filter : show me sth conditionally
Connect : show me related items - 대표 라이브러리 : Potly / Bokeh / Altair
Interactive Viz Library
- Matplotlib
- 인터렉티브를 제공하지만 주피터 노트북 / Local 에서만 실행 가능
- mpld3를 사용하면 웹에서 D3-based Viewer 제공 - Plotly
- 가장 많이 사용됨
- 예시 + 문서화 Good !
- 통계 / 지리 / 3D / 금융 등 다양한 시각화 기능 제공
- Js 시각화 라이브러리 D3js를 기반으로 만들어져 웹에서 사용 가능 - Plotly Express
- Plotly의 단순화 버전이면서 seaborn과 유사하게 만들어 쉬운 문법
- 커스텀 부분 부족하지만 다양한 함수 제공
- scatter, line, bar, hist, kdeplot, boxplot, violinplot, stripplot, heatmap, pairplot, sunburst, treemap. scatter_3d, parallel_coordinates, parallel_categories, scatter_geo, choropleth.. - Bokeh
- Matplotlib과 유사한 문법
- 기본 테마가 Plotly에 비해 깔끔
- 문서화 bad - Altair
- Vega 라이브러리를 사용해 만든 인터렉티브
- 시각화를 + 연산 등으로 배치하는 특징
- 데이터 크기에 5000개 제한
- Bar, Line, Scatter, Histogram에 특화
비정형 데이터셋에 사용할 수 있는 EDA & Visualization
- dataset meta data visualization
- dataset listup
- visual analytics
- train/inference visualization
- etc
EDA(Exploratory Data Analysis, 탐색적 데이터 분석)