1. 데이터 분석
1-1. 데이터 과학
1-1-1. 데이터란
💡
- 이론을 세우는 데 기초가 되는 사실 또는 자료
- [컴퓨터] 프로그램을 운용할 수 있는 형태로 기호화 또는 숫자화한 자료
(출처 : Oxford Languages)
1-1-2. 데이터의 종류
- 정형 데이터
- 고정된 구조를 가진 데이터로, 일반적으로 행과 열로 구성된 표 형태로 저장된다.
- 예시 : 관계형 데이터베이스, 스프레드시트 파일(Excel, CSV 등)
- 비정형 데이터
- 고정된 구조가 없는 데이터로, 다양한 형태와 형식을 가진다.
- 예시 : 텍스트, 멀티미디어(이미지, 동영상, 오디오 등)
1-1-3. 데이터 과학이란
💡
데이터 과학은 비즈니스에 대한 의미 있는 인사이트를 추출하기 위한 데이터 연구로서, 수학, 통계, 인공 지능 및 컴퓨터 공학 분야의 원칙과 사례를 결합하여 대량의 데이터를 분석하는 종합적인 접근 방식이다.
(출처 : AWS)
- 데이터는 단순히 숫자나 사실을 담은 자료를 말하고, 정보는 그 데이터를 데이터 과학을 통하여 분석하고 해석하여 유용한 지식이나 의미 있는 결과를 도출한 것이다.
1-2. 데이터 분석 개요
1-2-1. 데이터 분석이란
💡
데이터 분석은 원시 데이터를 실행 가능한 인사이트로 변환한다. 여기에는 데이터를 사용해 추세를 찾아서 문제를 해결하는 데 사용되는 도구, 기술, 프로세스가 포함된다.
데이터 분석을 통해 비즈니스 프로세스를 구성하고, 의사 결정을 개선하며, 비즈니스 성장을 증진할 수 있다.
(출처 : AWS)
1-2-2. 데이터 분석의 중요성
💡
- 데이터 분석을 통해 기업은 프로세스와 서비스에 대한 가시성을 높이고 더 깊이 이해할 수 있다.
- 고객 경험과 고객 문제에 대한 상세한 인사이트를 제공한다.
- 인사이트를 행동으로 연결하기 위해 데이터를 넘어 패러다임을 전환함으로써 기업은 개인화된 고객 경험을 만들고 관련 디지털 제품을 구축하고 운영을 최적화하고 직원 생산성을 높일 수 있다.
(출처 : AWS)
- 데이터에 기반하여 과학적이고 객관적인 의사 결정을 할 수 있다.
- 시장 트렌드를 빠르게 파악하고 대응할 수 있고 효율성 및 생산성을 향상시킴으로써 비즈니스 경쟁력을 강화할 수 있다.
- 고객 인사이트 발굴을 통해 혁신적인 제품과 서비스를 개발하여 새로운 비즈니스 기회를 창출할 수 있다.
- 실시간 모니터링과 위험 예측을 통해 잠재적 위험을 관리하고 이에 사전 대응할 수 있다.
1-2-3. 데이터 분석의 활용 분야
활용 분야 설명
| 비즈니스 인텔리전스 | 기업의 의사 결정 지원, 운영 효율성 향상, 시장 트렌드 분석 등을 통해 경쟁력 강화 |
| 마케팅 | 고객 세분화, 개인화된 마케팅 전략 수립, 캠페인 효과 측정 등을 통해 마케팅 효율성 증대 |
| 금융 | 신용 위험 평가, 사기 거래 탐지, 투자 포트폴리오 최적화 등을 통해 금융 서비스의 안정성과 수익성 향상 |
| 의료 및 보건 | 환자 데이터 분석, 질병 예측 모델 개발, 맞춤형 치료법 제시 등을 통해 의료 서비스 개선 및 공중 보건 향상 |
| 제조 및 생산 관리 | 생산 공정 최적화, 예측 유지 보수, 품질 관리 등을 통해 생산성 향상과 비용 절감 실현 |
| 소매 및 전자상거래 | 재고 관리 최적화, 고객 행동 분석, 추천 시스템 구축 등을 통해 매출 증대와 고객 만족도 향상 |
| 교통 및 물류 | 교통 패턴 분석, 최적 경로 계획, 수요 예측 등을 통해 운송 효율성 향상과 교통 혼잡 완화 |
| 정부 및 공공 서비스 | 공공 정책 수립 지원, 사회 현상 분석, 재난 대응 개선 등을 통해 국민 복지와 안전 증진 |
| 통신 | 네트워크 트래픽 분석, 고객 이탈 예측, 서비스 품질 관리 등을 통해 통신 서비스의 안정성과 고객 만족도 향상 |
| 에너지 및 환경 | 에너지 소비 패턴 분석, 신재생 에너지 최적화, 환경 영향 평가 등을 통해 지속 가능한 에너지 관리 |
| 교육 | 학습 성취도 분석, 교육 프로그램 효과 평가, 개인 맞춤형 교육 제공 등을 통해 교육 품질 향상 |
| 소셜 미디어 및 웹 분석 | 사용자 행동 분석, 감성 분석, 트렌드 파악 등을 통해 콘텐츠 전략 수립과 브랜드 인지도 향상 |
| 스포츠 분석 | 선수 퍼포먼스 데이터 분석, 경기 전략 수립, 팬 경험 개선 등을 통해 팀 성과와 팬 참여도 향상 |
| 과학 연구 | 대규모 데이터 분석을 통한 새로운 발견, 이론 검증, 시뮬레이션 등을 통해 과학 발전에 기여 |
| 농업 및 식품 산업 | 작물 성장 데이터 분석, 수확량 예측, 공급망 최적화 등을 통해 생산성 향상과 식량 안보 강화 |
1-3. 데이터 분석 프로세스
1-3-1. CRISP-DM
💡
CRISP-DM은 Cross Industry Standard Process for Data Mining의 약자이다. 데이터 분석과 데이터 마이닝 프로젝트를 체계적으로 수행하기 위해 널리 사용되는 표준 프로세스이다. CRISP-DM은 6단계로 구성되어 있으며, 각 단계는 순차적이면서도 반복적인 특성을 가진다.
또한 CRISP-DM은 어떤 산업이나 문제 유형에도 적용 가능한 유연성을 가지며 명확한 가이드를 제공하므로 협업에 유리하다.
- 비즈니스 이해 (Business Understanding) : 프로젝트의 목표와 요구사항을 명확히 정의한다.
- 비즈니스 문제를 정의한다.
- 프로젝트 목표를 분석 목표로 변환한다.
- 성공 기준을 설정한다.
- 데이터 이해 (Data Understanding) : 프로젝트에서 사용할 데이터를 이해한다.
- 데이터를 수집한다.
- 데이터를 탐색하여 구조와 품질을 이해한다.
- 데이터의 이상치와 누락값을 파악한다.
- 데이터 준비 (Data Preparation) : 분석에 적합한 형태로 데이터를 가공한다.
- 데이터를 정리하고 변환한다.
- 필요한 데이터를 선택하고 통합한다.
- 분석을 위한 데이터셋을 생성한다.
- 모델링 (Modeling) : 데이터에 적합한 모델을 선택하고 학습시킨다.
- 모델링 기법을 선택한다.
- 데이터를 모델에 적합하게 변환한다.
- 모델을 학습시키고 평가한다.
- 평가 (Evaluation) : 모델의 성능과 비즈니스 목표 적합성을 평가한다.
- 모델의 정확도와 성능을 검증한다.
- 모델이 비즈니스 목표에 부합하는지 확인한다.
- 분석 결과를 검토하고 다음 단계를 결정한다.
- 배포 (Deployment) : 분석 결과를 비즈니스 환경에 적용한다.
- 분석 결과를 시각화하거나 보고서로 작성한다.
- 모델을 시스템에 통합한다.
- 프로젝트의 최종 성과를 공유하고 운영에 반영한다.
'Data Analysis > Data Analysis ?' 카테고리의 다른 글
| 데이터 분석 도구 : Pandas (0) | 2025.03.04 |
|---|---|
| 데이터 분석 도구 : NumPy (0) | 2025.02.27 |
| 데이터 분석 도구: 배열(연산, 인덱싱, 슬라이싱) (0) | 2025.02.27 |