SK Networks AI/일일 회고록

[SK네트웍스 Family AI 캠프 11기] 일일 회고 - 11일차(25.02.21 금요일)

js-kkk 2025. 2. 21. 17:49

오늘은 웹 크롤링에 대해 강의가 진행되었다. 

 

학습 내용

1. Web Crawling 이란 ?

2. OPEN API 란 ?

3. 네이버 API를 활용한 뉴스 검색

4. WEB의 구조

5. 크롤링 데이터 저장

6. 브라우저 렌더링 동작 구조

7. CSS 선택자

8. 네이버 책 검색 API를 활용한 데이터 저장

9. 크롤링 도구

10. BeautifulSoup 이란 ?

11. 정적 페이지 웹 스크래핑 - requests, beautifulsoup 활용

 

 

 

1. Web Crawling 이란 ?

2025.02.23 - [Web Crawling/Web Crawling ?] - Web Crawling 이란 ?

 

Web Crawling 이란 ?

1. 크롤링1-1. 크롤링의 개요1-1-1. 크롤링이란💡크롤링(Crawling)은 웹 페이지나 API로부터 원하는 정보를 자동으로 수집하는 기술로, 웹 스크래핑(Web Scraping)이라고도 불린다.크롤러(Crawler) 또는 스

js-kkk.tistory.com

2. OPEN API 란 ?

2025.02.23 - [Web Crawling/Web Crawling ?] - OPEN API 란 ?

 

OPEN API 란 ?

2. Open API2-1. Open API 개요2-1-1. Open API란💡공개적으로 사용할 수 있도록 제공되는 API(Application Programming Interface)로, 개발자가 표준화된 방법으로 특정 서비스나 데이터에 접근할 수 있게 한다.2-1-2.

js-kkk.tistory.com

 

 

ex ) 

https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=%EC%A1%B8%EC%97%85%EC%8B%9D
= 를 기준 으로 앞에있는게 key 뒤가 value  그리고 & 로 연결 
빨간색 :
노란색 : 쿼리 스트링

 

 

3. 네이버 API를 활용한 뉴스 검색

2025.02.23 - [Web Crawling/실습] - 네이버 API를 활용한 뉴스 검색

 

네이버 API를 활용한 뉴스 검색

encore_skn11 폴더에 03_web_crawling.py 파일 만들고 구글에 네이버 api 검색 https://developers.naver.com/main/  NAVER Developers네이버 오픈 API들을 활용해 개발자들이 다양한 애플리케이션을 개발할 수 있도록

js-kkk.tistory.com

 

 

4. WEB의 구조 

2025.02.23 - [Web Crawling/Web Crawling ?] - WEB의 구조

 

WEB의 구조

3. WEB의 구조💡웹은 수많은 웹 페이지들이 하이퍼링크로 연결된 거대한 네트워크로 구성되어 있으며, 이러한 연결성을 이용하여 크롤러는 웹 사이트를 탐색하고 필요한 데이터를 수집한다. 웹

js-kkk.tistory.com

5. 크롤링 데이터 저장

2025.02.23 - [Web Crawling/Web Crawling ?] - 크롤링 데이터 저장

 

크롤링 데이터 저장

4. 크롤링 데이터 저장4-1. 크롤링 데이터 저장 개요4-1-1. 크롤링을 통해 수집한 데이터의 저장💡크롤링을 통해 수집한 데이터는 다양한 형식과 구조를 가질 수 있으며, 이를 효율적으로 저장하

js-kkk.tistory.com

 

6. 브라우저 렌더링 동작 구조

2025.02.23 - [Web Crawling/Web Crawling ?] - 브라우저 렌더링 동작 구조

 

브라우저 렌더링 동작 구조

1. 브라우저의 동작1-1. 브라우저의 기본 구조User interface : 사용자가 사용하느 브라우저의 주소표시줄, 홈버튼, 북마크 등의 페이지 이외의 모든 영역Browswer Process : User interface 와 Redering Process 사

js-kkk.tistory.com

 

7. CSS 선택자

 

2025.02.23 - [Web Crawling/Web Crawling ?] - CSS 선택자

 

CSS 선택자

1. CSS 선택자1-1. 선택자 종류1-1-1. 선택자 문법선택자                 문법                  설명전체 선택자*모든 요소 선택태그 선택자태그이름특정 태그 요소 선택클래스 선택자.클래스

js-kkk.tistory.com

 

 

8. 네이버 책 검색 API를 활용한 데이터 저장

2025.02.23 - [Web Crawling/실습] - 네이버 책 검색 API를 활용한 데이터 저장

 

네이버 책 검색 API를 활용한 데이터 저장

VScode에 naver-book-api.py 생성 후 실습 진행MySQL에서 bookdb 를 만들고,  bookdb에 대한 사용자 권한 부여 책 정보에 대한 table 만들기  import urllib.request import json # 내장 모듈import mysql.connector# API 호출을

js-kkk.tistory.com

 

 

9. 크롤링 도구

2025.02.23 - [Web Crawling/Web Crawling ?] - 크롤링 도구

 

크롤링 도구

1. 크롤링 도구1-1. 파이썬 크롤링 라이브러리 종류1-1-1. Requests특징 : HTTP 요청을 간단히 처리할 수 있는 라이브러리용도 :웹 페이지의 HTML 소스를 가져오기 위해 사용REST API 호출장점 :간단하고 빠

js-kkk.tistory.com

 

 

 

10. BeautifulSoup 이란 ?

2025.02.23 - [Web Crawling/BeautifulSoup] - BeautifulSoup 이란?

 

BeautifulSoup 이란?

2. BeautifulSoup2-1. BeautifulSoup 개요2-1-1. BeautifulSoup 이란💡Beautiful Soup은 Python 기반의 HTML, XML 파일을 파싱(parsing)하여 데이터를 추출하는 라이브러리이다.이미 다운로드된 HTML 문서를 파싱하여 DOM(Docu

js-kkk.tistory.com

 

 

11. 정적 웹 페이지 스크래핑 - requests, beautifulsoup 활용

2025.02.23 - [Web Crawling/BeautifulSoup] - 정적 웹 페이지 스크래핑 - requests, BeautifulSoup 활용

 

정적 웹 페이지 스크래핑 - requests, BeautifulSoup 활용

VScode에 02_static-web-page 폴더 만든 후 그 안에 01_request_bs.py 생성  (아래 코드에서는 selenium 설치는 필요없음, requests와 beautifulsoup4 만 설치할 것 )# 정적 페이지 웹 스크래핑 -> requests, beautifulsoup# 정

js-kkk.tistory.com