πŸ“ŒCS/Web

[Web] μŠ€ν¬λž˜ν•‘ vs 크둀링

dar0m! 2021. 8. 24. 18:11

μŠ€ν¬λž˜ν•‘(Scraping)

μ›Ή μ‚¬μ΄νŠΈ μƒμ—μ„œ μ›ν•˜λŠ” 정보λ₯Ό μΆ”μΆœν•˜λŠ” 기술

μŠ€ν¬λž˜νΌλŠ” νŠΉμ • μ›Ή μ‚¬μ΄νŠΈ λ˜λŠ” νŽ˜μ΄μ§€μ—μ„œ νŠΉμ • 데이터λ₯Ό μΆ”μΆœν•˜λŠ” ν”„λ‘œμ„ΈμŠ€μ΄λ‹€.

μŠ€ν¬λž˜ν•‘μ„ μˆ˜ν–‰ν•˜κΈ° μœ„ν•΄μ„œλŠ” λ¨Όμ € ν•„μš”ν•œ 정보λ₯Ό μ°ΎκΈ° μœ„ν•΄ μ›Ή 크둀링 같은 μž‘μ—…μ„ μˆ˜ν–‰ν•΄μ•Ό ν•œλ‹€.

즉, HTTPλ₯Ό 톡해 μ›Ή μ‚¬μ΄νŠΈμ˜ λ‚΄μš©μ„ μΆ”μΆœν•˜μ—¬ μ›ν•˜λŠ” ν˜•νƒœλ‘œ κ°€κ³΅ν•˜λŠ” 것이닀. μ‰½κ²Œ 말해 μ›Ή μ‚¬μ΄νŠΈμ˜ 데이터λ₯Ό μˆ˜μ§‘ν•˜λŠ” λͺ¨λ“  μž‘μ—…μ„ λœ»ν•œλ‹€.

ex) 주식 μ‹œμž₯ 데이터, λΉ„μ¦ˆλ‹ˆμŠ€ λ¦¬λ“œ, 곡급업체 μ œν’ˆ 

크둀링도 μΌμ’…μ˜ μŠ€ν¬λž˜ν•‘ κΈ°μˆ μ΄λΌκ³  ν•  μˆ˜ μžˆλ‹€.

 

크둀링(Crawling)

μ›Ή 크둀러(μžλ™ν™” 봇)κ°€ 일정 κ·œμΉ™μœΌλ‘œ μ›Ή νŽ˜μ΄μ§€λ₯Ό λΈŒλΌμš°μ§• ν•˜λŠ” 것

ν¬λ‘€λŸ¬λž€ 쑰직적, μžλ™ν™”λœ λ°©λ²•μœΌλ‘œ μ›”λ“œμ™€μ΄λ“œ μ›Ή(WWW)을 νƒμƒ‰ν•˜λŠ” 컴퓨터 ν”„λ‘œκ·Έλž¨μ΄λ‹€.

크둀링은 ν¬λ‘€λŸ¬κ°€ ν•˜λŠ” μž‘업을 λΆ€λ₯΄λŠ” λ§λ‘œ, μ—¬λŸ¬ μΈν„°λ„· μ‚¬μ΄νŠΈμ˜ νŽ˜μ΄μ§€(λ¬Έμ„œ, html λ“±)λ₯Ό μˆ˜μ§‘ν•΄μ„œ λΆ„λ₯˜ν•˜λŠ” κ²ƒμ΄λ‹€.

ν¬λ‘€λŸ¬λŠ” Google, Bing λ“±κ³Ό 같은 검색 μ—”μ§„μ—μ„œ URL의 μ½˜ν…μΈ λ₯Ό μΆ”μΆœν•˜κ³ , 이 νŽ˜μ΄μ§€μ—μ„œ λ‹€λ₯Έ 링크λ₯Ό ν™•μΈν•˜κ³ , 링크의 URL을 κ°€μ Έμ˜€λŠ” 데 주둜 μ‚¬μš©λœλ‹€.

크둀링은 일반적으둜 Google, Yahoo, Bing 등이 μ–΄λ–€ μ’…λ₯˜μ˜ 정보λ₯Ό κ²€μƒ‰ν•˜λŠ” 방식이닀.

ν¬λ‘€λ§μ—λŠ” μ›Ή νŽ˜μ΄μ§€μ˜ λͺ¨λ“  ν‚€μ›Œλ“œ, 이미지 및 URL을 μ €μž₯ν•˜λŠ” 것과 같은 νŠΉμ • μˆ˜μ€€μ˜ μŠ€ν¬λž˜ν•‘μ΄ ν•„μš”ν•˜λ‹€.

λŒ€μ²΄λ‘œ μ°Ύμ•„λ‚Έ λ°μ΄ν„°λ₯Ό μ €μž₯ν•œ ν›„ μ‰½κ²Œ μ°Ύμ„ μˆ˜ μžˆκ²Œ μΈλ±μ‹±ν•œλ‹€.

 

μ „ν˜•μ μΈ 차이점

μ§€μ†μ μœΌλ‘œ 혼자 λ™μž‘ν•  수 있으면 크둀링, λ©ˆμΆ”λ©΄ μŠ€ν¬λž˜ν•‘μ΄λ‹€.

 

μ°Έκ³