일상을 공유하는 dsclub, sns형 블로그 커뮤니티

php, gzip을 이용한 웹사이트 크롤러 (크롤링 프로그램)

페이지 정보

작성자 익명 (192.♡.0.1) 작성일 23-07-15 17:22 조회 13,490 댓글 5

본문

미리보기: ~~지원 종료됨~~

입력한 웹사이트의 이미지,html,css,js,모든 link를 크롤링하며, 크롤링한 링크는 link.txt에 저장됩니다.

Produced by Tak2을 되도록이면 삭제하지 말아주세요

function getDomain($url) {

$parsedUrl = parse_url($url);

return $parsedUrl['scheme'] . '://' . $parsedUrl['host'];

을

function isCrawlingAllowed($url) {

$parsedUrl = parse_url($url);

$robotsUrl = $parsedUrl['scheme'] . '://' . $parsedUrl['host'] . '/robots.txt';

$robotsContent = @file_get_contents($robotsUrl);

if ($robotsContent === false) {

return true; // robots.txt 파일이 없는 경우 크롤링 허용

}

$allow = true;

$disallowPaths = array();

$lines = explode("\n", $robotsContent);

foreach ($lines as $line) {

if (strpos($line, 'Disallow:') === 0) {

$disallowPath = trim(substr($line, strlen('Disallow:')));

if (!empty($disallowPath)) {

$disallowPaths[] = $disallowPath;

}

// 확인하려는 경로가 Disallow 경로인지 체크

foreach ($disallowPaths as $path) {

if (strpos($url, $path) !== false) {

$allow = false;

break;

}

return $allow;

로 수정해야 합법적으로 크롤링 할 수 있습니다.

*업데이트 버전:https://dsclub.kr/bbs/board.php?bo_table=code&wr_id=297

좋아요42 이 글을 좋아요하셨습니다

첨부파일

crawled.php (4.9K) 30회 다운로드 | DATE : 2023-07-21 11:03:02

2kat님의 댓글

2kat 아이피 (220.♡.000.000) 작성일 23-07-21 10:22

답변

익명님의 댓글

익명 아이피 (192.♡.0.1) 작성일 23-07-21 14:16

test 링크는 다운로드 기능이 되지 않으나, 첨부 파일은 정상적으로 작동합니다

익명님의 댓글

익명 아이피 (192.♡.0.1) 작성일 23-07-21 14:36

첨부파일 그대로 사용하면 불법입니다.

익명님의 댓글

익명 아이피 (192.♡.0.1) 작성일 23-07-21 18:16

이용방법:

1. 파일 다운로드
2. php와 gzip이 설치된 웹서버에 업로드
3.파일 실행 (브라우저에 http://자신의도메인/crawled.php 입력)
4. input칸에 링크 입력

익명님의 댓글

익명 아이피 (192.♡.0.1) 작성일 23-08-22 01:26

https://dsclub.kr/bbs/board.php?bo_table=zip&wr_id=14

서버 점검 안내

php, gzip을 이용한 웹사이트 크롤러 (크롤링 프로그램) > 자료실 (zip)

php, gzip을 이용한 웹사이트 크롤러 (크롤링 프로그램)

페이지 정보

본문

첨부파일

2kat님의 댓글

익명님의 댓글

익명님의 댓글

익명님의 댓글

익명님의 댓글

갤러리

접속자집계

서버 점검 안내

본문

첨부파일

갤러리

소셜계정으로 로그인

접속자집계