php, gzip을 이용한 웹사이트 크롤러 (크롤링 프로그램)
페이지 정보
작성자 익명 (192.♡.0.1) 작성일 23-07-15 17:22 조회 44,332 댓글 5본문
미리보기: 지원 종료됨
입력한 웹사이트의 이미지,html,css,js,모든 link를 크롤링하며, 크롤링한 링크는 link.txt에 저장됩니다.
Produced by Tak2을 되도록이면 삭제하지 말아주세요
function getDomain($url) {
$parsedUrl = parse_url($url);
return $parsedUrl['scheme'] . '://' . $parsedUrl['host'];
을
function isCrawlingAllowed($url) {
$parsedUrl = parse_url($url);
$robotsUrl = $parsedUrl['scheme'] . '://' . $parsedUrl['host'] . '/robots.txt';
$robotsContent = @file_get_contents($robotsUrl);
if ($robotsContent === false) {
return true; // robots.txt 파일이 없는 경우 크롤링 허용
}
$allow = true;
$disallowPaths = array();
$lines = explode("\n", $robotsContent);
foreach ($lines as $line) {
if (strpos($line, 'Disallow:') === 0) {
$disallowPath = trim(substr($line, strlen('Disallow:')));
if (!empty($disallowPath)) {
$disallowPaths[] = $disallowPath;
}
}
}
// 확인하려는 경로가 Disallow 경로인지 체크
foreach ($disallowPaths as $path) {
if (strpos($url, $path) !== false) {
$allow = false;
break;
}
}
return $allow;
로 수정해야 합법적으로 크롤링 할 수 있습니다.
*업데이트 버전:https://dsclub.kr/bbs/board.php?bo_table=code&wr_id=297
첨부파일
- crawled.php (4.9K) 28회 다운로드 | DATE : 2023-07-21 11:03:02
2kat님의 댓글
2kat 아이피 (220.♡.000.000) 작성일?