서버 점검 안내

dsclub은 서비스의 안정성과 성능 향상을 위해
매일 04시 30분에 정기 점검이 진행됩니다.

점검 시간: 오전 4시 30분 ~ 4시 35분

해당 시간 동안 일시적으로 서비스에 접속이 불가능하오니, 양해 부탁드립니다.

php, gzip을 이용한 웹사이트 크롤러 (크롤링 프로그램) > 코딩 스토리

php, gzip을 이용한 웹사이트 크롤러 (크롤링 프로그램)

페이지 정보

작성자 익명 (192.♡.0.1) 작성일 23-07-15 17:22 조회 31,783 댓글 4

본문

미리보기: 지원 종료됨


입력한 웹사이트의 이미지,html,css,js,모든 link를 크롤링하며, 크롤링한 링크는 link.txt에 저장됩니다.

Produced by Tak2을 되도록이면 삭제하지 말아주세요


    function getDomain($url) {

        $parsedUrl = parse_url($url);

        return $parsedUrl['scheme'] . '://' . $parsedUrl['host'];



function isCrawlingAllowed($url) {

    $parsedUrl = parse_url($url);

    $robotsUrl = $parsedUrl['scheme'] . '://' . $parsedUrl['host'] . '/robots.txt';


    $robotsContent = @file_get_contents($robotsUrl);

    if ($robotsContent === false) {

        return true; // robots.txt 파일이 없는 경우 크롤링 허용

    }


    $allow = true;

    $disallowPaths = array();

    $lines = explode("\n", $robotsContent);

    foreach ($lines as $line) {

        if (strpos($line, 'Disallow:') === 0) {

            $disallowPath = trim(substr($line, strlen('Disallow:')));

            if (!empty($disallowPath)) {

                $disallowPaths[] = $disallowPath;

            }

        }

    }


    // 확인하려는 경로가 Disallow 경로인지 체크

    foreach ($disallowPaths as $path) {

        if (strpos($url, $path) !== false) {

            $allow = false;

            break;

        }

    }


    return $allow;


로 수정해야 합법적으로 크롤링 할 수 있습니다.


*업데이트 버전:https://dsclub.kr/bbs/board.php?bo_table=code&wr_id=297

좋아요58 이 글을 좋아요하셨습니다
url 복사 카카오톡 공유 라인 공유 페이스북 공유 트위터 공유

첨부파일

2kat님의 댓글

no_profile 2kat 아이피 (220.♡.000.000) 작성일

?

익명님의 댓글

익명 아이피 (192.♡.0.1) 작성일

test 링크는 다운로드 기능이 되지 않으나, 첨부 파일은 정상적으로 작동합니다

익명님의 댓글

익명 아이피 (192.♡.0.1) 작성일

첨부파일 그대로 사용하면 불법입니다.

익명님의 댓글

익명 아이피 (192.♡.0.1) 작성일

이용방법:

1. 파일 다운로드
2. php와 gzip이 설치된 웹서버에 업로드
3.파일 실행 (브라우저에 http://자신의도메인/crawled.php 입력)
4. input칸에 링크 입력

전체 282건
게시물 검색

접속자집계

오늘
816
어제
977
최대
4,271
전체
318,723