본문 바로가기

사용기 및 분석

wget 으로 웹페이지 모두 내려 받기.

GNU APP 중 콘솔로 빌드해서 쓰는 유용한 유틸 중 하나가 바로 wget 이란 녀석 입니다.
이 wget 은 무엇이냐 ...
바로 특정 웹 싸이트내용을 모두 파일로 받아주는 유용한 유틸리티 입니다.
불행히도 wget 은 .exe 로 배포되지 않고 다목적 플랫폼을 위해 소스만이 배포되고 있습니다.
게다 GUI 같은건 없는 console 용 어플 입니다.
마우스 클릭질만 하는 GUI 어플에 익숙하신 분들관느 거리가 먼 것 임을 유념 하셔야 겠군요.

배포 페이지는 http://www.gnu.org/software/wget/ 이며, 다운로드는 HTTP 와 FTP 두 프로토콜을 지원하고 있습니다.
어차피 FTP 를 HTTP 로 표현해 주는 차이 뿐이기 때문에 http://ftp.gnu.org/gnu/wget/ 에서 파일이름에 lastest 가 붙는 gz 을 다운로드 받고록 합니다.
gz 는 고유의 unix archive 이므로 7zip 을 통해서 압축을 푸는 것을 추천 드립니다.

소스를 받고 나서 무엇을 해야 하는가 ? 에 대한 고민에 빠지시게 되는데..
미리 말씀 드리자면 , wget 을 쓰려면 cygwin 이 필요 합니다.
지금 이 글을 읽으시는 분이 cygwin 을 모르시겠다면 읽는 것을 그만 둬 주시기 바랍니다.

만약 cygwin 이 설치 되어 게신다면 계속 진행 하실 수 있습니다.
처음 소스를 받은 위치를  보면 다음과 같은 파일들이 보입니다.
여기서 당장 뭔가 실행 해서 돌릴 수 는 없는 상태이므로 , ./configure 스크립트를 통해서 자동 빌드 환경 설정이 수행 되돌고 해야 합니다. windows 용으로 configure.bat 이 있긴 합니다만 .. 제가 볼랜드 컴파일러 , MSVC 등을 모두 설정해 놓은 상태 이지만 제대로 수행이 되지 않더군요.
일단 ./configure 를 수행합니다.
꽤 시간이 걸립니다... 
위 캡쳐쳐럼 각 설정 부분을 모두 검사 하게 되는데요 ... ./configure CC=cc 만을 수행해되 되는지는 잘 모르겠군요.
일단 이 설정 작업이 끝날때 까지 기다립니다 .. 저는 5분은 족히걸린 듯 합니다.
커피를 갈아 드시던지 타 드시던지 ... 시간을 때우면서 기달 봅니다 .

하루에 한가지씩 판다는 그 지름신강림촉진 웹 싸이트를 애용해보신다면 시간이 후딱 지나긴 합니다만 ..
금전적인 여유가 많으신 분들만 추천 드립니다 ~

아마 느린PC 일 수록 검사는 좀 더 많은 시간을 소요할 것으로 보이는군요 ...
살짝 짜증이 날 수 도 있습니다만 ... 무시하세요 -_-;

자 .. .기둘리다 보면 드디어 끝납니다.
잘 참으셨습니다 그려 .
이제 해야 할 것은 ... 가볍게 make 를 돌려 주면 됩니다.
여기서 make 가 뭔지 모르시겠다는 분들도 cygwin 까지 설치 해 두셨으면 그냥 치시고 엔터를 때려 주세요.
알아서 cygwin 에 들어갑니다.

만약 여기서 오류나신다면 빌드 하는걸 포기하세요!
나도 모릅니다. (정확히는 알려 드릴수가 없습니다!)

make 를 해서 다음과 같이 나오면 OK 입니다.
별말 없죠?
제대로 된건지 궁금하시면 wget --help 를 때려 봅니다.
이렇게 도움말이 죽- 나오시면 OK.
이제 이걸로 뭘 해야 할지 궁금 하시죠?
옵션이 참 많은데 말이죠 .

복잡한 기능은 많은데 다음 한줄로만 설명을 다 해 드릴 수 있습니다.
 wget [받으려는 웹 주소] -p -k -r
이거만 쓰면 됩니다.
각 옵션은 다음과 같습니다.
-p : 저장되는 html 에서 필요한 이미지를 몽땅 내려받음
-k : 리크를 저장되는 파일 위치로 변환
-r : 순환된 다운로드 (연결 링크를 모두 다운로드)
이 세 옵션만 써서 받으면 몽땅 다 받아지죠.
어렵지 않습니다.

cygwin 에서 자신 계정위치에 폴더를 하나 만듭니다.
그리고 wget 을 몽당 내려 받습니다.
예)
mkdir webpages
cd webpages
wget http://www.daum.net -p -k -r

콘솔화면에 로그가 죽- 뜬 다음 해당 위치에 보면 서브디렉터리가 생겨 있을테고, 그것을 따라 가 보면 몽땅 다운로드 받아진 html 파일들이 존재 하는 것을 확인 할 수 있습니다.
이걸로 웹페이지 몽땅 내려 받기는 끝이군요.

쓰기 위해 하는 작업이 복잡오묘 합니다만 ..
한번 해 놓으면 쓰기만 하면 된느 것이기 때문에 어려움 없이 사용이 가능합니다.

모르시겠다면 cygwin 과 gcc 를 배워 보아요~
다만 ... 조금 많이 어려울 수 도 있습니다 ..