라떼는말이야

[WEB] 인터넷에서 파일 다운로드 링크 알아내는 법 본문

기타 팁

[WEB] 인터넷에서 파일 다운로드 링크 알아내는 법

MangBaam 2020. 9. 6. 23:44
반응형

간혹 웹 크롤링을 해야 할 때 파일 다운로드 링크를 알아내야 하는데 링크를 감춰놓는 경우가 있다.

 

kind.krx.co.kr/corpgeneral/corpList.do?method=loadInitPage

상장법인목록을 확인할 수 있는 KIND 사이트

위 페이지는 우리나라 주식 시장 KOSPI와 KOSDAQ에 상장된 회사들의 목록을 볼 수 있는 사이트인데 오른쪽의 EXCEL 버튼을 클릭하면 엑셀 파일로 목록을 다운로드할 수 있다.

 

그러나 저 버튼 위에서 오른쪽 마우스 클릭해서 링크 복사하기를 하거나 개발자모드(F12)에서 링크를 확인해 봐도 다운로드 링크가 아닌 위에 보이는 사이트 링크로 이동한다.

링크가 #으로 되어있으면 현재 페이지로 이동한다.


첫 번째 시도는 다운로드 목록에서 링크를 복사하는 것이다.

크롬에서 Ctrl + J 를 누르면 다운로드 목록으로 이동할 수 있다.

이 곳에 나와있는 주소는 위의 주소와 다른 주소라서 기대를 갖고 해당 주소를 주소창에 입력해 이동해 보았는데

위와 같은 문구가 나오면서 다운로드에 실패했다. (그냥 저 링크를 마우스로 클릭하면 다운로드가 가능하다. 하지만 지금은 링크를 얻는 것이 목적이므로 실패다)

 

이 방법으로 주소창에 입력해서 다운로드가 된다면 간단하게 성공한 것이다.

 


 

두 번째 시도는 크롬 확장프로그램을 이용하는 것이다.

chrome.google.com/webstore/detail/http-trace/idladlllljmbcnfninpljlkaoklggknp?hl=ko

 

HTTP Trace

Tracks all HTTP requests made from the current tab.

chrome.google.com

확장 프로그램 'HTTP Trace'를 설치하고 크롬 주소창 옆을 보면 초록색 구슬 같은 게 추가된다.

(안 보이면 퍼즐모양 버튼 누르고 고정 버튼 누르면 추가 가능)

 

저 초록이를 누르고 파일 다운로드를 다시 해본다.

그러면 빈 창이었던 것이 글씨가 채워질 것이다.

저 동그라미 쳐진 부분을 메모장에 복사한다.

: 옆에 아무것도 없으면 지워버리고

: 옆에 값이 있으면 :=로 바꾼다. (빈 칸 없이)

그리고 첫 번째 줄에 있는 링크 맨 뒤에 ? 를 붙인다.

 

그리고 &로 모든 항목을 이어 붙인다.

저 링크를 주소창에 입력하면 EXCEL 버튼을 누른 것처럼 다운로드가 된다.

 


 

추가로

다른 사이트에서도 가능한지는 모르겠는데 이 게시물에서 예시로 든 KIND 사이트의 파일 다운로드 링크는 

method와 searchType 이 두 가지 옵션만 있어도 동일하게 파일이 다운로드되는 것을 확인했다.

즉 위와 같이 더 짧은 링크로도 동일하게 파일이 다운로드되는 것을 확인했다.

반응형
Comments