네이버 결계 벌레

koc/SALM 2009. 4. 7. 11:34

2009. 4. 7. 11:34

읽기에 앞서

네이버 블로그에 질문을 올렸더니 아주 황당한 답변이 왔다. 바로 "삭제한 파일이기 때문에 접근할 수 없다."라고 했다. ㅡㅡ; 도대체 지금도 멀쩡히 있는 테스트 페이지와 테스트 파일을 무슨 근거로 삭제되었다고 하는지 모르겠다.

그리고 네이버의 외부링크는 IMG 태그나 OBJECT, EMBED 태그 등으로 연결된 자료뿐만 아니라 A 태그로 연결된 자료도 제한하고 있다.

벌레의 유형

네이버 블로그에 그림 파일이나 그밖에 파일을 올리면 그 저작권 설정(또는 공개 설정)에 상관 없이 네이버 안에서만 이용할 수 있다.

이 벌레는 유난히 거짓말이 심하다. 2003년 무렵 웹상에 있으면 당연히 접근할 수 있다는 요지의 답변을 받은 적이 있기 때문이다.
이 벌레는 네이버 외부에서 들어오는 접근을, 웹파일(HTML 등)으로 들어오는 접근이 아니라면, 우선 막고 보는 강력한 결계를 작동시킨다. ㅡㅡ;
블로그도 웹(WWW)이기 때문에 게시자는 누구나 자신의 게시물을 자신이 설정한 저작권 규칙에 따라 이용할 수 있으리라 생각하고 게시하게 된다. 내 경우는 특별한 의미나 가치가 없다면 대부분 [저작자표시-사용제한금지-동일조건변경허락]이라는 지극히 자유로운 조건을 내걸고 있다. 그런데 이 경우 네이버처럼 접근 제한을 걸게 되면, 오히려 저작권 위반이 된다고 여겨진다. 결국 네이버 블로그에서는 CC-BY-SA 자료는 서버에 올릴 수 없다는 결론에 도달한다. 설령 서버에 올리더라도 실제로 이용할 수 있는 것은 네이버 사용자뿐일는지도 모른다.

벌레의 발견

이 벌레는 네이버에 대해 검색하면서 우연히 알게 되었다. 그러나 그에 대해 그다지 깊이 생각하지 않았다. 그러다가 유난히 네이버를 싫어하는^[각주:1] 도아 님의 블로그에서도 확인하게 되자 조금은 의심하게 되었다.

쇠뿔도 단 김에 빼자고, 네이버 아이디를 가지고 있는 김에 블로그도 만들었다. 그리고 파일을 올렸다. 올리는 도중에 이상한 벌레도 만났다. 아무튼 파일을 서버에 올린 뒤 외부에서 접근했다.

그림 파일 : http://blogfiles13.naver.net/data41/2009/4/5/156/test-naver_superior2000.png
압축 파일 : http://mfiles.naver.net/9442a17b6e3458ebc198/data44/2009/4/5/50/multiarch-superior2000.zip

일단 위의 그림이 어떻게 보이는지부터 알아보자. 아래에는 <img src="http://blogfiles13.naver.net/data41/2009/4/5/156/test-naver_superior2000.png" width="493" height="299"> 라는 태그가 있으나 빈줄로 나타난다.

아울러 위의 두 파일 모두 HTTP404 오류를 보이면서 정상적인 접근을 할 수 없었다. 다시 말해 A 태그로 연결된 경우도 제한하고 있다는 뜻이다.

정상 상태라면 아래처럼 보여야 했다.

이때 특이한 현상을 발견했는데, 바로 주소 표시줄에 주소를 입력하고 엔터를 치면 위와 같은 정상적인 화면을 보여준다는 점이다. 이 말은 그림 파일을 A 태그나 IMG 태그를 써서 화면에서 볼 수는 없지만, 다운로드는 가능하다는 말이다. 그런데 그림 파일을 직접 화면에서 보지 않고 다운로드 하는 사람이 얼마나 될까? 더구나 내가 올리는 파일은 "예술적"인 이미지도 아니라서 그림 하나를 받느니, 차라리 페이지 전체를 받는 쪽이 훨씬 이익이다.

그때는 무슨 일이?

한편 2003년 11월에 내가 만든 홈페이지가 네이버에 엉뚱하게 등록되어 있는 문제로 약간의 다툼이 생겼다. 그때 아래와 같은 답변을 받았다.

재미 있는 점은 세 가지이다. (1) 하나는 네이버봇의 업데이트 시기에 웹상에 웹문서가 떠있다면 웹문서 검색결과로 나오는 것은 당연한 일이라고 말한다는 점과, (2) 다른 하나는 내가 홈페이지 등록을 요청했다고 하는 점이며, (3) 마지막으로 고객이 등록 요청한 이상 검색에 나와서 문제가 되는 개인정보라고 볼 수 없다고 "생각한다"는 답변이었다.
이 세 가지 모두 당시도 지금도 말이 안 되는 사항이다. (1)번에 대해서는 robots.txt로 설정되어서 구글조차 접근하지 못하던 때였다. 오직 네이버만 접근해서 데이터를 긁어갔다는 뜻이 된다(현재는 구글만 접근 가능하다). (2)번에 대해서는 내가 등록을 요청한 적이 없다. 내가 요청한 바는 네이버 등록 갱신 거부였다. (3)번에 대해서는 웹에 공개된 정보라도 문제가 되는 개인정보일 수 있다는 점이다. 이 점은 좀 더 뒤(2004년 무렵)에 구글에서 개인 주민등록번호가 검색되어서 물의를 빚었다. 다시 말해 네이버의 말은 이치에 맞지 않는다.^[각주:2]

다음 그림은 2003년에 보냈던 개별 페이지가 검색되지 않도록 조치해 달라고 했다. 이 내용은 내가 등록 갱신 거부를 하자, 그게 불가능하다고 해서 네이버에서 답변이 오자 요청 내용을 바꾸게 되었다.

위의 요청을 하기 전에는 어떤 것이었냐고? 내용까지는 필요없고, 제목만 보여 주겠다.

내용을 몰라서 서운한 점은 없으리라 생각한다. 네이버 고객센터에서는 친절하게 메일 제목을 그대로 되돌려주었기 때문이다. 2002년 12월 19일에 받은 답변이다. 분명히 "홈페이지 등록 갱신을 거부합니다."라고 했다. 내가 홈페이지 등록을 요청한 적이 한 번도 없다는 점은 두말하면 입 아프다.

네이버봇은 되고, 사람은 안 된다?

내 홈페이지 등록이야 이미 오래전에 지나간 일이니 넘어가기로 하고, 지금 중요한 점은 다른 데 있다.

바로 위의 내용대로라면 네이버봇은 접근 금지한 웹페이지 접근해도 되며, 사람은 접근 허용된 웹페이지조차 접근할 수 없다는 점이다.

웹문서 검색결과는 웹상에 존재하는 문서에 대해서 네이버의 웹문서 검색 로봇이 주기적으로 색인 하여 웹문서 검색에 반영 하는 것으로, 방대한 분량의 웹문서를 색인 하는데에는 오랜 시간이 소요되므로 실제 웹상에 존재하는 데이터와의 시간차가 생길 수 있습니다.
웹문서의 변경된 내용은 3~4주의 간격으로 자동으로 업데이트가 됩니다.
그 업데이트시기에 웹상에 고객님의 웹문서가 떠있다면 웹문서 검색결과로 나오는 것은 당연한 일입니다. 웹문서 검색로봇은 등록된 홈페이지와 등록요청한 홈페이지, 다른 사이트에 등록된 홈페이지까지 포함해서 검색되는 기능입니다.

아무것도 아니라고 여길 수도 있는 위의 내용은 분명히 네이버봇(네이버의 웹문서 검색 로봇)이 웹상에 존재하는 문서에 접근하고 있음을 뜻하고 있으며, 그에 대해 웹상에 있다면 당연히 검색결과로 나온다고 하였다. 이것은 곧 웹상에 있으면 접근을 막을 수 없다는 결론에 도달한다. 나아가 앞서 말한 robots.txt로 막았더라도 접근할 수 있다고 주장하고 있다.

그런데 이번 네이버 블로그 데이터를 외부에서 접근하기 힘든 사건은 그러한 네이버의 답변을 정면으로 부정하고 있다. 다시 말해 네이버 블로그에 대해서는 내가 네이버로부터 2003년에 받은 답변은 사실이 아니다.

도아 님이 말씀한 "세상에서 가장 심한 욕"이 절실히 느껴진다.

회사 측 답변

2009년 4월 8일 현재 답변을 받았다. 그런데 아주 어이없는 답변이다.

어이가 없을 지경이다. 지금도 웹에 있는 그림이거늘, 삭제되었다니?

아래의 길쭉한 파일은 메일 원본을 잡은 화면이다.

티스토리 이미지 갤러리 문제 (0)	2009.04.24
버추얼박스 2.2.0 네트워크 접속 문제 (0)	2009.04.11
네이버 뻥튀기 벌레 (0)	2009.04.05
구글이 음란 사이트? (3)	2009.04.05
벌레 잡는 알약, 벌레에 먹히다 2 (1)	2009.03.31

왕미친놈의 왕미친세상