본문 바로가기

Iguacu ONLY

멍청한 검색엔진인가 멍청한 사람인가?

검색엔진이라고 하면 가장 먼저 떠 오르는 것은 내 블로그 방문자를 기준으로 할 때 '구글'과 '네이버'일 것이다. 중국이나 일본의 인터넷 사용자라면 또 다른 검색 엔진을 떠 올릴 수 있다. 구글이 수집하여 저장하고 그리하여 검색 가능한 웹 페이지의 숫자는 10억 개니 15억 개니 하는 말이 많지만 누구 하나 직접 숫자를 세어본 바 없으니 그저 '엄청나게 많다'고 알고 있다. 구글은 지난 7월 페이지가 아닌 URL 기준으로 1조 개의 URL을 수집하고 있다고 이야기한 바 있다.




구글이 압도적으로 우수한 검색 엔진의 소유 업체라는데 이견이 있는 사람은 별로 없을 것이다. 구글의 검색 결과와 네이버의 검색 결과에서 특히 '한글로 검색했을 때' 그 결과의 신빙성에 대해 의심하는 사람은 많지만 그럼에도 불구하고 전 세계의 웹 문서를 검색하는데 있어서 구글의 압도적 우위를 의심하는 사람은 적다. 구글은 정말 위대하다고 말해도 무방할 정도로 기술적으로, 양적으로 압도적 우위를 차지하고 있는 2008년 현재 세계 최고의 검색 서비스 업체다. 맞다, 인정할 수 밖에 없다. 그런데...

한국에서 태어나 2바이트 문자인 한글을 사용하는 내게 있어서 구글보다 네이버 검색 서비스가 더 실효성 있는 정보를 제공하고 있었다는 현실을 무시할 수는 없다. 어떤 사람은 이것을 부정하고 싶겠지만 네이버는 나름의 노력으로 한글로 작성된 많은 웹 문서를 수집하려 노력해 왔고 심지어 스크랩(펌)을 자연스럽게 조장하는 많은 장치를 만드는 무리수를 두면서 이 노력을 멈추지 않았다. 때문에 구글 검색 서비스에 "청담동 뉴욕 스타일 신상"이라고 입력하면 이상한 결과가 나오지만 네이버는 청담동의 관련 옷집 정보를 노출한다. 예를 들어 그렇다는 말이다. 내가 예를 든 이런 식의 예제를 통해 많은 사람들은 구글과 네이버가 무슨 차이가 있고 누가 더 우월하고 누가 더 열등한가에 대해 열띤 토론을 해 왔다. 그런 토론을 흥미진진하게 지켜봤던 입장에서 오늘 내가 경험한 한 가지 사건은 그 토론이 얼마나 무가치한 것이었는지 재삼 깨닫게 하는 계기가 되었다.


나는 몇 주 동안 굉장히 몸이 좋지 않았고 몇 주 입원도 했었다. 좀 더 요양이 필요하다고 판단하여 여러 곳을 고려하던 중 경상남도 합천의 해인사 근처에서 요양을 하는 게 좋겠다고 생각하게 되었다. 이런 상태에서 다른 사람들이 그렇듯 나 또한 네이버를 비롯한 몇몇 검색 엔진에 합천 해인사 주변의 숙박 시설에 대한 정보를 조회하기 시작했다. 나는 이전에 이미 몇 번 해인사에 가 본 적 있었기 때문에 매우 구체적인 정보가 필요했다. 해인사 주변에 있는 여관과 민박의 숙박 요금과 시설에 대한 정보, 장기 투숙할 경우 요금 조정 여부, 3식을 숙박 기관에서 해결할 경우 요금에 대해 알고 싶었다. 그리고 해인사 주변의 수 많은 숙박 시설 중 가장 조용하고 시설이 훌륭한 곳도 알고 싶었다. 수 없이 많은 검색을 반복한 결과는 무엇이었을까?

내가 원하는 결과는 웹에 없었다.

아마도 내가 잘못된 검색어를 입력했을 지 모른다. 내가 몇 시간 동안 입력한 수 백개의 검색어가 잘못되었을 수 있다. 전 세계에서 1조 개에 달하는 URL을 수집하고 있다는 구글도 내가 원하는 검색 결과를 보여주지 못했고 한국에서 10년 동안 콘텐츠를 수집해 왔다는 네이버도 내가 원하는 결과를 보여주지 못했다. 그래도 나는 여전히 내가 잘못된 검색어를 입력했기 때문에 문제에 대한 대답을 얻지 못했다고 생각하고 있다. 그래서 나는 아침이 밝아 오면 해인사에 전화를 하고 해인사 주변의 민박이나 여관, 호텔에 전화를 해서 내 사정을 설명한 후 가격과 조건에 대해 알아 볼 생각이다.

만약 내가 전화를 통해 얻은 결과를 내 블로그에 공개한다면 어떻게 될까? 아마 언젠가, 누군가 나와 똑같은 조건으로 해인사 주변에 머물려 할 때 내 글이 구글이나 네이버의 검색 결과 첫 페이지에 나온다면 그 사람은 그 검색 엔진이 매우 훌륭한 결과를 보여준다고 생각할 것이다. 그러나 내가 그런 결정, 즉 내 블로그를 통해 검색 엔진이 내 경험을 수집하도록 허락하지 않는다면 혹은 그 결과를 공개된 웹 페이지에 쓰지 않거나 누군가 내가 쓴 글을 퍼가지 못한다면 어떻게 될까? 누군가 나와 같은 문제에 대한 대답을 온라인에 공개하기 전까지 여전히 그 대답은 존재하지 않을 것이다.아니면 여러 개로 나눠진 대답을 힘들게 수집하여 종합하여 판단해야 할 것이다.

나는 가끔 검색 엔진이 수집하고 있는 데이터가 내가 질문하려는 대답을 갖고 있는 것인지 혹은 내가 질문하려는 것의 일부만 갖고 있는 지 의심스러울 때가 있다. 1조 개의 URL이 아니라 그보다 훨씬 많은 문서를 수집하고 있더라도 사람이 질문하는 것에 대해 제대로 대답하지 못한다면 그것은 그리 만족스러운 검색 엔진이 아닐 것이다. 그리고 또 다른 생각을 한다. 내가 제대로 질문을 한다면, 내가 제대로 키워드를 선정하여 검색 엔진에 질문한다면 제대로 답을 얻을 수 있지 않을까? 문제는 계속 진화하고, 계속 더 많은 리소스를 수집하고 있는 검색 엔진이 아니라 제대로 질문하지 못하는 나 자신의 문제는 아닐까?

멍청한 키워드만 입력하고 제대로 된 답을 원하는 나라는 인간의 문제는 아닐까?

참으로 애매한 문제다. 훌륭한 검색 엔진이라고 인정하는 것은 그 속에 반드시 답이 있다고 인정하는 것과 같은데 그럼 결국 질문하는 사람의 한계는 누가 극복하게 만드는 것인가? 검색 엔진이 앞으로 10년 후 전 인류의 의미있고 의미없는 모든 지식을 수집하게 된다면 그 속에 우리가 궁금하게 생각하는 모든 것에 대한 대답이 있는 것일까? 그럼 결국 우리가 제대로 질문하기만 하면 모든 질문에 대한 대답을 얻을 수 있는 것인가? 그렇지 않다고 말한다면 우리는 왜 검색 엔진이 매일 수 억 개의 웹 페이지를 추가로 수집하도록 내버려두는 것인가. 그렇게 수집해봐야 더 나은 대답을 찾을 수 없는데 말이다. 참으로 모순된 현상 아닌가?

검색 엔진은 '더 나은 대답'을 위해 끝없이 수집하고 있고 우리는 '더 나은 대답'을 위해 검색 엔진에 여러가지 키워드를 입력하며 질문하고 있다. 그런데 기계가 데이터를 수집하는 목적과 우리가 검색하는 목적의 궁극적인 의미가 서로 다르다면 어떤 일이 벌어질까? 내가 묻는 질문의 외연은 "가장 저렴한 숙박 시설"이지만 본질은 "심신의 안정"이었다는 걸 검색 엔진이 이해할 수 있을까? 만약 그 결과가 없다면 검색 엔진은 또 다른 대안을 제시할 수 있을까?

사람과 사람의 관계에서 우리는 스스로 대안이 없더라도 그 사람의 고민을 들어주는 자체로 의미를 갖기도 한다. 검색 엔진이 그런 역할을 할 시대가 도래할까? 영화 <A.I>처럼 사람들이 기계에게 고해성사를 하는 그런 시절이 오게 될까? 우리는 도대체 무엇을 근거로 검색 엔진이 내놓는 결과를 신뢰하는 것일까?

우리의 멍청함에 대해, 우리가 신뢰하고 있는 것들의 멍청함에 대해 다시 생각해 본다. 내가 앞으로 30년을 더 살더라도 더 훌륭한 뇌를 가질 가능성은 적지만 앞으로 10년 동안 검색 엔진이 지금보다 훨씬 더 다양하고 많은 웹 문서를 수집할 가능성과 그것을 사람들이 질문하는 유형에 따라 훌륭하게 분류할 가능성은 매우 높다. 그렇다면 앞으로 발생할 인간이 하는 질문에 대해 적절한 대답을 제시하지 못하는 검색 엔진의 문제는 멍청한 사람으로 인한 것인가?

이 멍청한 질문을 정말 멍청한 것이라고 생각하는 사람이 바로 당신이라면 스스로 이런 질문을 해보라, "당신은 왜 컴퓨팅의 결과를 그토록 신뢰하는가?" 인간에 대한 배신감 때문일 수 있겠지만 그보다 당신 스스로 매번 기계적 연산 결과나 함수의 결과에 대해 과신했기 때문은 아닐까? 나는 '공식'을 신뢰하며 스스로 그것을 과학적이라 자부하는 사람들이야말로 가장 비과학적인 사람이라고 생각한다. 과학이야말로 현대의 새로운 종교 아니던가. 백년 쯤 지나면 현재 우리가 믿고 있는 그 '과학'이라는 것이 얼마나 신화적이었음이 밝혀질 것이다. 그 때면 우리가 지금 신뢰하고 있는 검색의 결과라는 것도 어떻게 변할 것 같은가?

미래를 두려워하지 않는다면 현재는 허구일 뿐이다.