본문 바로가기

Iguacu ONLY

검색엔진의 알고리즘과 블로그 글쓰기의 딜레마


이구아수 블로그를 방문하는 사람 중 검색 엔진을 통해 방문하는 사람들의 비율이 꽤 높은 편이다. 개인 취향이 강력한 힘을 발휘하는 블로그의 특성을 증명하듯 전체 방문자 중 직접 방문의 비율이 40% 이상으로 압도적으로 높다. 직접 방문은 URL을 직접 입력하여 방문하거나 즐겨찾기에 등록해 놓고 방문하는 사람들을 말한다. 직접 방문을 제외한 리퍼러(referer)의 방문 순위를 보면 구글 검색을 통해 방문하는 사용자가 가장 많고 그 다음이 RSS 관리 웹 서비스인 www.hanrss.com를 통한 방문자다. www.hanrss.com을 통한 방문자는 실제로 직접 방문과 별로 다를 바 없기 때문에 - 즐겨찾기를 웹에 해 놓고 방문하는 것으로 본다면 직접 방문과 크게 다를 바 없다 - 다음 순위인 야후!코리아 검색을 통한 방문과 다음, 네이버 검색을 통한 방문 순위가 뒤를 잇고 있다. 따라서 이구아수 블로그의 방문자를 유지해 주는 일등 공신은 직접 방문을 제외한다면 검색 엔진이 매우 큰 영향력을 행사하고 있다.

여기서 검색엔진의 알고리즘과 블로그 글쓰기의 딜레마가 생긴다. 혹시 구글의 검색 알고리즘에 대해 공부해 본 사람이 있는 지 모르겠다. 아직 공부한 적이 없다면 구글에서 "google search algorithm"이나 "google pagerank"로 검색해 본다면 많은 자료를 찾을 수 있을 것이다. 그냥 웹 문서만 검색하지 말고 이미지 검색을 해 보면 아래 그림과 같이 구글 검색 알고리즘에 대한 재미있는 그림도 찾을 수 있다.


구글 페이지랭크에 대한 설명 이미지

사용자 삽입 이미지


구글봇이 페이지 랭크를 메기는 방법에 대한 이미지

사용자 삽입 이미지


구글 페이지 랭크에 대해 논하자면 하루가 부족하겠지만 가장 간단한 원리를 설명하면 다음과 같다. 아래 내용은 분명히 기술적인 설명이 아니라 기술적인 내용에 대해 이해도가 낮은 사람을 위한 설명이다. 따라서 오류가 있으며 그 오류에 대해 내가 모르는 것이 아님을 미리 이야기한다. 그러나 초보적인 수준에서 검색 엔진의 원리를 아래와 같이 이해해도 별 관계는 없다. 아래는 검색 엔진의 동작 원리에 대한 것이다.


여기 한 사용자가 있다. 사용자는 어떤 요구에 대한 답을 찾기 위해 검색 엔진을 방문한다. 그리고 "검색어"라는 것을 입력한다. "검색어"는 사용자가 찾고자 하는 어떤 질문을 함축하는 것이며 - 그래서 keyword라고 부르는 것이다, 질문에 대한 열쇠(key)가 되는 단어(word)라는 의미다 - 동시에 사용자는 그 키워드가 정확히 자신의 질문을 구체화하는지 잘 모른다. 질문하는 사람이 질문의 핵심을 정확히 아는 경우는 매우 드물다. 심지어 질문을 하면서도 자신이 제대로 질문하고 있는지 모르는 사람이 허다하다. 다른 측면에서 사용자가 "50인치 LCD TV"라는 검색어를 입력했다고 해서 그것이 무엇을 의미하는지 검색 서비스가 정확이 알고 있는 것은 아니다. 이 정도의 몇 개 검색어로 그걸 사고 싶은 건지 그냥 이미지를 보고 싶은건지 A/S 여부를 알고 싶은 건지 생산하는 업체의 직원수를 알고 싶은 건지 검색 서비스가 무슨 재주로 알겠는가?

매우 중요한 사실은 그 검색어를 입력한 사용자 자신도 자신의 요구에 맞는 검색어를 입력했는지 확신하지 못한다는 것이다. 실제로 검색어를 입력하는 사람들은 자신의 요구를 정확히 자연어로 입력하지 않고 자신이 판단해서 가장 적절한 몇몇 단어를 입력할 뿐이다. 400L 짜리 냉장고를 사고 싶은 사람들이 검색 서비스에서 입력하는 단어는 "400L 냉장고"인 경우가 많고 "400L LG디오스냉장고 가장 싼 가격 3일 이내 배송 최저 전력"이라고 입력하지 않는다. 이런 식으로 길게 입력해 봐야 세상에서 가장 강력한 검색 서비스라는 구글도 이런 결과 밖에 보여 주지 못한다.

사용자 삽입 이미지

한국에서 가장 강력한 검색 서비스를 제공한다는 네이버도 다를 바 없다.

사용자 삽입 이미지

사용자가 검색어를 입력하긴 했지만 정말 사용자 자신의 요구를 정확히 반영한 검색어를 입력했는지 알 수 없다. 게다가 검색 서비스도 사용자가 무얼 원하는지 정확히 알 수 없다. 이것이야말로 검색 서비스의 점쟁이 딜레마이다. 어떻게 보면 네이버나 다음과 같은 국내 검색 서비스가 통합 검색을 내놓은 것은 점쟁이 딜레마에 대한 나름의 대안일 수 있다. 30세의 멀쩡한 남성이 우중충한 표정으로 무릎팍 도사를 찾아와서 "요즘 하는 일마다 되지 않습니다."라고 질문하면 도사는 뭐라고 이야기하겠는가?

- 너 애인이랑 관계가 안 좋지?
- 회사에서 괴롭히는 상사가 있고 진로 고민이 되지?
- 유학을 가거나 대학원에 진학하려고 생각하고 있지?

이런 질문을 하게 될테고 세 개 중 하나는 고민에 포함되어 있을 것이다. 어떤 것 하나가 걸리면 거기서부터 무릎팍 도사는 이야기를 풀어 가면 된다. 이걸 네이버나 다음과 같은 국내 포털의 통합 검색은 이렇게 풀어 내고 있다.

- 지식in 이나 블로그 검색 결과
- 책 검색이나 전문 문서 검색
- 기업 정보나 동영상 검색

통합 검색은 일종의 "다 이야기하다보면 답은 있다"는 식의 카운셀링과 비슷하다. 물론 나름대로 질문하는 것과 대답을 클릭하는 것을 통계분석하여 가장 적절한 답을 먼저 보여주고 있으니 제법 유능한 점쟁이 검색이라 할 수 있다. 하긴 그렇게 보면 구글도 다를 바 전혀 없다.


검색 서비스 제공사들은 이런 문제 - 서로가 무엇을 질문하는 지 잘 모르는 것 - 를 해결하기 위해 다양한 방법을 개발하고 있고 점점 더 검색 서비스는 명석하게 변화하고 있다. 그러나 현재의 한계는 분명하다. 검색 서비스의 검색 수집기와 인덱서는 수집한 글에 대해 대개 다음과 같은 규칙으로 검색어와 유사성을 판단한다.

- 문서 제목에 검색어가 나타나 있는가?
- 문서 제목에 검색어가 얼마나 자주 나타나 있는가?
- 문서 본문에 검색어가 나타나 있는가?
- 문서 본문에 검색어가 얼마나 자주 나타나 있는가?

이것이 검색 서비스가 웹 문서를 수집하고 사용자가 검색 서비스에 접속하여 검색어를 입력했을 때 가장 적절한 문서를 보여 주는 순서 배열의 가장 기본적인 원칙이다. 대부분의 검색 서비스들은 이런 가장 기본적인 원리에서 출발하여 좀 더 정교하고 신뢰성 높은 결과를 보여 주기위해 다양한 알고리즘과 로직을 적용한다. 그러나 기본은 위 4가지다. 마치 민주주의의 기본이 뭐냐고 묻는다면 '인민의 참여'라고 말하는 것과 비슷하다. 가장 기본이 되는 이념이 동창회 모임의 규칙에 영향을 미치는 것과 같다. 검색 서비스 또한 가장 기본이 되는 이념 즉, "가장 중심적으로 가장 자주 언급된 단어를 포함하는 문서가 가장 적절한 대답이다"라는 이념에 기초하여 구현되고 있다.

이런 검색 서비스의 기본 이념과 검색을 통해 유입되는 트래픽이 점점 증가하는 대부분의 블로그의 현황 때문에 검색 서비스는 블로그의 글쓰기에 딜레마를 가증시키고 있다. 검색 서비스가 좋아하는 웹 문서는 검색 키워드를 많이 포함하고 있고 검색 사용자가 클릭하기 좋은 요약본(가능하면 문서의 처음 부분에 키워드가 많이 포함된 문장이 있으면 좋다)이 존재하며 그 검색어가 자주 반복되는 웹 문서다. 스팸 블로그를 본 적 있는가? 이들은 금방 이야기한 이런 규칙을 충실히 따르고 있다. 검색 서비스가 어떤 문서를 좋아하는지 - 어떤 문서에 대해 검색어와 유관성이 높다고 판단하는지 - 잘 알고 있기 때문이다.

이런 사실에 대해 과학적으로 기술적으로 정확히 이해하는 사람은 그리 많지 않다. 구글 애드센스를 자신의 블로그에 붙여 둔 사용자들은 어떻게 하면 더 많은 방문자가 자신의 블로그를 방문할까에 대해 관심이 많다. 그런 팁(tip)을 알려 주는 블로그도 꽤 많다. 그러나 본질적으로 내가 쓰는 글이 검색 서비스의 알고리즘과 수집기가 선호하는 문서가 되지 않으면 결국 소외 당할 수 밖에 없다는 엄연한 현실에 대해 심각하게 생각하는 사람은 그리 많지 않다. 애드센스를 통해 쌓여 가는 현금에 즐거워하고 어떻게 하면 구글이나 네이버와 같은 검색 서비스에 자신의 글이 더 많이 노출될 수 있는지 알려 주면서 즐거워하는 사람은 많지만 이것이 얼마나 큰 딜레마인가에 대해 진지하게 고민하는 사람은 적다. 기껏해야 "내가 노력해서 쓴 글과 돈 벌기의 비대칭"에 대한 한탄만 있을 뿐이다.

핵심은 그런 것이 아니다. 내가 아무리 훌륭한 글을 써도 검색 서비스의 수집기가 이해하지 못한다면 아무런 소용이 없다는 게 핵심이다. 검색 수집기가 이해되는 글을 쓰려면 제목과 본문을 수정할 수 밖에 없다는 게 핵심이다. 검색 수집기 대부분이 우리가 기대하는 것 이하로 우둔하고 단순하다는 게 핵심이다. 전지전능하고 호혜평등하며 무사공평한 검색 수집기를 기대하지 말라는 말이다.


따라서 아무리 훌륭한 글쓰기를 하더라도 제목과 본문에 검색 서비스 사용자들이 즐겨 사용하는 검색어가 많이 포함되지 않았다면 그냥 버려질 수 있다. 아무도 방문하지 않을 수 있고 아무도 인용하지 않을 수 있고 애드센스를 클릭하는 사람은 없을 것이다. 그렇다고 쓰고자 하는 제목을 단지 검색 서비스를 위해 수정할 것인가? 불필요한 단어와 문장을 검색 서비스를 위해 넣을 것인가? 나는 글쓰기의 자존심이라는 이유 때문에 그런 노력을 추천하지 않는다. '웹 2.0'이라는 주제에 대해 글을 쓰더라도 제목과 본문에 단 한 번도 '웹 2.0'이라는 단어가 들어가지 않을 수 있다. 설령 그렇더라도 현명한 검색 서비스 수집기라면 내 글을 알아서 '웹 2.0'이라는 검색어의 결과에 포함시켜야하지 않을까? 물론 그래서 나온 것이 태그(tag)라는 아이디어다. 제목과 본문을 마음대로 쓰고 정말 관련있다고 생각하는 검색어를 태그로 입력하라는 소리다. 한 마디로 유능하지 못한 검색 서비스 수집기를 위해 사람들이 손수 고생하라는 말이다. 이런 걸 'collective Intelligence'라고 부르니 정말 웃기는 일이지만 어쨌든 문서에 대한 메타 키워드(meta keyword)를 입력하는 걸 좀 쉽게 만든 정도라고 이해하면 그냥 넘어갈 수 있을 것 같다. 실제로 웹 2.0 신드롬에서 자주 언급된 태그 시스템은 웹 문서의 메타 키워드와 다를 바 하나 없다. 태그 시스템은 사용자가 쉽게 업데이트할 수 있는 웹 문서의 메타 키워드다. 이걸 무슨 대단한 혁신인 듯 언급한 자들과 그걸 믿고 뭔가 대단한 것이 있다고 떠들어댄 동조자들의 멍청함에 박수를 보낼 뿐이다. (무슨 말인지 모르겠다면 웹 문서의 '메타 키워드'에 대해 검색해 보라)


우리는 한동안 검색엔진의 힘을 빌어 내가 블로그에 쓴 글이 널리 퍼지길 기대할 수 밖에 없다. 때문에 우리는 가능하면 검색 서비스를 사용하는 사람들이 즐겨 쓰는 검색어와 유사한 제목을 쓸 수 밖에 없고 본문에 그런 키워드가 자주 등장하게 글을 쓸 수 밖에 없다. 아니면 싸이월드 미니홈피처럼 검색엔진의 도움 따위는 필요없는 폐쇄적 서비스를 쓰든가. 싸이월드 미니홈피는 검색 엔진의 알고리즘과 수집 로직을 고려할 필요가 전혀 없다. 원래 태생이 그런 걸 고려하지 않고 성장하도록 제작되었기 때문이다. 그러나 우리가 블로그를 쓰고 있고 내가 블로그에 쓴 글이 RSS든 메타 블로그든 검색 서비스이든 어떤 다른 도메인(domain)으로 퍼져 나가 그것이 다시 검색 가능한 웹 문서가 된다면 반드시 검색 서비스의 웹 문서 수집 원리를 일부분 수용할 수 밖에 없다. 결국 그 두리 안에 묶여 있기 때문이다. 웹 서비스의 웹 문서 수집기가 지금보다 훨씬 현명해 질 때까지 우리는 그런 현실을 부정할 수 없을 것이다.

그래서 여기에 새로운 대안이 있다. 올블로그나 블로그코리아, 이올린, 미디어몹과 같은 메타 블로그에 자신의 블로그 글을 보내는 것이나 미디어다음, 조인스닷컴, 오마이뉴스와 같은 미디어 서비스에 자신의 글을 기고하거나 오프라인 매체에 기사를 보내는 방법이 있다. 책을 쓰는 것도 마찬가지다. 블로그는 웹(WWW)이라는 플랫폼 위에 존재하기 때문에 검색 서비스라는 플랫폼으로부터 결코 자유로울 수 없다. 검색 서비스의 질도 결국 발전하겠지만 다소 느릴 가능성이 있다. 자연어 검색이나 인공지능 검색은 아직 연구해야할 과제와 도전해야 할 영역이 매우 많다. 그 변화는 매우 느릴 것이다. 현재를 그런 변화의 과도기라고 볼 때 금방 이야기한 대안은 블로그를 통해 글쓰기를 하는 사람들에게 자신의 글이 확대되는데 도움을 주는 검색 서비스와 딜레마를 극복하는 주요한 방법이 될 것이다.


거대이론으로 볼 때 우리는 콘텐츠의 양과 질을 동시에 발전시키는 콘텐츠 르네상스 시대의 시작 지점에 있다.

** C2와 싸이월드 미니홈피에 대한 짧은 이야기 하나

SK컴즈는 C2라는 프로젝트를 통해 싸이월드 미니홈피의 폐쇄성을 극복하고자 노력했다. 그러나 이것은 최초의 시도부터 잘못된 것이었다. 싸이월드 미니홈피는 검색 서비스의 도움이 필요없는 서비스였다. 1촌이라는 시스템은 사람들 개개인이 필요와 개별적인 요구에 의해 콘텐츠를 연계하는 것이었다. 때문에 1촌 시스템은 검색 서비스가 필요로 하는 제목과 본문을 검색어와 연계하는 시스템과 그리 친하지 않았다. 싸이월드 미니홈피는 철저히 개인적인 친분과 인맥을 위한 폐쇄적 서비스였고 사용자들은 자신이 원치 않는 사람들이 미니홈피를 방문해야 할 이유에 대해 이해하지 못하고 있다. 현재 싸이월드 사용자들이 검색 시스템과 친근한 형태로 미니홈피를 운영하려면 결국 제목과 본문에 검색어에 적합한 단어를 많이 사용해야 한다. 그것이 가능하려면 싸이월드 미니홈피라는 근본 개념을 파괴해야 한다.

그것이 가능할까? 도전하는 것을 막을 생각은 없지만 웹 서비스 컨설턴트로로써 내게 똑같은 질문은 한다면 나는 "불가능하다"고 말할 것이다. 그리고 연이어 C2가 아닌 "완벽히 다른 브랜드의 서비스를 만들라"고 조언했을 것이다. SK컴즈에서 완벽히 다른 브랜드의 서비스를 만들고 싸이월드 사용자를 그 서비스로 유입하도록 도모했다면 C2는 지금보다 훨씬 좋은 성과를 거두고 있을 것이다. 미래에 대한 낙관도 가능했을 것이다. 그러나 안타깝게도 현실은 그리 좋지 못하다. C2를 개설한 싸이월드 사용자의 숫자 중 대부분은 '이게 뭐야?'라는 궁금증에 의한 가수(가짜 수요)였을 뿐이다. 굉장히 나쁜 것은 그 수요가 그래도 몇 십만 명 이상이어서 운영자들이 본질을 바라볼 수 없게 만든다는 점이다. 이것은 다음의 플래닛과 다를 바 없는 현상이다. 회사 내부 근무자가 "실제로 그런 것은 아니다, 내부 사정 알지도 못하면서 헛소리하지 말라"고 내게 윽박지를 지 모르겠다. 그러나 나는 올해 C2가 공개된 이후 내가 쓴 검색 서비스에서 그 결과 중 단 한 번도 C2로 링크되는 결과를 본 적 없다. 이것에 대한 설명이 "아직 엠파스의 검색 솔루션과 결합되지 않았다"는 정도라면 나는 이렇게 말하겠다, "어느 세월에?"

본질과 본성, 핵심에 대해 잘못 판단하는 것을 극복하는 것은 힘들다. 회사의 자본이 많을수록 더욱 힘들고 더욱 오래 걸린다. 안타깝다고 말하면 기분 나쁘겠지만, 안타깝다.

'Iguacu ONLY' 카테고리의 다른 글

인생 그리고 목숨을 걸고 만든 웹 서비스  (3) 2007.09.10
토씨 vs 블로그  (1) 2007.09.09
Microsoft Tafiti, 검색 인터페이스의 비주얼  (4) 2007.08.24
퀴즈  (3) 2007.08.17
덧글, 그 얄팍함  (13) 2007.08.17