본문 바로가기

검색엔진

(4)
멍청한 검색엔진인가 멍청한 사람인가? 검색엔진이라고 하면 가장 먼저 떠 오르는 것은 내 블로그 방문자를 기준으로 할 때 '구글'과 '네이버'일 것이다. 중국이나 일본의 인터넷 사용자라면 또 다른 검색 엔진을 떠 올릴 수 있다. 구글이 수집하여 저장하고 그리하여 검색 가능한 웹 페이지의 숫자는 10억 개니 15억 개니 하는 말이 많지만 누구 하나 직접 숫자를 세어본 바 없으니 그저 '엄청나게 많다'고 알고 있다. 구글은 지난 7월 페이지가 아닌 URL 기준으로 1조 개의 URL을 수집하고 있다고 이야기한 바 있다. 구글이 압도적으로 우수한 검색 엔진의 소유 업체라는데 이견이 있는 사람은 별로 없을 것이다. 구글의 검색 결과와 네이버의 검색 결과에서 특히 '한글로 검색했을 때' 그 결과의 신빙성에 대해 의심하는 사람은 많지만 그럼에도 불구하고 ..
검색엔진 위스폰(wispon) 오늘자 뉴스를 읽던 중 서울대 교수와 학생이 만든 검색 엔진인 위스폰(www.wispon.com)에 대한 기사를 보았다. 그럭 저럭 내용을 읽은 후 사이트에 접속해 'blog'로 검색을 해 봤다. 최상위 결과로 올블로그 출력되었다. 그런데 수집기가 무슨 생각인지 아래와 같은 결과를 수집해서 보여준다. 올블로그의 robots.txt는 몇몇 수집에 불필요한 디렉토리에 대한 웹 문서 수집기(crawler)의 접근을 금하고 있다. 추측하기로 수집기가 해당 디렉토리에 접근하면 저런 메시지를 보여 주는 듯 하다. 아니면 봇이라 판단하면 모두 저런 메시지를 돌려 주든가. 어쨌든 수집기에게 이런 저런 이야기를 한다는 발상도 재미있고(아마 수집기 로그를 보고 개발자가 생각 좀 하란 뜻일 듯), 또 멀쩡한 사이트 타이틀 ..
이해와 오해와 실전 구글에 대해 극심한 토론이 있었던 글을 발견했는데 그 길고 긴 논쟁에 대한 답은 딱 한 가지라는 생각이 들었다, "직접 만들어 봐" 나는 오래 전, 인터넷에 접속하는 것 자체가 기술이기도 했던 시절에 자연어 검색이라든가 형태소 분석 따위의 논의를 주의 깊게 살펴 본 적이 있었다. 사회과학도였던 나는 그 논의를 이해하기 위해 내 인생과 거의 관계가 없던 기술 서적을 사서 보기도 했다. 결론은 잘 모르겠다였고 그 논의는 내가 개입할 부분이 아니라고 인정하는 것이었다. 하지만 당시엔 국내 인터넷이 꽤 좁은 편이어서 웬만한 큰 논의는 알기 싫어도 알게 되는 상황이었다. 지금처럼 너무나 다양한 주제가 매일 새롭게 생성되어 취사 선택이 더욱 중요한 것과는 비교할 수 없을 정도였다. 또 오랜 시간이 흐른 후 나는 검..
아랍권 검색 엔진, 사와피(Sawafi) 사우디 "아랍권 바이두 만들겠다" 사우디의 인티그레이티드 테크니컬 솔루션사가 독일 인터넷 기술업체 시크포트사와 아랍어로 된 인터넷 검색 엔진 '사와피'(Sawafi)를 공동개발할 계획이라고... 이 기사에는 유용한 정보가 포함되어 있다. 흔치 않은 정보니 기억해 두는 것이 좋겠다. 현재 1000만달러 규모인 아랍 온라인 광고 시장은 오는 2008년에는 1억5000만달러로 성장할 것으로 전망된다. 사와피는 2억8000명의 아랍인들은 물론 유럽과 북미 지역에 있는 아랍 인구까지 타깃으로 하고 있다. 두바이 소재 인터넷 조사업체 마다르에 따르면 아랍의 인터넷 이용자수는 2004년 1600만명에서 2008년께는 4300만명으로 늘어날 전망이다. 영어는 인터넷 자료의 70%를 차지하고 있는데 아랍 인터넷 이용자의..