본문 바로가기

Web Insight

자연어 검색과 큐레이션

어떤 목적을 달성하기 위해 검색을 했다. 단순 검색어를 입력했더니 감당할 수 없는 결과가 나왔다. 검색 결과 상위에 나온 몇 개 결과를 읽다 포기하고 재검색한다. 첫번째 검색에서 얻는 정보를 기초로 새로운 검색어를 포함하여 검색한다. 여전히 검색 결과가 많다. 다시 몇 개의 결과를 읽고 새로운 검색어 혹은 검색 옵션 - 시간, 범주, 예외 등 - 을 사용하여 검색한다. 이전보다 훨씬 결과 숫자가 줄어 들었지만 아직 하나의 답을 찾지 못했다. 몇 개의 결과를 읽고 다시 검색한다.

이런 과정은 매우 피곤한 일이다. 과도하게 많은 정보가 나오고 그것을 이해하는데 노력이 필요한데 이것을 "정보 피로도"라고 말한다. 검색 뿐만 아니라 순식간에 쏟아져 나오는 뉴스, 블로그 포스트, 각종 피드나 메일링 리스트와 같이 많은 읽을 거리 앞에서 느끼는 감정을 "정보 피로"라고 하기도 한다. 웹(Web)이라는 플랫폼 덕분에 고립된 네트워크 안에 머물던 정보가 인터넷으로 옮겨오기 시작했고 검색엔진과 정보를 재가공하거나 무상 공급하는 선의의 커뮤니티 덕분에 정보 접근성이 매우 높아졌다. 거기에 게시판, 블로그, SNS와 같은 콘텐츠 생산 서비스를 통해 콘텐츠 생산성이 비약적으로 증가했다. 스마트폰으로 대표되는 콘텐츠 접근성이 높아진 새로운 디바이스 덕분에 인터넷과 웹이 시작된 후 가장 많이, 가장 빠르게 콘텐츠가 소비되고 있다. 

그런데 검색 서비스는 과거 10년 간 이루었던 큰 발전에 비해 최근 그 한계를 경험하고 있다. 덕분에 "빅데이터 분석"이라는 키워드가 오히려 주목 받고 있다. 이건 조금 문제가 있는 접근이다. 오히려 더 필요한 것은 "자연어 검색"이다. 검색 엔진이 사람이 하는 말의 의도를 있는 그대로 이해할 수 있어야 하는데 현재 검색 엔진은 여전히 과거 화두에서 벗어나지 못하고 있다. "빅데이터 분석" 또한 자연어 검색이 되지 못하면 결국 데이터 연구자를 위한 과제일 뿐 사용자 일반을 위한 이슈는 아니다. 


우리는 현재 시점에서 내가 원하는 검색 결과를 얻기 위해 스스로 키워드를 추출해서 검색해야 한다. 

"오늘 아침 어벤저스를 가족 3명이 보러 가고 싶은데 반포동 근처에서 가장 저렴하게 영화를 볼 수 있는 영화관이 있나? 예약을 하지 않고 가능한 시간대는 언제지? 나는 오후 2시쯤에 가고 싶고 영화관에 가기 전에 점심도 먹고 싶어. 예산은 10만 원 정도 생각하고 있는데..."

이런 게 보통의 사람들이 갖는 질문이다. 한 번의 검색으로 이 질문에 대한 답을 모두 얻는 것은 불가능하다. 때문에 네이버나 다음과 같은 국내 포털 서비스는 통합 검색이라는 솔루션을 제공하는 것이다. 하지만 "큐레이션"이라는 게 도입되면 어떨까? '어벤저스'라는 키워드로 검색을 했더니 이 영화를 가족과 함께 본 사람의 후기가 나온다. 그 사람에게 위와 같은 질문을 한다. 그리고 곧 답변이 날아온다,

"반포동이면 메가박스 고속터미널점에 가면 됩니다. 가장 싸게 보려면 조조가 오전 9시에 시작하고 1인당 5천원이니 가장 쌀 겁니다. 오늘은 어린이날이니 현장 구매를 하려면 조금 일찍 가야겠죠. 그런데 오후 2시에 간다고 했으니 소셜 커머스에서 판매하는 쿠폰을 사는 방법이 있을 것 같습니다. 점심 식사를 하려면 근처에 많은 식당가가 있습니다. 베트남 쌀국수를 좋아하면 **에서 드시면 될 것 같아요. 대략 1인당 1만 원 정도면 될 겁니다."

이런 대답을 얻을 수 있을 것이다. 멋지지 않나? 이런 대답을 한 사람을 통해 들을 수 있으면 가장 효과적이지만 여러 사람의 대답을 종합해서 얻을 수도 있을 것이다. 그러나 이것은 큐레이션이라기 보다는 "인공지능 검색" 혹은 "자연어 검색" 또는 "시멘틱 검색"이라는 분야에서 오래전부터 연구하고 있는 것이다. 큐레이션이라는 단어를 줄기차게 사용하는 사람들을 보면 뭔가 새로운 개념을 내세우고 싶거나 아니면 과거부터 지금까지 연구해 온 과제를 잘 모르는 게 아닌가 싶다. 혹은 검색 알고리즘과 같은 복잡하고 기술적인 접근 방법 대신 새로운 관점에서 이 문제를 해결하고 싶은 게 아닌가 싶다. 그러나 결국 큐레이션 또한 근본적으로 같은 문제에 대한 인식에서 출발했으니 해결 방법도 근본에서 다를 바 없다는 걸 알게 될 것이다.


큐레이션에 대한 논의가 나름 의미가 있는 것은 SNS로 대표되는 최근 주목 받는 서비스에서 쏟아져 나오는 콘텐츠와 사용자 반응 데이터에 대한 이해를 위한 것이라 생각한다. 시간과 상황 그리고 상대적 반응이라는 카테고리에서 사용자들이 쏟아내는 콘텐츠는 과거와 다르게 해석할 수 있기 때문이다. 예를 들어 "난 휴대전화 안 바꿀꺼야,"라고 자신의 블로그에 짧은 글을 올렸을 때 그것의 의미를 해석하는 것은 거의 불가능하다. 반면 어떤 사람이 아이폰4s를 긍정적으로 평가한 페이스북 글에 대해 "난 휴대전화 안 바꿀꺼야."라고 글을 썼다면 또 다른 해석이 가능하다. 큐레이션이 주목 받는 이유는 과거와 달리 SNS를 통해 쏟아져 나오는 콘텐츠 대부분이 어떤 상황과 연계된 표현이기 때문이다.

그러나 큐레이션을 인간대 인간의 대화로 제한하여 이해한다면 별다른 성과를 얻지 못할 수 있다. 큐레이션은 시간과 상황 그리고 구분 가능한 반응이라는 특성 때문에 재조명되고 있는 것이다. 어떤 의미에서 큐레이션은 정보 피로도라는 관점이 아니라 '더 잘 분석할 수 있는 메타 데이터'가 생산되고 있음에도 검색 엔진이 이것을 제대로 분석하지 못하고 있다는 반성으로 받아 들여야 한다.