구글 검색 알고리즘

날짜2016.04.28
조회수22820
글자크기
  • 구글의 검색엔진 알고리즘
    • 구글 검색엔진은 1998년 PageRank 알고리즘으로부터 지속적인 연구개발로 2016년까지 136건의 업데이트를 통해 세계최고의 웹 검색 성능을 보유
    • 검색 알고리즘의 변경의 주요 목적은 크게 스팸 웹사이트를 걸러내는 것과 사용자의 검색의도를 더 지능적으로 이해하는 부분에 있음
    • 예를 들면, ‘재규어’를 검색했을 때 자동차인지 동물인지 사용자의 의도를 파악하여 더 정확한 결과를 보여주는 것
    • ‘ New York’, ‘New York Times’, ‘New York Times Square’는 단어 상으로 큰 차이가 없지만 의미에 대한 검색결과는 극명히 다르기 때문에, 세 가지 검색에 대한 적절한 결과가 요구됨
    • 구글의 검색엔진 업데이트 Timeline (17년간 136건의 업데이트)
    • 실제로 내부 알고리즘이 변경된 횟수는 2009년 350~400회, 2010년 516회 정도로 지속적인 검색성능 개선이 이루어짐
    • 검색 알고리즘의 변경이 실제 검색결과에 많은 영향을 미침
    • 2011년 11월 Freshness update는 검색결과의 35%가 변경됨
    • 구글의 년도별 검색엔진 업데이트 횟수
    • <그림 1> 에서 2013년 이후 업데이트가 감소하는 이유는 구글이 검색엔진의 성능향상을 위해 인공지능 연구에 더 투자를 한 것으로 추정됨(1) 성공적인 검색엔진을 개발하기 위해서는 다양한 요소가 필수적임(2)
    • 웹 수집 : 접근가능한 모든 웹 사이트에 대한 정보수집
    • 랭킹 알고리즘 : 웹 검색의 결과를 어떠한 기준으로 어떠한 정보를 먼저 보여줄 것인가에 대한 기준.
    • 구글은 약 200여 가지의 우선순위 부여 알고리즘을 활용
    • ※ PageRank는 랭킹 알고리즘의 한 종류
    • 사용자 데이터 : 사용자가 검색한 이력을 바탕으로 사용자의 검색의도를 파악하고 검색엔진의 보완점을 도출해 냄
    • ※ 예를 들면, ‘Audrey Fino’는 인물의 이름인데 Fino는 이탈리아어로 Fine이기 때문에 이탈리아 웹페이지가 계속 검색되는 상황이 발생함. 이러한 점을 사용자의 데이터에서 추출하여 검색엔진 업데이트 시 반영함
    • 컴퓨팅 파워 : 웹 페이지의 저장과 페이지들 간의 연산, 사용자 데이터 저장 및 분석 등 막대한 규모의 컴퓨팅 파워가 요구됨
  • 구글 검색엔진 알고리즘 변천사- 사용자의 의도를 파악하는 지능형 검색엔진으로 진화
    • PageRank 소개
    • 1996년 구글 창업자인 Larry Page와 Sergey Brin이 개발한 PageRank는 웹페이지의 중요도를 결정하는 알고리즘으로 1998년 구글의 검색엔진에 도입됨
    • 구글의 검색 메커니즘에는 PageRank가 존재하나 구글 검색에서 사용하는 약 200여 가지의 검색 알고리즘 중 하나임
    • PageRank는 구글이 최초로 적용한 검색 알고리즘이라는 상징적인 의미로 중요성을 가짐
    • PageRank는 ‘중요한 웹 사이트는 다른 웹 사이트로부터 많은 링크를 받는다.’라는 가정아래 특정 웹페이지의 rank를 부여하는 알고리즘
    • rank는 확률값으로 0과 1사이의 값인데, 예를 들어 ‘A웹 페이지가 0.5의 rank 값을 갖는다.’가 의미하는 바는 어떤 사람이 랜덤하게 링크를 클릭하여 50% 확률로 A웹 페이지로 이동하는 것을 말함
    • 댐핑 팩터(damping factor)를 도입하여 다른 웹페이지로의 링크가 없는 웹페이지에 도달할 경우, 그 다음은 모든 웹페이지를 접근할 수 있는 확률을 부여함
    • PageRank는 고유벡터(eigenvector)값으로 구할 수 있음(3)
    • 웹페이지의 관계와 댐핑 팩터를 고려한 정방행렬의 최대 고유치(maximum eigen- value)에 대한 고유벡터로 PageRank값을 구할 수 있음
    • 구글의 검색엔진 업데이트 내역과 주요 사건
    • 구글의 검색엔진 알고리즘은 양질의 검색결과를 제공하기 위해서 특히 인공지능을 활용하여 사용자의 검색의도를 파악하고, 웹 사이트의 속성과 질을 분류
  • 시사점
    • 구글의 검색엔진은 단순히 PageRank로만 이루어진 것이 아니라 스팸 웹 사이트를 걸러내고, 검색 키워드에서 검색 의도를 분석하는 등 최적의 결과를 제공하기 위해 17년간 총 136회의 업데이트를 진행
    • 최근 구글 검색엔진 업데이트의 큰 방향은 인공지능이기 때문에, 검색엔진에 인공지능이 어떤 역할을 하는지 이해하고 주목해야 할 필요성이 있음