메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

한빛출판네트워크

IT/모바일

웹사이트 데이터 분석 기초(1) - 전문용어 익히기

한빛미디어

|

2006-12-08

|

by HANBIT

8,804

제공: 한빛 네트워크
출처: 웹사이트 분석의 기술: 온라인 비즈니스 성공을 위한 100가지 제안 Chapter 1.

웹데이터 분석의 세계에서는 용어가 매우 중요하다. 인터넷에서의 활동을 관찰하는 것에 많은 경험을 가진 사람은 드물다. 따라서 용어를 잘 사용해서 설명해주는 것이 중요하다. 기술적인 부분에 관심을 갖고 있는 사람이라면, 이 핵을 통해서 사람들의 활동을 비트와 바이트로 바꾸어 저장하는 방법을 이해할 수 있을 것이다. 그리고 마케팅적인 측면에서 접근하는 경우라 하더라도 기초적인 정보를 어디서, 어떻게 얻는지에 대해 이해할 수 있을 것이다.

[그림 1-1]은 기본 용어의 이해를 돕기 위한 것이다. 이 피라미드 모형에서와 같이, 사용할 수 있는 데이터의 크기가 작아짐에 따라 정보의 가치는 높아진다. 데이터량이 가장 큰 바닥부분은 “히트”이며, 최상단은 “순방문자”로, 측정할 수 있는 것들 중의 “성배” [가장 유용한 데이터라는 의미]라고 할 수 있다.


[그림 1-1] 웹데이터 분석에서 쓰이는 데이터의 피라미드 모델


자신이 이 분야의 용어들에 대해서 잘 알고 있는 경우라 할지라도, 각 용어간 경계는 혼동스러울 것이다. 그래서 지금부터 그 의미를 명확히 구분해서 혼동을 줄이고자 한다.

히트(Hits) 웹데이터 분석에서 가장 많이 사용되는 용어다. 때문에 과용되기도 하고 잘못 이해되기도 한다. 사람들은 “사이트 히트수”, “ 페이지 히트수”, “ 서치엔진 히트수” 같은 용어를 너무 자주 사용한다.

WebTrends사에서는 히트를 다음과 같이 정의하고 있다.

“히트란 사용자가 웹페이지를 보거나 파일을 다운로드하는 것과 같은 웹사이트 상에서의 활 동을 말한다.”
정의를 보면 의미가 명확한 것 같다. 하지만 “페이지뷰”라는 용어와 다른 점을 묻는다면 선뜻 대답하기 어려울 것이다. 그럼 “파일을 다운로드하는 것”이란 부분을 잘 살펴보자. 여기서 파일이란 실행 파일, PDF 파일, 사운드 파일, JPEG, PNG, GIF와 같은 이미지 파일 등을 포함한다.

문제는 여기서 하나의 “페이지”란 기술적으로 수백 개의 “히트”일 수도 있다는 점이다. 왜냐하면 페이지를 구성하는 요소인 텍스트, 이미지 파일 하나하나가 전부 히트로 간주되기 때문이다.

이렇게 페이지 하나를 읽어올 때, 그 페이지에 포함된 이미지 파일수에 따라 수백 개의 히트가 기록되기도 하기 때문에, 실제 업무의 참고자료로 쓰기는 어렵다. 하지만 슬퍼하기엔 아직 이르다.

이제 우리는 “히트”라는 단어가 흔히 오용되곤 한다는 사실을 인지하고 다음으로 넘어가자. 그리고 이제부터는 “히트” 대신 “페이지뷰”, “ 검색엔진의 참조횟수”와 같은 용어를 사용하자. 웹데이터 분석 분야에 있어 “히트”는 한물간 용어다.

페이지뷰(Page View)

페이지뷰는 웹데이터 분석의 기본단위로, 한 사람이 하나의 웹페이지를 본 것을 말한다. 또한 방문자의 클릭스트림(Clickstream: 특정 사이트를 방문한 뒤, 그 후 클릭한 것들을 뜻함)을 알 수 있으므로, 방문자의 관심을 보여주는 척도이기도 하다.

인터넷 광고 측정표준을 관장하는 인터넷 광고국(IAB: Interactive Advertising Bureau)에서는 “인터랙티브 방문자 측정”과 “광고캠페인 결과 보고 및 감사 지침”이라는 문서에서 페이지뷰에 대해 다음과 같이 언급하고 있다.

“페이지뷰란 웹브라우저가 요청한 것을 웹서버가 응답한 것이라고 정의할 수 있다. 그런데 이때 검색엔진 로봇이 요청한 것이나 웹서버 에러코드 출력과 같은 것은 제외시킴으로써, 실제 사람이 본 페이지에 가장 근접한 값을 산출한다.”
본서에서는 페이지뷰를 다음과 같이 정의한다.

“페이지뷰는 웹사이트 방문자가 요청한 문서(즉, 내용이 담긴 하나의 웹페이지)를 성공적으로 읽어온 횟수를 말한다. 이때, 전송 방법이나 컨텐트를 요청받은 빈도와는 상관이 없다.”
물론 페이지뷰를 콕 찍어서 하나로 정의하기는 어렵다. 그렇지만 전반적인 개념을 이해하는 것은 중요하다. 실제로 페이지뷰는 특정 웹사이트나 특정 웹페이지의 인기를 가늠할 수 있는 손쉬운 방법이다.

방문(Visits)

방문은 세션 또는 사용자 세션이라고도 하며, 웹사이트를 돌아다닐 때의 페이지를 모은 것으로 정의된다(이를 “클릭스트림”이라고도 한다). IAB에서는 다음과 같이 정의하기도 한다.

“하나의 페이지뷰에 해당하는 텍스트/그래픽을 다운로드하고, 30분 동안 사이트 내에서 활동이 있는 경우, 하나의 세션으로 정의할 수 있다.”
그다지 복잡하지 않게 보일지 모르지만, 사람들이 웹사이트를 돌아다닐 때를 떠올려보면 위 정의가 애매모호하다고 느낄 것이다. 다음의 두 예를 보자.

  • 현이는 브라우저에 URL을 입력한 다음, 링크를 클릭해서 원하는 사이트에 들어갔다. 그리고 일정 시간 동안 일을 처리했다. 그 후 다른 사이트로 이동했다.
  • 믿음이는 브라우저에 URL을 입력한 다음, 링크를 임의로 클릭해서 이곳저곳을 서핑했다. 그러는 도중에 커피를 마시러 나갔다 오기도 했고, 식사도 하러 다녀왔다. 그러면서 중간 중간에 전화 통화도 했다. 웹사이트 내용은 자세히 보지 않았지만, 여러 웹사이트를 여기저기 돌아다녔다.
둘 다 인터넷을 서핑하는 전형적인 예라고 할 수 있다. 현이의 방문이 끝나는 때는 알기 쉬우나, 믿음이의 경우는 어렵다. 웹서핑을 하는 사람의 진정한 의도는 알기가 거의 불가능하므로, 약간의 가정이 필요하다. 가장 기본적인 가정은 30분 동안 아무런 클릭이 없는 경우에 이미 그 사이트를 “떠난 것”으로 간주하는 것이다.

“왜 30분이죠?”라고 묻고 싶을 것이다. 좋은 질문이다. 그다지 만족할만한 대답은 아닐지 모르지만, 그게 가장 널리 쓰이고 있는 나름대로의 기준이기 때문이다.

방문의 가장 적절한 정의는 다음과 같다.

“방문이란, 특정 방문자의 웹 상에서의 활동(여러 웹페이지를 클릭해서 이동하면서 보는 것; 클릭스트림이라고도 한다)을 하나로 셈한 것이다. 단, 여기서 30분 동안 클릭 또는 다른 활동이 없으면 방문자가 웹사이트를 떠난 것으로 간주하고, 이것이 하나의 방문이 된다.”
이와 같이 방문자 한 명이 클릭하는 횟수에는 제한이 없다. 단, 클릭은 29분 59초 이내에 이루어졌을 때만 유효하다. 이렇게 하면, 동일한 방문자가 한 사이트를 하루에 여러 번 방문하더라도 한 사람으로 인식할 수 있다(한 번 방문에 30분의 제한이 있기 때문). 그리고 방문자수와 방문횟수의 비율은 주요성능척도(KPI: Key Performance Indicators)[Hack #94] 이기도 하다. 방문은 유료 검색엔진 광고와 순수 검색 결과,[Hack #42와 #43] 배너광고캠페인[Hack #40] 을 구분하는 데 아주 중요한 요소다.

순방문자(Unique Visitors)

웹사이트 데이터 분석의 세계에서는 각 개인을 “순방문자”라고 한다. [그림 1-1]에서 보듯이 순방문자는 피라미드 모델에서 최상위층을 차지하고 있으며, 세 가지 형태(완전익명, 부분익명, 기명[Hack #5] 로 존재한다. 또 한 가지 기억해야 할 점은 여기서 순방문자란 진짜 사람을 이야기하는 것이지, 웹로봇[Hack #23] 을 지칭하는 것은 아니라는 점이다.

IAB에서는 순방문자에 대해 다음과 같이 엄격하게 정의해 놓았다.

“순방문자란 일정 시간 동안 사이트를 방문한 실제 사람수를 뜻한다. 이때, 일정 시간 이내의 클릭 및 기타 활동은 모두 한 명의 순방문자로 간주한다.”
짧게 정의 내렸지만 중요한 내용을 포함하고 있다. 특히 “일정 시간 내”라는 개념, 그리고 “순방문자”와 “방문”의 관계가 중요하다. 저자는 순방문자를 다음과 같이 정의하는 것이 가장 적절하다고 생각한다.

“한 사람이 웹브라우저를 이용해서 웹사이트를 방문할 때를 하나의 순방문자로 친다. 이때, 사용자가 읽은 페이지수, 클릭수, 머문 시간은 상관이 없다. 방문한 시간대가 달라도 한 명의 방문자로 식별할 수 있어야 하고, 가급적 여러 브라우저에서도 데이터를 공유해 진정한 한 개인을 식별할 수 있어야 한다.”
설명이 다소 복잡한데, 순방문자 역시 독자나 저자와 같은 한 명의 “사람”이라는 점을 인지했다면 소기의 목적을 달성한 것이다. 그리고 한 명의 순방문자로 인정하는 데는 시간제한이 있다는 사실을 꼭 기억하자.

참조자(Referrers)

특정 웹사이트로 사람들을 끌어 모으는 것을 “참조 트래픽”이라고 한다. 참조자라는 말은 여기서 유래했다. 웹사이트, 검색엔진, 배너광고, 블로그, 이메일 등과 같은 것에서 참조될 수 있다. 즉, 온라인의 기본자원으로부터 웹사이트를 방문하게 되고, 페이지뷰도 발생하게 된다. 이를 HTTP 요청을 통해 확인해볼 수 있다.

216.219.177.29 -- [15/May/2000:23:03:36 -0800] "GET /index.htm HTTP/1.0" 200 956 " http://www.webanalyticsdemystified.com" "Mozilla/2.0 (compatible; MSIE4.0; SK; Windows 98)" 212.219.31.219 -- [15/May/2000:23:03:42 -0900] "GET /mail/email_marketing.htm HTTP/1.0" 200 956 "http://www.altavista.digital.com/cgi-bin/querybin/ query?pg=aq&text=yes&d0=1%2fnov%2f99&q=email+marketing %2a&stq=30" "Mozilla/4.05 [en] (Win 95; I)" 121.12.31.45 -- [15/May/2000:23:03:56 -0300] "GET /index.htm HTTP/1.0" 200 956 "http://www.oreilly.com/lists/links.php?link_list_id=134" "Mozilla/4.0 (compatible; MSIE4.01; Windows 98)"
한 줄씩 분석해보자.

  • 23:03:36에 http://www.webanalyticsdemystified.com에 접근한 순방문자가 index.htm이라는 파일을 요청했다.
  • 23:03:42에 알타비스타에서“email marketing”이라는 키워드로 검색을 한 순방문자가 /mail/email_marketing.htm이라는 파일을 요청했다.
  • 23:03:56에 오라일리 웹사이트(http://www.oreilly.com/list/links.php?link_ list_id=134)의 링크를 따라온 순방문자가 index.htm이라는 파일을 요청했다.
“참조”를 실용적으로 해석해보면,

“참조에는 링크를 건 페이지의 전체 URL이 포함되어야 한다. 또한 전체 URL을 표시해주지 못하는 경우에는 트래픽의 근원을 알 수 있도록 최대한 설명을 해주어야 한다.”
인터넷을 이용한 마케팅에 있어 이메일은 아주 중요한 요소이지만, 실제로 참조 URL을 제공하는 이메일 프로그램은 그리 많지 않다. 그래서 위 정의에서 두 번째 문장을 추가했다. 참조 URL을 분석할 때에는 반드시 일부가 아닌 전체(즉, http://www.oreilly.com/books/hacks/websitemeaurementhacks.html 및 그 뒤에 오는 질의문자열(? 다음에 오는 문자열도 포함해서))를 살펴봐야 한다. 이렇게 해야만 최초로 링크를 건 곳을 추정해볼 수 있다. 그럴 수 없는 경우라면, 요청 URL에 참조 링크에 관한 정보를 집어넣는 방법을 고려해보자.

[그림 1-2]에서 보듯이Web Analytics Demystified 웹사이트를 방문했을 때, 방문자가 2004년 12월 캠페인에서 왔고(campaign=Dec2004), “ 지금 구매”메시지를 클릭했으며(message=buy_now), creative는 image였고(creative=image), 링크 식별자는 54412(id=54412)였음을 알 수 있다. 훌륭한 웹데이터 분석 프로그램[Hack #3] 이라면, 광고캠페인 및 이메일 추적 기능[Hack #41] 을 사용해서 이러한 것들을 알아낼 수 있을 것이다.


[그림 1-2] 참조 URL


결론

결국, 각 용어를 이해하는 것은 웹데이터 분석을 이해하는 데 뿌리가 된다. 따라서 각 용어 및 관련 하위 용어를 제대로 이해하도록 한다.“ 순방문자”를 뜻하고자 할 때 “방문자”라고 표현하면 오해를 살 수 있다. 용어를 정확하게 사용할 수 있어야만 비로소 다음과 같이 말할 수 있을 것이다.

  • “지난 한 주 동안 평균 페이지뷰가 폭발적으로 증가한 사실을 면밀히 관찰하고 있습니다.”
  • “가장 큰 온라인 파트너사로부터의 방문자 대 순방문자 비율이 현저히 떨어졌습니다. 따라서 우리는 그들이 종단 메시지를 변경한 것은 아닌지 연락을 취하고 있습니다.”
  • “최근의 광고 덕분에 페이지뷰가 20배나 늘었습니다. 지금 저희 평균 광고 CPM은 30달러가 넘었고, 이는 수익의 측면에서 볼 때 아주 의미 있는 숫자입니다.”
  • “히트요? 히트는 야구에서나 쓰는 단어인데, 왜 지금 얘기하시는 거죠?” 자, 이제 위 문장들이 무슨 뜻인지 잘 이해가 될 것이다. 용어를 올바르게 사용해야만 웹데이터 분석과 그에 따른 의사소통을 제대로 할 수 있다는 것을 명심하자.
TAG :
댓글 입력
자료실