The Korean Housing Association

Current Issue

Journal of the Korean Housing Association - Vol. 30 , No. 2

[ Article ]
Journal of the Korean Housing Association - Vol. 30, No. 2, pp.35-42
Abbreviation: J Korean Hous Assoc
ISSN: 2234-3571 (Print) 2234-2257 (Online)
Print publication date 25 Apr 2019
Received 15 Jan 2019 Revised 12 Mar 2019 Accepted 12 Mar 2019
DOI: https://doi.org/10.6107/JKHA.2019.30.2.035

텍스트 마이닝을 활용한 주택가격 변동에 관한 연구
장몽현* ; 김한수**
*정회원(주저자), 계명대학교 도시계획 및 교통공학과 박사과정
**정회원(교신저자), 계명대학교 공과대학 도시계획학과 교수

A Research on Fluctuations of Housing Prices Using Text Mining
Jang, Mong-Hyun* ; Kim, Han-Soo**
Correspondence to : Han-Soo Kim, Department of Urban Planning & Design, Keimyung University. 1095 Dalgubeol-daero, Dalseo-Gu, Daegu City, Korea E-mail: cbd@kmu.ac.kr


Abstract

The real assets such as a real estate account for more than 70% of the average assets per household in Korea, and apartment transactions are the most common among all housing transactions. In this way, the apartment can have a representative in Korea’s housing market. Meanwhile, the housing market is influenced by various factors such as interest rate, economic changes and government policies. One of the main factors influencing the flow of the real estate price is the news articles of the press. In this study, we analyzed the news articles, which are atypical data, using text mining to analyze whether the frequency of the words frequently mentioned in the news articles of the press related to apartment price flow has a significant effect on apartment prices. As a result of the analysis, the upturn, parcel out, sale, Gangnam keyword were exposed as the top in the news articles. Based on this, it can be seen that some words with high frequency of exposure in news articles have a statistically significant relation with apartment price flow through granger causality test, impulse response function and variance decomposition of vector autoregression (VAR) model.


Keywords: Text Mining, Real Estate Market, Housing Price, Term Frequency
키워드: 텍스트 마이닝, 부동산시장, 주택가격, 단어 빈도

I. 서 론
1. 연구의 배경 및 목적

민법 제98조에 따르면 부동산은 토지 및 그 정착물을 의미하고 있다. 부동산은 복합적 요인에 의해 가격이나 거래가 형성되는데, 위치성이나 이질적 특성에 의해 지역에 따라 다르고, 개별물건마다 서로 다른 영향을 받는다고 할 수 있다. 특히 주택은 일반 시민들이 거주하고 생활하는 곳으로 주거와 밀접한 관계를 가지고, 각 가구별 자산에 영향을 미치는 것은 널리 알려진 사실이다. 2018년 가계금융·복지조사에서 2017년 3월 말 기준 가구당 평균 자산 3억8,164만원 중 실물자산은 2억8,380만원으로 전체 자산의 약 74.3%를 차지하고 있다. 이는 가구 전체 자산 중 주식, 채권과 같은 금융자산 비중은 상대적으로 적고, 주택을 비롯한 부동산 자산의 비중이 높다는 것을 의미한다(Kang, Choi, & Kim, 2009).

한편, 2017년 기준 우리나라 전체 주택거래량은 약 175.9만 건이며, 이 중 아파트거래량은 129.4만 건으로 전체의 73.5%를 차지하고 있다. 이처럼 우리나라 주택거래의 상당 부분을 차지하는 아파트는 그 의미가 각별하고, 아파트 가격의 상승과 하락에 따라 서민의 자산은 직·간접적으로 영향을 받고 있다. 거기에 정부정책 제도나 금리와 같은 거시경제 변화, 신규공급 등에 의해 주택시장은 민감하게 반응함에 따라, 소비자들은 각각의 목적에 맞게 거래를 하며 움직이는 개별성이 존재한다. 이처럼 아파트와 같이 주택은 소비재이면서 투자재로 거래가 발생되는 특수성이 존재하는데, 매매거래를 통한 차익이 발생하고, 전세나 월세의 임차를 통한 임대소득이 발생하기 때문에 투자에 대한 기대심리가 주택시장에 영향을 미칠 수 있다.

한국감정원에서 발표하는 전국주택가격동향조사의 아파트가격 추이를 보면, 2009년 글로벌 금융위기 이후 전국 아파트 가격은 회복세를 보이기 시작하였고, 2010년 9월부터 2012년 3월까지 상승세를 보이다 1년 동안 하락세로 전환되었고, 이후 2013년 9월부터 상승세를 유지하고 있는 모습이다. 2017년 5월 문재인 정부가 들어서고 2018년 9월 13일까지 총 8차례의 부동산 대책이 발표되었다. 한편, 최근 2018년 4월부터 8월까지는 5개월 연속 하락세를 보이고 있는데, 이는 지난 2012년 말 이후 처음이다. 이와 같이 주택시장은 여러 가지 요인에 영향을 받고 있고, 시장참여자들의 기대심리가 작용할 경우 가격은 상승 또는 하락하게 되는데, 이를 좌우하는 요인 중 하나가 언론보도라고 할 수 있다(Woo & Lee, 2011). 정부의 부동산 대책 발표는 국민들의 주요 관심사이기 때문에 대책발표 이후 대다수 언론에서 가격 상승의 원인이나 부동산 대책의 영향, 효과 등에 대해 뉴스기사를 통해 보도하고 있다.

이에 본 연구는 주택시장과 관련하여 뉴스기사에 자주 언급되는 단어와 아파트 가격이 어떠한 관계가 있는가에 대해 파악하는 한편, 아파트가격 변화에 영향을 주는 요인-언론기사용어-과 가격변동의 관계를 알아보는 하나의 연구방법론을 제시하는데 그 목적을 두고 있다.

2. 연구의 범위 및 방법

본 연구를 수행하기 위하여 2017년 이후 부동산대책 발표 전후 한 달(4주)을 기준으로 살펴보았는데, 부동산가격이나 이슈에 대한 영향이 뉴스기사로 언급되는 경향을 한달 정도라고 판단하였다. 또한 주간별로 뉴스기사를 분석하기 위한 데이터 수집의 어려움과 시간적 한계로 2017년 이후 문재인 정부 초기부터 분석하고자 하였다.

데이터 처리과정은 다음과 같다. 먼저, 텍스톰이라는 웹크롤링(crawling) 사이트를 활용하여 포털사이트의 뉴스기사를 수집하였고, 이 중 중복되는 단어 및 숫자, 특수문자 등을 제거한 명사형 어휘만을 추출하였다. 다음으로 단어별 빈도수가 높은 순으로 시계열 데이터로 구축하여, 단어와 아파트 가격에 대해 실증분석을 실시하였다.


Figure 1. 
Data Processing Process and Method

텍스트 마이닝을 통해 추출된 단어를 아파트 가격과 실증분석하기 위해 선정한 서울, 부산, 대구 지역은 2014년부터 2018년 9월까지 아파트가격이 전국 평균보다 높은 수준으로 상승한 지역이다.1)


II. 텍스트마이닝과 선행연구
1. 텍스트마이닝의 중요성

정보통신기술의 발전으로 누구나 인터넷을 손쉽게 접할 수 있게 되었고, 그로 인해 뉴스, 연구논문, 보고서 등과 같이 필요한 데이터를 비교적 편리하게 검색, 활용할 수 있는 서비스 환경이 마련되었다. 2017년 인터넷이용실태조사에서 가구의 인터넷접속률은 99.5%, 스마트폰 보유율은 94.1%로 나타났다. 이는 시장참여자들이 인터넷 뉴스기사를 비교적 쉽게 접할 수 있다는 것을 의미한다. 또한 한국언론진흥재단에서 발표한 2017 신문산업 실태조사에 따르면, 2016년 기준 신문산업 매출액은 3조 6,514억원, 사업체는 종이신문 1,423개, 인터넷신문은 2,604개이며, 기자 수는 25,867명이다. 이들이 생산하는 뉴스기사는 텍스트나 사진, 영상 등의 매체로 생산유통되고 있는 것이다.

본 연구에서 뉴스기사를 활용하고자 하는 이유는 기사의 축약 효과가 크고, 비정형 데이터이지만 제목, 전문, 본문 등의 형식을 갖추고 있기 때문이며, 뉴스기사에 대한 빅데이터 분석기술은 업계에서 이미 본격 활용되고 있다(Park, 2013). 빅데이터는 텍스트 데이터, 사진, 동영상 등과 같은 비정형적 데이터가 상당수를 차지하고 있는데 특히 텍스트 데이터에 포함된 정보를 분석활용하기 위한 시도가 다양한 분야에서 활발히 이루어지고 있는 것이다(Moon, Son, & Won, 2017). 빅데이터 분석 기술에는 텍스트 마이닝, 평판 분석, 소셜 분석, 클러스터 분석 등의 크게 4가지로 나누어 볼 수 있다(Kang, Kim, & Park, 2012). 이 중 텍스트 마이닝은 문서, 웹 등의 텍스트 정보를 데이터베이스로 수집하고 데이터로 정제하는 과정을 포괄하는 개념으로서 정보처리 기술과 관련 기반의 발전에 따라 최근 급격하게 활용도가 높아지고 있다(Choi, Oh, & Jang, 2017). 인터넷 상의 방대한 데이터 정보를 텍스트 마이닝 기법을 활용하여 정보를 재생산하고, 이를 다시 실물자산이나 부동산 등의 관련 정형적 데이터와 상관관계 분석, 네트워크 분석 등을 통해 의미 있는 결과를 도출하여 개인이나 기업, 국가 등에서 정책 방향이나 전략 수립을 위해 활용하고 있다.

2. 선행연구

2010년 들어서 웹 뉴스기사에 대한 빅데이터 기법을 활용한 연구들이 활발히 진행되었데, 초기에 이와 관련한 연구는 금융경제 관련 분야에서 많이 이루어졌다.

Song(2002)은 뉴스기사 건수와 주가 및 환율 변동을 비교하여 외환시장보다 주식시장에서 더 유의미한 영향이 있음을 밝혔다. Ahn and Cho(2010)는 텍스트 마이닝을 통해 4년 간 주가에 영향을 미친 뉴스기사를 추출하여 상승 및 하락으로 분류하고, RSI 분석기법을 적용한 예측력을 실험하였다. Byeon et al.(2011)은 뉴스와 환율데이터를 활용하여, 특정단어 빈도수 및 환율에 따른 주가등락에 대한 예측력을 분석하였다. Kim and Koo(2013)는 네이버트렌드를 이용하여 84개 단어의 검색추이와 KOSPI200 주가정보의 상관관계 분석을 통해 수익률을 보이는 단어를 찾았다.

Kim, Kim, and Jeong(2012)은 오피니언 마이닝이라는 감성분석 기법을 활용, 주가지수 등락을 예측하는 지능형 투자의사결정모형을 제시하여 주가지수 변동성을 예측하였다. Shin and Ra(2015)는 금융경제 92개 단어 검색량과 주가지수 시계열에 대한 선행관계의 유무를 분석하기 위해 Granger 인과관계 분석하여 유의미한 결과를 도출하였다.

살펴본 바와 같이 금융경제 관련 분야는 비교적 많은 연구가 진행된 반면, 텍스트 마이닝 기법을 활용하여 주택이나 주거에 대해 응용한 연구는 많지 않다. 대표적으로 언론보도와 시계열 주택가격 간의 관계에 관한 연구(Woo & Lee, 2011)와 뉴스기사가 아파트가격의 국면 지속기간에 미치는 영향 분석(Kim & Yu, 2016) 등이 있다.

먼저, Woo and Lee(2011)는 언론의 보도건수가 주택가격에 어떤 영향을 미치는지를 인과관계 검정을 통해 언론의 기사건수와 주택가격의 관계가 주택유형 및 거래유형에 따라 달라질 수 있다는 점을 밝혔다. Kyung and Lee(2016)는 뉴스기사 35,082건의 감성분석을 통해 아파트 실거래가격 흐름과 패턴을 비교하여 부동산 시장진단과 가격을 예측하고자 하였다. Park and Suh(2015)는 텍스트 마이닝을 통해 부동산 뉴스기사를 수집하여 주택시장과 관련된 단어 빈도수, N-gram 순열, TF-IDF 가중치를 분석하여 연도별 주택시장 분위기를 파악하였다. Kim and Yu(2016)는 전국과 서울을 대상으로 주택가격 국면지속기간 결정에 있어 뉴스기사의 어조가 중요한 역할을 하고 있다는 것을 밝혔다. Lee, Lee, and Jeong(2017)은 뉴스기사 빅데이터의 월별 토픽 비중을 이용하여 전세가격 변동률에 직간접적으로 영향을 미치는지를 분석하였다.

선행연구에서 살펴본 바와 같이 오피니언 마이닝 기법의 감성분석을 활용하기도 한다. 하지만 단어에 대한 긍정과 부정적 의미를 구분해야 하는 등 주관적으로 판단해야 하는 한계점이 있다. 또한 기존 연구는 전국이나 일부 지역을 중심으로 주택가격과 분석한 연구가 대부분이었다.

본 연구는 텍스트 마이닝을 통해 검색된 뉴스의 단어(keyword)의 빈도변화에 따라 아파트 가격이 어떻게 변화하는지 흐름을 파악하기 위해 우선 급변하는 부동산 시장에서 뉴스기사에서 주로 등장하는 단어가 무엇인지 살펴보고자 하였다. 그리고 구축된 데이터를 바탕으로 전국, 서울, 부산, 대구 지역별로 키워드와 아파트 가격의 영향성 여부를 검토하는 것이기에 그 의미가 있다고 할 수 있다.


III. 분석방법
1. 자료수집

본 연구를 위해 텍스톰(textom)이라는 웹 크롤링 서비스 사이트를 이용하여 뉴스기사 속 키워드 검색을 통해 추출하였다. 검색을 위해 ‘아파트’ 키워드가 들어가는 뉴스기사 중 ‘가격’ 키워드를 포함하는 뉴스를 대상으로 하였다. 연구의 시간적 범위는 2015년 11월 주택가격이 보합세로 전환된 이후 다시 재상승하는 시기인 2017년 1월부터 2018년 9월 중순까지 주간별로 검색하여 총 89개의 시계열 데이터를 수집하였다. 웹 크롤링을 통해 검색된 뉴스기사는 총 73,272개, 노출단어는 숫자 및 알파벳을 제외한 1회 이상 빈도를 나타낸 단어는 28,326개로, 이중 평균 주 1회 이상 언급된 단어는 2,051개였다. 이를 바탕으로 지난 2년간 현 정부의 부동산 대책 발표일 전후로 4주씩 총 8주간의 단어 노출 빈도를 상위 50개로 추출하였고, 본 연구에서 분석모형인 VAR모형 특성상 모형추정의 한계(파라미터가 많을 경우 과대추정 발생)로 인해 최상위 10개 키워드로 한정하였다. <Table 2>와 같이 각 대책 발표일에 나타난 최상위 10개 키워드를 각각 분석한 결과, 총 14개의 키워드가 중복되어 나타났고, 이 중 상승(세), 주택, 분양, 매매, 강남의 5개 키워드는 지속적으로 언급되었다.

Table 1. 
Text Mining Material Description
Classification Contents
Data source Social matrix service (Textom)
Search word News articles containing price in search of keyword apartment
Search method Weekly unit from January 2017 to September 2018 (upper words of exposure frequency for 4 weeks before and after real estate measures)
Excluded words Numbers, Special characters, Meaningless Alphabets, Events, Deaths, etc.
Collection target Internet portal site (naver) news

Table 2. 
Top Keyword to Expose News Articles by Government Action (1st to 10th)
Countermeasure day Key words
6.19 Upturn, Housing, Parcel out, Sale, Measures, Government, Gangnam, Reconstruction, Lease, Regulation
8.2 Housing, Upturn, Parcel out, Measures, Sale, Downturn, Gangnam, Transaction, Government, Reconstruction
10.24 Parcel out, Upturn, Housing, Sale, Measures, Reconstruction, Gangnam, Transaction, Lease, Supply
11.29 Upturn, Parcel out, Housing, Sale, Lease, Gangnam, Supply, Move in, Transaction, Measures
12.13 Housing, Upturn, Parcel out, Sale, Gangnam, Supply, Lease, Move in, Transaction, Downturn
7.5 Housing, Parcel out, Upturn, Sale, Gangnam, Transaction, Reconstruction, Downturn, Lease, Measures
8.27 Housing, Parcel out, Upturn, Sale, Gangnam, Transaction, Reconstruction, Downturn, Lease, Measures
Note. The frequency of word exposure is ranked from left to right


Figure 2. 
Housing and Apartment Price Index Trend

각 대책별로 자주 등장한 키워드의 빈도 변화와 아파트 가격이 유의미한 영향이 있는지를 살펴보기 위해, 전국과 서울, 부산, 대구 지역에 대해 그랜저 인과관계(Granger Casuality) 분석 및 벡터자기회귀(Vector Auto Regression)모형을 활용하여 분석하였다. 이와 같은 분석과정은 경제경영 관련 연구분야에서 통상적으로 사용하는 분석방법으로 본 연구에서도 적용하여 사용하였다. 이러한 분석과정은 통계 프로그램 Eviews 9를 사용하여 분석하였다.

한편, 주택가격 자료는 한국감정원에서 공표하는 주간아파트가격동향 자료를 활용하였는데, 이는 정부 승인통계로써 신뢰성 등을 고려하여 본 연구의 실증분석 시계열 데이터로 사용하였다.

2. 그랜저 인과성 검증(Granger Causality Test)

본 연구의 실증분석을 위하여 전국 및 주요도시의 아파트가격과 뉴스기사의 노출빈도가 높은 단어가 어떤 관계가 있는지에 대해 분석하고자 그랜저 인과성 검증방법을 활용하였다. Granger(1969)에 의해서 예측 관계에 대한 검증방법이 처음 제시되었는데, 만일 Xt의 시차 값들이 다른 변수 Yt를 예측하는데 도움이 된다면, ‘X는 Y를 그랜저 인과한다(X Granger Causes Y)'라고 말한다. 여기서 인과성(causality)이라는 단어는 X가 원인이고 Y가 X의 결과 또는 효과라는 것을 의미하지 않는 것이며, 결과는 X의 선행성(precedence)과 정보내용만을 나타낸다(Cho, 2006). 그랜저 인과성을 확인하기 위한 분석 모형을 회귀방정식으로 표현하여 나타내면 다음 식과 같고, 과거변수들의 시차 크기 k, q는 AIC2)를 기준으로 결정하였다.

yt=μ1+i=1kα1iyt-i+i=1pj=1qβijxit-j+ε1t(1) 
μt=μ2+i=1kα2iyt-i+ε2t(2) 

yt: t시점의 아파트가격 변화율

xit: t시점의 i키워드 변화율

3. 벡터자기회귀(VAR) 모형

대부분의 회귀분석에서는 설명변수와 종속변수 사이의 인과관계를 가정하고 있지만, 대체로 변수들 사이의 피드백 효과나 상호작용이 존재한다. 이때 어떤 변수들이 다른 변수들에 대해 외생적(exogenous) 변수인지 확인할 수 없을 때, 이 변수들에 대해 대칭적으로 다룰 수 있는 모형을 설정할 필요가 있다(Cho, 2006). 이러한 점에서 VAR 모형의 충격반응함수와 분산분해를 통해 변수 자신과 특정 변수들이 얼마나 영향을 미치는지에 대한 크기를 알아 볼 수 있다.

Yt=A0+A1Yt-1++ApYt-p+etYt=y1t,y2t,,ynt'A0=a10,a20,,an0'Aj=a11ja1njan1jannj, j=1,2,,pet=e1t,e2t,,ent'(3) 

IV. 실증분석
1. 그랜저 인과성 검증 분석결과

뉴스기사에서 노출된 키워드 빈도변화와 전국의 아파트 가격의 변동에 대한 그랜저 인과성 분석을 한 결과는 <Table 3>과 같다. 여기서, 분석 결과 값인 P값이 5%의 임계치 보다 비교하여 크다면 Y는 X를 인과하지 않는다는 귀무가설을 기각한다는 것이다. <Table 3>에서 재건축은 전국 매매가격을 인과하지 않는다는 귀무가설을 5% 유의수준에서 기각하므로, 재건축 키워드가 전국 매매가격을 선행하는 관계라고 볼 수 있다. 이는 2018년 1월 재건축 초과이익환수제가 재시행 되기 이전 부담금을 피하려던 재건축 사업을 중심으로 활발해짐에 따라 아파트가격에 영향을 미쳤을 가능성을 배제할 수 없다. 또한 전국매매가격은 하락(세) 키워드를 선행하는 관계라고 볼 수 있다. 또한 10% 유의수준에서 규제 키워드가 전국 매매가격을 선행하는 관계라고 볼 수 있다.

Table 3. 
Granger Causality Test Result of National Price
Null hypothesis Obs F-Statistic Prob.
Reconstruction ≠> National price 87 4.2066 0.0182
National price ≠> Reconstruction 0.5257 0.5931
Downturn ≠> National price 87 0.8544 0.4293
National price ≠> Downturn 4.8189 0.0105
Regulation ≠> National price 87 2.9602 0.0574
National price ≠> Regulation 2.6808 0.0745

<Table 4>의 결과로, 강남과 규제 키워드는 서울 매매가격을 인과하지 않는다는 귀무가설을 5% 유의수준에서 기각하므로, 강남과 규제는 서울 매매가격을 선행하는 관계라고 볼 수 있다. 또한 서울 매매가격은 정부 키워드를 선행하는 관계라고 볼 수 있다. 이와 같은 결과로 서울 강남4구로 불리는 서초·강남·송파·강동구는 전국에서 가장 높은 아파트 가격시세를 형성하고 있고, 2017년 8월 8.2대책에서 강남4구를 투기과열지구 및 투기지역으로 중복 지정한 바 있다. 한편, 2017년 5월부터 2018년 8월까지 한국감정원에서 발표하는 아파트 매매실거래가격지수에서 전국 가격변동률은 3.55% 수준인 반면, 서울은 지난 16개월 동안 약 25.69%, 서울 동남권(서초·강남·송파·강동)은 약 35.27% 상승한 것을 알 수 있다. 이처럼 서울아파트 가격이 상승하였을 때, 강남과 규제 키워드가 많이 노출된 것은 서울에서 강남지역이 가지는 상징성과 주택가격 규제에 민감하게 반응하는 시장참여자들의 의식이 반영된 결과라고 판단된다.

Table 4. 
Granger Causality Test Result of Seoul Price
Null hypothesis Obs F-Statistic Prob.
Gangnam ≠> Seoul price 87 4.1581 0.0191
Seoul price ≠> Gangnam 2.0108 0.1404
Downturn ≠> Seoul price 87 1.0111 0.3683
Seoul price ≠> Downturn 3.2052 0.0457
Government ≠> Seoul price 87 0.6150 0.5431
Seoul price ≠> Government 3.4234 0.0373
Regulation ≠> Seoul price 87 3.2768 0.0427
Seoul price ≠> Regulation 2.6498 0.0767

<Table 5>의 결과로, 상승(세)은 부산 매매가격을 인과하지 않는다는 귀무가설을 5% 유의수준에서 기각하므로, 상승(세) 키워드는 부산 매매가격을 선행하는 관계라고 볼 수 있다. 또한 부산 매매가격은 10% 유의수준에서 규제 키워드를 선행하는 관계라고 볼 수 있다. 이는 8.2대책에서 조정대상지역으로 부산 7개구가 지정된 영향과 관련이 있을 것으로 판단된다.

Table 5. 
Granger Causality Test Result of Busan Price
Null hypothesis Obs F-Statistic Prob.
Upturn ≠> Busan price 87 5.7917 0.0044
Busan price ≠> Upturn 0.2285 0.7963
Regulation ≠> Busan price 87 3.0687 0.0519
Busan price ≠> Regulation 2.0788 0.1316

<Table 6>의 결과로, 대구 매매가격은 하락(세)와 입주키워드를 인과하지 않는다는 귀무가설을 5% 유의수준에서 기각하므로, 대구 매매가격이 하락(세), 입주 키워드를 선행하는 관계라고 볼 수 있다. 또한 전세는 대구 매매가격을 선행하는 관계라고 볼 수 있는 것으로 나타났다.

Table 6. 
Granger Causality Test Result of Daegu Price
Null hypothesis Obs F-Statistic Prob.
Downturn ≠> Daegu price 87 0.2615 0.7705
Daegu price ≠> Downturn 3.2584 0.0435
Lease ≠> Daegu price 87 3.3577 0.0397
Daegu price ≠> Lease 0.3048 0.7381
Move in ≠> Daegu price 87 0.8673 0.4239
Daegu price ≠> Move in 3.9655 0.0227

한편, 대구에서 수성구는 8.2대책의 후속조치에서 투기과열지구로 추가 지정되었다.

2. VAR 모형 분석결과
1) 충격반응함수(Impulse response function)

충격반응함수는 VAR 추정계수를 바탕으로 모형 내의 어떤 변수에 대해 일정한 충격을 가할 때, 모형의 모든 변수들이 시간의 흐름에 따라 어떻게 반응하는가를 나타내는 것이다. 먼저 그랜저 인과관계 검정결과를 바탕으로 유의미한 영향으로 나타난 키워드를 설명변수로 채택하여 분석하였다. 전국, 서울, 부산, 대구 매매가격과 유의미한 영향으로 나타난 키워드 변수들이 각각 매매가격에 미치는 영향과 기간을 파악하기 위한 결과는 다음과 같다.

먼저, <Figure 3> 결과에서 전국 매매가격은 재건축, 하락(세), 규제 키워드 모두가 가격변동에 유의미한 영향을 미치지 않는 것으로 나타났다.


Figure 3. 
Impulse Response of National Price

<Figure 4>에서 서울 매매가격은 정부, 하락(세) 키워드가 의미 있는 반응을 보였는데, (-)방향으로 나타났다. 이는 하락(세) 키워드에 대한 변화가 있을 때, 서울 매매가격이 7시차까지 하락의 영향을 받는 것으로 나타났다.


Figure 4. 
Impulse Response of Seoul Price

그리고 정부 키워드는 (+)방향으로 영향을 미치고 있었는데, 단기적(1시차)으로 반응하고 있었다.

<Figure 5> 부산 매매가격은 상승(세)과 규제 키워드 모두에 별다른 반응을 보이지 않는 것으로 나타났고, <Figure 6> 대구 매매가격도 하락(세), 전세, 입주 키워드에 유의미한 영향을 받지 않는 것으로 나타났다. 이는 주택시장에 대한 언론보도가 예상치 못한 수준으로 증가 또는 감소할 경우(충격) 통계적으로 유의미한 영향이 없는 것으로 나타났다. 반면 서울의 경우 해당 분석기간의 부동산 정책이 집중되어, 수도권 중심의 언론보도가 이루어진 결과로 통계적인 유의성이 존재하는 것으로 판단된다.


Figure 5. 
Impulse Response of Busan Price


Figure 6. 
Impulse Response of Daegu Price

2) 분산분해(Variance decomposition)

단일 변수의 움직임에 대하여 각 변수의 상대적 중요성은 예측오차 분산분해 방법을 통하여 평가할 수 있다. 예측오차의 분산을 VAR 체계 내부에 있는 각 변수의 오차의 중요성에 따라 적당한 비율로 분할하는 방법을 이용하는데, 각 변수의 오차항에 그 중요성에 따라 적당한 비율로 분할한다는 의미에서 분산분해라고 한다. 즉, 분산분해는 각 변수별 예측오차의 분산이 변수 자신과 다른 변수의 분산에 의해 어느 정도 설명력을 가지는 것임을 알아보기 위한 것이며, 대부분의 예측오차 분산은 변수그 자신의 충격에 의해 주로 설명되는 것이 일반적이다.

<Table 7> 전국 매매가격에 대한 분산분해 결과를 보면, 재건축 키워드가 주택가격 변동의 예측오차 분산을 설명하는데 차지하는 비중이 2시차(period) 이후부터 약 3.8% 이상 수준으로 나타나 다른 키워드에 비해 상대적으로 높은 것을 확인할 수 있다. <Table 8> 서울 매매가격에 대한 분산분해 결과를 보면, 강남 키워드가 주택가격 변동의 예측오차 분산을 설명하는데 차지하는 비중이 2시차(period) 이후부터 약 2.5% 이상 수준으로 나타났고, 규제는 약 1.4% 수준으로 나타났다. <Table 9> 부산 매매가격에 대한 분산분해 결과를 보면, 상승(세) 키워드가 주택가격 변동의 예측오차 분산을 설명하는데 차지하는 비중이 약 3.5% 이상 수준으로 나타났고, 특히 규제 키워드는 5% 이상으로 타 지역 키워드 대비 높게 나타난 것을 확인할 수 있다. 이는 지난 2017년 8.2대책에서 부산 7개구가 조정대상지역으로 지정되어 규제 영향을 받게 된 것과 연관이 있음을 생각해 볼 수 있다.

Table 7. 
Decomposition Analysis Result of National Price
Period S.E National price Reconstruction Downturn Regulation
1 0.016 100.000 0.000 0.000 0.000
2 0.023 95.531 3.879 0.114 0.476
3 0.026 95.324 4.170 0.083 0.423
4 0.029 95.085 4.397 0.079 0.439
5 0.031 94.958 4.533 0.072 0.438
6 0.033 94.878 4.615 0.068 0.439
7 0.034 94.822 4.673 0.065 0.439
8 0.035 94.783 4.714 0.063 0.440
9 0.036 94.753 4.745 0.062 0.440
10 0.036 94.731 4.768 0.061 0.440

Table 8. 
Decomposition Analysis Result of Seoul Price
Period S.E Seoul price Gangnam Downturn Government Regulation
1 0.058 100.000 0.000 0.000 0.000 0.000
2 0.080 95.528 2.829 0.171 0.038 1.433
3 0.092 95.863 2.548 0.145 0.045 1.398
4 0.101 95.629 2.678 0.151 0.050 1.492
5 0.107 95.624 2.665 0.148 0.052 1.511
6 0.111 95.583 2.682 0.148 0.054 1.533
7 0.114 95.568 2.686 0.147 0.055 1.545
8 0.117 95.554 2.691 0.147 0.055 1.554
9 0.118 95.545 2.694 0.146 0.056 1.560
10 0.120 95.538 2.696 0.146 0.056 1.564

Table 9. 
Decomposition Analysis Result of Busan Price
Period S.E Busan price Upturn Regulation
1 0.020 100.000 0.000 0.000
2 0.029 90.834 3.695 5.471
3 0.035 91.721 3.367 4.912
4 0.039 91.191 3.582 5.227
5 0.043 91.229 3.574 5.197
6 0.047 91.135 3.614 5.250
7 0.049 91.112 3.627 5.261
8 0.052 91.079 3.642 5.279
9 0.054 91.060 3.651 5.289
10 0.056 91.042 3.659 5.299

<Table 10> 대구 매매가격에 대한 분산분해 결과를 보면, 전세 키워드가 약 3% 이상 수준으로 나타난 반면, 하락(세), 입주 키워드는 주택가격 변동의 예측오차 분산을 설명하는데 차지하는 비중은 상대적으로 약하게 나타났다.

Table 10. 
Decomposition Analysis Result of Daegu Price
Period S.E Daegu price Downturn Lease Move-in
1 0.028 100.000 0.000 0.000 0.000
2 0.038 96.237 0.354 3.404 0.006
3 0.045 96.130 0.509 3.278 0.084
4 0.049 96.040 0.587 3.301 0.072
5 0.053 95.937 0.617 3.371 0.075
6 0.055 95.905 0.647 3.374 0.074
7 0.057 95.870 0.662 3.394 0.074
8 0.059 95.849 0.675 3.402 0.074
9 0.060 95.833 0.684 3.410 0.074
10 0.061 95.821 0.690 3.416 0.074


V. 연구결과 및 제언

본 연구는 아파트 가격과 관련된 인터넷 뉴스기사를 웹크롤링을 통해 수집하고, 빅데이터 분석기법인 텍스트 마이닝을 통해 뉴스 단어의 빈도와 아파트 가격의 변동에 관한 영향 관계를 분석하고자 하였다. 인터넷 뉴스기사수집을 위해 2017년 1월부터 2018년 9월 3째 주까지 주간 단위로 89개의 시계열자료를 확보하여 한국감정원에서 발표하는 전국, 서울, 부산, 대구 지역의 주간 아파트가격 동향지수의 가격변동과 연계하여 분석을 실시하였다. 분석방법으로는 그랜저 인과성분석과 벡터자기회귀모형의 충격반응함수 및 분산분해 분석을 수행하였고, 그 결과를 정리하면 다음과 같다.

첫째, 그랜저 인과성 분석결과, 전국의 경우 재건축 키워드는 전국 매매가격을 선행하는 관계로 나타났고, 하락(세) 키워드는 전국 매매가격에 후행하는 관계로 나타났다. 또한 서울의 경우, 강남과 규제 키워드가 서울 매매가격을 선행하는 관계로 볼 수 있으며, 서울 매매가격은 정부 키워드를 선행하는 관계로 나타났다. 부산의 경우, 상승(세) 키워드는 부산 매매가격을 선행하는 것으로 나타났고, 10% 유의수준에서 부산 매매가격이 규제 키워드를 선행하는 것으로 나타났다. 대구 지역은 매매가격이 하락(세) 키워드와 입주 키워드를 선행하는 관계로 나타났고, 전세 키워드는 대구 매매가격을 선행하는 관계로 나타났다.

둘째, 지역별 아파트 매매가격의 충격반응을 분석한 결과, 전국, 부산, 대구 지역의 매매가격은 앞서 그랜저인과성 분석에서 유의미하게 도출된 키워드 모두에 영향을 미치지 않는 것으로 나탔다. 하지만, 서울 매매가격에서는 정부, 하락(세) 키워드가 유의미한 반응을 보였다. 먼저, 하락(세) 키워드에 대한 변화가 있을 경우, 서울 매매가격은 7시차까지 부(-)의 영향을 받는 것으로 나타났다. 그리고 정부 키워드는 정(+)의 방향으로 영향을 미치고 있었는데, 단기적(1시차)으로 영향을 미치는 것으로 나타났다.

셋째, 단어의 변동이 주택가격 변동의 예측오차 분산을 설명하는 비중을 분석한 결과, 전국 매매가격에서 재건축키워드는 2시차 이후부터 약 3.8% 수준으로 나타나 다른 키워드에 비해 설명력이 높은 것이 확인되었다. 서울 매매가격에서는 강남 키워드가 2시차 이후부터 약 2.5% 이상 으로 다른 키워드에 비해 높았고, 부산 매매가격은 규제 키워드가 약 5%, 상승(세)는 약 3.5% 이상 수준으로 다른 키워드에 비해 설명력이 높은 것으로 나타났다. 대구 매매가격은 전세 키워드가 약 3.2% 이상의 수준으로 주택가격 변동의 예측오차 분산을 설명하는데 차지하는 비중이 높게 나타났다.

본 연구는 부동산과 관련된 뉴스기사 속에 자주 등장하는 키워드 중 일부가 전국, 서울, 부산, 대구 등 각 지역별 아파트 매매가격과 영향관계가 있음을 통계적 분석방법을 통하여 확인하였다는데 의의가 있다. 특히, 분석결과로 나타난 키워드를 보면, 전국 매매가격과 재건축 키워드가 유의미하게 나타났는데, 이는 2018년 재건축 초과이익환수제 재시행 이슈에 따른 결과로 해석된다. 서울의 경우에 강남과 규제 키워드가 유의미하게 나타났는데, 이는 최근 서울 내에서도 강남4구의 아파트가격이 비교적 높게 상승하였고, 지난 8.2대책에서 투기지역 및 투기과열지구로 지정된 결과와 무의미하지 않다고 판단된다. 또한, 본 연구의 방법론을 활용하여 부동산 가격변동의 추이를 볼 수 있다는 것도 하나의 성과이다.

본 연구의 한계점으로는 데이터를 수집하기 위한 키워드 설정과 수집된 데이터의 형태소 분석 등 사전정의에 따라 키워드분석 결과가 달라질 수 있으므로 보다 정교한 작업이 필요하다. 또한 아파트 가격이 상승한 시기를 대상으로 89주간의 비교적 짧은 시계열자료를 분석하였기에 보다 장기적인 데이터를 확보하여 분석할 필요가 있다. 그리고 부동산 가격은 같은 지역에서도 정부 정책이나 국지적 환경 등의 지역적 특성에 따라 시장가격이 다르게 형성되므로 지역시장을 중점적으로 보도하는 뉴스를 별도로 수집하여 객관적이고 세밀한 분석할 필요가 있다. 이와 같은 사항을 반영하여 향후 추가적인 연구를 수행한다면 궁극적으로 주택가격 변동을 예측할 수 있는 효과적인 연구가 될 것으로 판단된다.


Acknowledgments

이 논문은 2018년 (사)한국주거학회 추계학술발표대회에서 발표한 논문을 수정보완한 연구임.


각주
1) 한국감정원의 월별 아파트가격 변동률을 확인해보면, 2014년 1월~2018년 9월까지 전국 9.52%, 서울 26.13%, 부산 10.19%, 대구 14.98%로 나타났다.
2) AIC (Akaike Information Criteria) 정보기준은 추정된 모델의 적합도를 평가하는 척도이며, 가장 최소의 정보 손실을 갖는 모델을 선택하는 기준으로 AIC값이 가장 작은 모델을 선택한다(Noh, 2016).

References
1. Ahn, S. W., & Cho, S. B., (2010), Stock prediction using news text mining and time series analysis, Korea Information Science Society, 37(1C), p364-369.
2. Bae, S. W., & Yu, J. S., (2018), Predicting the real estate price index using machine learning methods and time series analysis model, Housing Studies Review, 26(1), p107-133.
3. Baek, D. J., (2008), A study on housing preferences of career beginners: Based on questionnaire survey in Seoul, Unpublished master’s thesis, Konkuk University, Seoul, Korea.
4. Byeon, T. -U., Lee, S. -W., Kim, J. -K., & Lee, J. -H., (2011), A study on the prediction of stock market crisis by text mining and exchange rates, Proceedings of Semiannual Conference of Korean Intelligent Information System Society, 21(2), p132-133, Seoul, Korea.
5. Cho, D., (2006), Introductory financial econometrics, Seoul, Cheongram.
6. Choi, J. W., Oh, S. K., & Jang, J. W., (2017), A study on the forecast of corporate bankruptcy based on deep learning using big data, Seoul, Korea Institute of Finance.
7. Granger, C., (1969), Investigating causal relations by econometric models and cross-spectral methods, Econometrica, 37(3), p424-438.
8. Kang, M. G., Choi, M. J., & Kim, J. H., (2009), Empirical analyses of housing wealth effect in Korea: Evidence from homeowner micro data, Journal of Korea Planning Association, 44(5), p163-173.
9. Kang, M. M., Kim, S. R., & Park, S. M., (2012), Analysis and utilization of big data, Communications of the Korean Institute of Information Scientists and Engineers, 30(6), p25-32.
10. Kim, D. W., & Yu, J. S., (2016), How does news article affect on the apartment sale and chonsei price regime duration, Seoul Studies, 17(2), p29-46.
11. Kim, G. T., (2015), The impact of number articles in Korea daily newspaper on price-earnings ratio, Unpublished master’s thesis, , Sungkyunkwan University, Seoul, Korea.
12. Kim, M. J., & Jang, G. H., (2013), Financial econometrics, Seoul, KyungMoon.
13. Kim, M. S., & Koo, P. H., (2013), A study on big data based investment strategy using internet search trends, Journal of the Korean Operations Research and Management Science Society, 38(4), p53-63.
14. Kim, Y. S., Kim, N. G., & Jeong, S. R., (2012), Stock-index invest model using news big data opinion mining, Journal of Intelligence and Information Systems, 18(2), p143-156.
15. Kyung, J. I., & Lee, K. C., (2016), Development of sentiment analysis of real estate big data by using text mining, Housing Studies Review, 24(4), p115-136.
16. Lee, J. M., Lee, J. A., & Jeong, J. H., (2017), The jeonse price forecasting used by news big data -focusing on topic modeling analysis-, Korea Real Estate Academy Review, 69(4), p43-57.
17. Min, C. H., (2013), The effect of the natural gas market on the economic growth and inflation, Unpublished master’s thesis, Sungkyunkwan University, Seoul, Korea.
18. Moon, H. J., Son, W., & Won, J. H., (2017), Classification of economic psychology related documents using text mining technique, Quarterly National Accounts Review, 2017(4), p1-27.
19. Noh, Y. J., (2016), A comparison study on statistical modeling methods, Journal of the Korean Academia-Industrial Cooperation Society, 17(5), p645-652.
20. Park, D. M., (2013), News source network analysis as big data analytics of news articles, Journal of the Korean Housing Association, 27(2), p57-61.
21. Park, J. Y., & Suh, C. W., (2015), Analysis of changes in the housing market using TF-IDF weight model, Korea Real Estate Academy Review, 63(3), p46-58.
22. Park, N. H., & Kim, J. Y., (2004), The evaluation of the residential environmental qualities in Bundang residents, Journal of the Korean Housing Association, 15(6), p27-35.
23. Shin, H. J., & Ra, H. W., (2015), Investment strategies for KOSPI index using big data trends of financial market, Korean Management Science Review, 32(3), p91-103.
24. Song, C. Y., (2002), News and financial prices, International Economic Journal, 8(3), p1-34.
25. Woo, Y. S., & Lee, E. J., (2011), An analysis on the relationship between media coverage and time-series housing prices, Housing Studies Review, 19(4), p111-134.
26. Zhao, Z. L., (2016), Comparing big data research trend in Korea and China by text mining, Unpublished master’s thesis, Chungbuk National University, Cheongju, Korea.