目录/提纲:……
一、研究背景与起源
二、四个主要研究领域
(一)宏观经济领域
(二)大宗商品领域
(三)股市领域
(四)旅游领域
三、课题组相关研究成果
四、研究展望
……
干部学习讲稿:网络搜索与社会经济行为相关性研究
吕本富 教授
中国科学院研究生院管理学院常务副院长
我们这个研究也谈不上有多么新的进展,我就是想把国内外做的关于网络搜索方面的研究以及我们自己的课题组做的研究向大家报告一下。那么,这个应该说是一个新的研究领域。它在未来会有什么样的意义跟大家说一下。
我们说四个方面的内容,研究的背景与起源;现在研究的四个主要领域;我们第三个是我们自己做的一些相关的成果;第四是说一下未来的展望。
一、研究背景与起源
传统预测研究的数据来源主要是相关部门的统计数据,这些数据收集和公布具有滞后性。举一个例子来说,比如说CDC公布的疾病统计数据,它怎么也得有一个、三个星期到一个月的滞后性,所以当这个数据公布出来的时候再采取措施,某种意义上就晚了。因为它的滞后性就导致了你在采取的措施的不可能很现实地来采取。
那么,网络技术的发展为行为预测研究开辟了新的领域。因为,搜索引擎记录了数以亿计用户的关注及需求,所以我们有的时候把搜索引擎还有把一些网站上对数据的记录称为全样本研究,因为像统计局做的,由社调队、城调队做的样本,再大也就1万多个电话调查,可是网络搜索是以“亿”计的关注及需求,所以给社会经济预测提供了客观、及时的数据基础。
网络搜索与社会经济行为相关性研究已成为一个新的研究热点。
好,我们报告一下最近对国内外文献的梳理。第一个,搜索数据在国外用的最早的就是对流感
疫情的检测,Johnson和Heather研究网站日志发现医学网站访问次数以及流感文章搜索次数与流感发病人数之间
……(新文秘网https://www.wm114.cn省略1075字,正式会员可完整阅读)……
了很长时间,才有这样的一个结果。所以在我们后面在做这个研究预测的时候,选择关健词,就像给上证指数选择成份股一样,就成为一个研究的热点,因为不是每个研究机构都可以搞大量的服务器群来运算的,你想它是5000万个关健词,每个词都和流感算一个相关性,这是一个很大的计算量。后来,我们可以通过经济学或者社会的原理来选词了,这不是像这种海量计算的方法来选词,总之这是他的一个贡献。
第二个,他找到了搜索的合成指数和流行病发病率的半对数关系,就是函数的解析式,后来我们改进了做了一个全对数,可能比他还好一点,就是我们改进了对他的预测模型,比Jeremy Ginsberg预测效果还好一些。
那么,第三个贡献就是通过这个预测的结果,说明确实比传统CDC公布的数据可以提前2周,你当天搜索,就再计算我就可以出来趋势,然而CDC的统计怎么也得两三周才出来,这对于流感来说已经太晚了,控制不住了。所以,这就是Jeremy Ginsberg工作的最大价值。
到了2009年,Joshua Ritterma发现通过搜索引擎的关健词预测也不一定太好,所以他自己做了一个蜘蛛程序专门从媒体方面方面抓取关健词,也是一个办法。通过UGC,就是在用户的日志、微博、博客中间抓取,因为很多人感冒会发一条微博:“我今天感冒了”。他就是从UGC中抓关健词,发现也还可以预测,UGC在有的时候结合流感的历史数据和关键指标预测效果可能还好一些,因为这个搜索引擎的数据,可能比微博的数据时至要长,因为搜索引擎抓的是网页,在形成网页搜索的时候,如果现在是用手机的情况下,可能感冒,他有时候会瞬时就会发一条“我今天感冒”的消息,因此这种UGC的内容,时间就更段,所以 Ritterma对蜘蛛程序,对用户产生的内容,UGC内容的抓取,因此效果就更好。这是我们讲的这么一个起源。
二、四个主要研究领域
(一)宏观经济领域
除了刚才我们说的公共卫生的预测以外,现在搜索的数据在四个领域现在用得比较多。
第一个是宏观经济领域。关于失业率的预测,Askitas(2009)对网络搜索与德国失业率之间的关系做出了实证研究,结果表明就业类词汇搜索量与当月失业率有着较强的相关性;我们国家现在也不怎么公布失业率,但是这个玩意很准,为什么呢?因为失业的人总要搜索就业网站,根据就业网站搜索词的搜索量基本上可以搜索判断出失业率大体上是多少,所以这个东西你隐瞒也隐瞒不了,除非他不找工作,一般人失业了还是去找。
第二个,Francesco以意大利、美国的失业率为研究对象,用搜索数据与经济数据(工业生产指数、就业预期指数)的预测相比较,发现搜索数据预测失业率效果优于传统经济数据。就是说通过搜索数据来预测失业率是比传统的经济数据要优,或者说预测效果更好。
关于居民消费的预测,Torsten和Simeon认为基于统计调查的消费者信心指数是宏观因素的反映,就是不是有消费者信息指数,这类的调查,而并未体现出预期与决策之间的关系;而网络搜索数据可以弥补该不足;对比发现,搜索指数对消费的预测精度好于消费者信息指数,那么这个搜索指数能够预测,比如说他曾经说搜索搜索指数能够预测2008年12月的消费拐点。什么意思呢?2008年不是金融危机么,他一下子就预测到这时候的消费的拐点在急速地下降,就是他这个数据对经济拐点的预测也强于传统的调查数据,因为他是大批量的。
关于居民消费预测,Nicolás(2009)认为搜索指数由6部分关键词构成,Google 搜索分成若干大类,他就直接用Google Insights的分类,根据分类的词数,然后和宏观经济作了对比,他认为Google Insights分类的前三类反映了消费者意向的改变,因为Google搜索他本身就有一个Google Insights,他对里边关健词有一些分类,这样省得我们自己在分,直接采用Google的数据,那比如说这前3类是和家庭债务负担有关系,第二个是和能源与公共事务的花费有关系,就是和水电煤气的花费有关,第三显示了商业景气。后3类关健词主要是指奢侈品的消费,信贷类商品消费和保险类的商品消费。Nicolás是美国纽约大学研究网络经济比较资深的专家,我们跟着他的时间还是比较久,那么他得出搜索指数预测力高于两类消费信息指数,就是他根据消费者信心指数要高一些。
那么Marta(2009)从消费行为理论出发,研究消费与信息的关系,基础有一个叫持久收入假说,预防性储存藜芦缓冲库存模型等等。这个他从消费行为理论出发。那么他把搜索数据作为信息的一个度量指标,结论发现信息对消费支出有显著的影响,但是这种应该作用在很短时间内就会衰减,这一现象不能充分地被上述消费理论解释,更加符合信号提取模型。总之Marta不仅仅是是研究两个量之间的预测关系,他力图用搜索数据作为一种信号模型,来修改传统的理论,他认为传统的持久收入假说,库存模型通过这样的一个修正就更加符合实际,换一句话说,对搜索行为的研究已经不仅仅是在技术面的探索,有人认为可能通过信号的改变会改变一些传统的经济的理论。
那么,宏观经济也有人研究经济周期与经济衰退的问题。第一个是Tanya Suhoy在2009年等人研究了经济衰退。最重要的数据的来源是以色列的一个科学家做的,他研究的对象就是2008年的经济衰退。
那么他回答的问题,以色列搜索数据是否能够用于经济的预测,哪些搜索数据对经济的预测有显著作用?其实,跟我们刚刚说的一样,哪些数据呢?搜集哪些数据就是哪些关健词是有预测能力的?所以我们的课题组现在最重要的研究工作就是选择在搜索词里边,每天成千上万,把那些 ……(未完,全文共12690字,当前仅显示3019字,请阅读下面提示信息。
收藏《干部学习讲稿:网络搜索与社会经济行为相关性研究》)