时间:2016-01-16 10:32 文章来源:http://www.lunwenbuluo.com 作者:南豪峰 点击次数:
经济学领域,特别是营销领域,是大数据应用的重要发源地,比如亚马逊网站的图书推荐系统,就是根据用户的搜索习惯为其推荐可能感兴趣的图书,这种技术已经被阿里巴巴的淘宝网,京东和当当网等国内购物网站广泛采用,甚至一些博彩公司也采用了大数据的分析方法。国内学者俞立平提出了大数据经济学,分析了大数据经济学的研究内容和方法以及同其他学科之间的关系。刘涛雄和徐晓飞在《大数据与宏观经济分析研究综述》一文中认为,大数据在宏观经济分析应用中应用最为活跃的四个领域是宏观经济数据挖掘、宏观经济预测、宏观经济分析技术和宏观经济政策,探讨了大数据分析技术如何将机器学习算法引入到宏观经济分析。总体来看,当下经济学领域的大数据运用主要在营销领域。
大数据在教育学领域的应用,主要体现在大数据对于个性化教育的影响以及在线教育研究方面。张燕南等在探讨了大数据的基本概念和思维特征之后,探讨了大数据对于个性化教育、教育决策和教育效果评价的作用。吴刚在《大数据时代的个性化教育:策略与实践》一文中重点谈到可以通过学习分析学(LearningAnalytics),借助技术平台将每个学生学习过程的数据进行智能分析,进而转化成教师的课堂决策及反馈。张羽和李越在《基于MOOCs大数据的学习分析和教育测量介绍》一文中利用慕课(Massiveopenonliecourses)等网络课堂的大数据,很好地发展了学习分析和教育测量。郑燕林和柳海民分析了美国运用大数据进行教育评价的路径。总体来看,教育学中运用大数据方法进行研究的成熟案例还不多。
美国的心理学是一个庞大的学术共同体,当然少不了大数据方法的应用和探讨。KramerA.D.I.通过Facebook做了一项实验,将70万户的Facebook分成两组,一组接收积极的信息,另一组接收消极的信息,结果发现用户会表现出和刺激信息类似的情绪。换句话说,这是把心理学实验,从实验室搬到了互联网上。国内的心理学家也进行了相关研究。中国社科院心理学所的朱廷劭研究员等发表了《论大数据时代的心理学研究变革》一文,总结了大数据对心理学研究逻辑和研究方法产生的影响,认为有必要将大数据同心理学问题和心理学研究范式有机结合。朱廷劭还通过微博的帖子内容——客观“微博”行为记录(digitalrecordsofmicrobloggingbehaviors)预测其人格特征。在这一思路的引导之下,中科院心理所展开了一系列研究。目前,无论美国还是中国,心理学界都出现了不少运用大数据进行研究的成熟案例。
2014年8月,美国社会学界提出了新计算社会学(newcomputationalsociology)的概念,武汉大学的罗玮和罗教讲在《新计算社会学:大数据时代的社会学研究》一文中作了详细介绍,其中新计算社会学的五个主要内容之一就是“大数据的获取与分析”。范德里特等(ArnoutvandeRijt)分析了美国从2004年—2009年间的2200多种报纸周刊,10万多个姓名,进而分析了名声的结构变迁,并将该文发表在《美国社会学评论》上。康奈尔大学社会学系的学者古德等人(ScottA.Golderetal.)2013年在《科学》上发表了论文,利用推特(Twitter)上从2008年2月到2010年1月240万个用户的5.09亿条信息,分析人们的情绪变化。国内南京大学的学者陈云松运用谷歌图书的最新语料库(811万种书籍,8613亿词汇)分析了社会学的学科轨迹、领域热点、理论流派等方面的内容。可见无论是美国还是中国都已经出现了社会学学者运用大数据进行研究的案例。
除了语义学、新闻传播学、政治学、教育学、经济学、心理学和社会学之外,管理学、营销学、历史研究、影视分析等学科也都将大数据的理念引入进来。比如,通过学籍卡等格式化资料构建大规模历史资料数据库来开展历史研究。而影视行业依据大数据来选择演员和剧情已经不是新鲜事。国内有学者提出,基于云计算和互联网基础构建电影大数据深度分析平台,并使之服务于电影产业发展和科学决策的设想。甚至连人类起源这类由人类学和考古学回答的问题,也可以通过大数据给予重新的回答。西兰奥克兰大学的昆丁·阿特金森(QuentinD.Atkinson)把来自基因多样性的方法运用到语音研究方面,通过统计宏观数据,用语音变化的总体规律来发现人类语音的历史地图,进而验证人类起源于非洲的学说。可见大数据几乎渗透到了社会科学的所有领域。
三、将大数据视为专门的社会科学研究方法论的研究
迄今为止,从社会研究方法的角度探讨大数据的研究还不多,目前主要集中于大数据背后的思维方式、哲学基础和研究范式转变等方面。
计算机领域的学者对这一议题作了深刻的论述。2007年,计算机领域图灵奖获得者吉姆·格雷(JimUray)在其人生的最后一次演讲中,描绘了数据密集型科研“第四范式”的愿景,将大数据科研从第三范式(计算机模拟)中分离出来单独作为一种科研范式。微软公司(Microsoft)的研究人员托尼(TonyHeyetal.)等在2009年共同写作了一本书“TheFourthParadigmData-IntensiveScientificDiscov.ery”,他们认为,由于数据的收集及其便宜和迅速,以至于超越了他们利用、分析、可视化、存储和组织的能力。借助于计算机,人类的科学研究将会被计算思维(computationalthinking)重塑,他们认为尽管实证的(empirical)、分析的(analytical)、模拟的(sim.ulation)方法能够用来回答很多问题,但是由数据密集(data-intensive)驱动的大数据将会涌现,可称之为第四范式(thefourthparadigm)。国内的计算机软件学者徐磊认为,“传统的技术条件只能使人们获得小样本、静态的个体或社会关系的数据,不得不简化社会研究对象的特征,人们更多地依赖假设、直觉和经验解释社会问题,其准确性和可信度自然大打折扣”,“纠结了100多年的社会科学研究方法的问题,将彻底归并到更大的复杂系统认知的问题集合中”。
数学家们对这一议题也发出了声音。联合国统计署的保罗(PaulCheung)教授在“Bigdata,offi.cialstatisticsandsocialsciencesesearch:Emergingdatachallenges”的演讲中讲到了大数据包含多种数据来源,比如互联网应用记录、政府数据、商业数据、监控数据、健康数据、卫星图像等,认为大数据和传统的社会科学研究逻辑一致,都是先陈述研究假设或研究问题,再收集资料,最后分析资料,并且认为当下大数据还不完全可靠,但是其具有更为迅捷和廉价的潜力。
社会科学家们在这些议题上多援引计算机领域的学者和数学家们的观点,没有本质上的创新。比如香港城市大学的祝建华(JonathanZhu)教授在“Bigdataforsocialscienceresearch:Hypes,mythsandrealities”的演讲中,从价格和结构两个维度分析了数据的来源,认为大数据形成了不同于定性研究、实证研究、规范性研究和模拟研究新的范式,因此,仅仅关注相关关系就足够了,无需寻找一个模型,无需一个研究假设就可以展开分析。大陆学者何非与何克清等认为大数据开启了科研中的“第四范式”,人类进入了以大数据为基础的数据密集型科研发现(data-intensivescientificdiscovery)的时代。新闻传播领域著名学者沈浩在《大数据助力社会科学研究:挑战与创新》一文中重点探讨了大数据的基本特征,大数据为应用突变理论(catastrophetheory)、混沌理论(chaostheory)、复杂系统理论(complexitytheory)研究社会治理、舆情研究、传染病传播、谣言传播、微博营销等提供了方法。社会科学家们考虑更多的是如何将大数据与社会科学研究方法结合起来,比如黄欣荣从科学认识论的角度出发,认为“科学始于数据”就是将科学理论建立在海量的、客观的原始数据基础上,这一方面克服了逻辑实证主义者将理论建立在可能被污染的少量经验数据基础上的缺陷,另一方面又避免了波普尔那种没有根据的胡乱猜想。
总体来看,大数据给传统社会科学研究方法带来了范式转变,但目前对大数据方法的选题依据、理论框架、研究设计、数据分析、研究伦理、信度和效度等方面的议题仍缺乏深入的研究。
四、互联网企业和社会科学家运用大数据方法的对比
必须承认的是,互联网高新技术企业以及沃尔玛等大型企业对大数据的运用远超社会科学界。沃尔玛的“啤酒+尿不湿”营销组合是企业自发将大数据方法运用到企业的经营管理中的成功案例。社会科学家们接受了大数据的概念,并用之研究社会问题和社会现象。笔者认为,对大型互联网公司和社会科学家们的研究差异有必要加以探讨。
(一)大型互联网企业的大数据应用
个性化推荐系统是当下互联网销售企业广泛采用的大数据技术,它本质上是根据用户过往的身份信息和行为记录,预测用户对某一产品兴趣的算法和模型。亚马逊、阿里巴巴的淘宝网和京东等互联网企业都广泛采用了这一技术。
通过搜索引擎的关键词进行趋势分析也是一个普遍的应用领域,比如百度指数就是一个根据亿万用户数据为基础的分享平台,在这里可以通过搜南豪峰:大数据在社会研究中的应用现状索关键词的变化趋势来判断网民的兴趣和需求。Google也有类似的功能。根据地理位置进行分析是另外一个普遍应用的技术。智能移动终端的普遍使用使得地理位置信息的搜寻更为容易和廉价。Google地图和百度地图都是这个领域的佼佼者。2015年百度地图从时间和空间两个维度全程、动态、即时、直观地展现中国春节前后人口大迁徙的轨迹与特征,引起了公众广泛的关注。腾讯QQ通过其用户的登陆地也能很好地做出迁移趋势的分析。
依据互联网上的文本做出大数据分析是当下舆情监督机构广泛采用的技术。比如人民网舆情检测室就通过爬虫软件等对传统媒体网络版、网站新闻、BBS、博客、微博等内容进行抓取,进而进行统计和分析,形成舆情监测分析报告。
大数据时代数据往往储存在巨型企业中,它们可以利用这些数据进行分析。比如腾讯2014年推出的《网民睡眠质量报告》是根据QQ用户的在线活动数据作出的分析。阿里巴巴根据淘宝网和天猫等用户的购物数据发布了2015年版的《中国个性化消费大数据报告》。
(二)社会科学家们的大数据应用
与大型互联网企业相比,社会科学界运用大数据进行社会研究起步要晚一些,主要是通过大型数据库和对互联网上的文本进行分析,还有一些通过地理位置数据进行的研究。
一是通过大型数据库(比如预料库)进行社会科学研究。上文提到的美国学者米歇尔(Michel)等对500万本Google图书的挖掘和一些语言学的研究都是这方面的例子。中国电子科技大学的周涛教授通过对美国600多个大学的400多万篇论文分析发现,跨学校合作的文章影响力更大,尤其是实力强的大学之间联手更好;实力强的和实力弱的联手,实力弱的大学可以提高,实力强的大学不会受损伤;实力弱的学校之间联合比单打独斗效果更差。依据大型数据库进行研究,这正是未来社会科学研究可以发力的地方。二是对互联网上的文本内容进行分析。这些数据都是公开的,通过爬虫软件就可以获得。比如,邦德(BondR.M.)等通过Facebook的发帖内容来分析人们的投票行为,中国社科院心理学所的朱廷劭教授通过微博内容来分析用户的性格等,都是运用这种方法进行研究的典范。社会科学家也通过地理位置的相关数据展开城市管理和人口迁移等方面的研究。比如龙瀛等利用北京市1周时间内855万个公交IC智能卡的数据,结合市民出行情况调查和城市土地利用信息,研究了市民的职住关系和通勤行为。
应该说在这些方面的研究中,大型互联网企业和社会科学家们采用的方法没有本质差异,只是关注点各不相同,互联网企业关注的是营销、舆情判断和以位置数据为基础的产品服务,而社会科学家们关注的是政治行为、个性化教育和性格等社会科学关注的传统主题。
联系方式
随机阅读
热门排行