时间:2016-01-16 10:32 文章来源:http://www.lunwenbuluo.com 作者:南豪峰 点击次数:
摘要:大数据的思维和方法已经渗透到语义学、政治学、新闻传播学、教育学、心理学和社会学等诸多学科领域,而且已经出现了一批可称之为典范的研究案例。从社会研究方法论这一视角审视,目前大数据的研究主要集中于哲学基础和范式转变方面,缺乏设计、信度和效度、伦理等方面的研究。社会科学家和大型互联网公司依赖的数据资源和运用的分析技术基本相同,然而关注点差异较大。
关键词:大数据;社会研究;应用现状
2014年9月北京大学成立了社会科学大数据研究院,2015年5月29日邱泽奇教授发表了《大数据给社会学带来什么挑战?》的演讲,讨论了大数据和社会学的关系以及大数据给社会学带来的挑战。
2015年5月复旦大学举办了第三届“中国调查”学术研讨会,将“大数据时代的现代方法研究”作为一个重要的板块加以讨论。这说明社会学家们开始集体审视大数据给社会科学研究带来的影响。实际上大数据被应用到社会研究中已经有几年的历史,而现状是国内学术界还没有对此进行专门的探讨,本研究尝试对这一问题做出回答。
一、大数据的概念及其发展历程
(一)大数据的定义
迄今为止有关大数据的定义还处于争论之中,维基百科给出的定义是“大数据(Bigdata或Megada.ta)或称巨量数据、海量数据,指的是所涉及的数据量规模巨大到无法通过人工在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息”。这是从数量的级别(PB或ZB)来定义大数据,主要讲的是数据量之大使得用常规的数据分析技术无法处理。另外一种讲法是从数据的特性来定义大数据,埃德·顿姆比尔(EddDumbill)认为大数据有大量(Volume)、髙速(Velocity)与多样(Variety)的特征。后来又加了一个特征,国际数据公司IDC(InternationalDataCorporation)认为大数据应当具有价值性(Value),而IBM(InternationalBusinessMa-ChinesCorporation)等认为大数据必然具有真实性(Veracity)。在IDC和IBM的说法中选择1个“V”再加上前面的“3V”,合起来就被称为“4V”,这是学术界广泛采用的说法。
(二)大数据的发展历程
最早运用大数据这一术语的是著名未来学家阿尔文·托夫勒,他在19世纪80年代出版的《第三次浪潮》一书中称赞大数据是“第三次浪潮的华彩乐章”。英国著名的大数据研究学者维克托·迈尔-舍恩伯格(ViktorMayer-Sch.nberger)及肯尼斯·库克耶(KennethCukier)在其合著的《大数据时代:生活、工作与思维的大变革》一书开篇中讲到了Google用搜索记录预测流感爆发的经典案例,并评论说这是“以一种前所未有的方式,通过对海量数据进行分析获得有巨大价值的产品和服务或深刻的洞见”。
这一流感预测案例和沃尔玛“啤酒+尿不湿”的组合营销案例成为了大数据传播最广为人知的经典案例。2008年Nature也出了大数据专刊。2010年英国《经济学家》(TheEconomist)“Thedatadeluge”一文,分析了健康管理、在线广告和政府管理带来的数据巨增,以及面临的风险。《科学》(Science)于2011年也推出了“Dealingdataonline”专刊,说明大数据对于科学研究的重要性。麦肯锡全2011年5月发表“Bigdata:Thenextfrontierforinnovation,competitionandproducticity”。2012年3月美国国家科学基金会发布报告“Bigdatare.searchanddevelopmentinitiative”,涉及到环境、健康、应急管理、研究范式转变、大数据研究和发展的管理等方面的内容。2012年世界经济论坛发布了“Bigdata,bigimpact:Newpossibilitiesforinternationaldevelopment”,从金融服务、健康、教育、农业等领域分析了大数据给世界经济带来的发展机会。
国内关于大数据的概念大多引用美国学者的观点,徐子沛的《大数据:正在到来的数据革命》一书最先对美国数据运用的历史进行解读,对国民进行了大数据知识的普及,其最近出版的《数据之巅》一书着重强调数据文化。随后国内出版并翻译了一批大数据方面的著作,例如埃里克·托普(EricTopol)的《颠覆医疗:大数据时代的个人健康革命》、李军的《大数据:从海量到精准》、阿里巴巴副总裁车品觉的《决战大数据:驾驭未来商业的利器》等。
这些国内外的开创性研究通过互联网和传统媒体传播开来,使得学术界和普通民众日益认识到大数据的重要性。
二、社会研究中已经运用大数据方法的学科
大数据产生和发展的担纲者是互联网公司和数据科学家,无论是通过搜索关键词预测流感发生的研究,还是沃尔玛“啤酒+尿不湿”的营销都不是由社会科学家完成的。但是当大数据的概念传播开来后,立刻被社会科学家们引入自己的研究领域中。
大数据为语言学添上了翅膀,除了庞大的图书资料数据库之外,还有Facebook、Twitter、新浪微博、腾讯QQ和微信朋友圈等诸多网络文本内容。美国学者米歇尔(Michel)等对500万本Google图书的内容进行挖掘,探讨了“Salvery(奴隶)”、“Apple(苹果)”等词汇在1800年—2000年出现的频率变化、语法演变、集体意识改变和技术适应等方面的内容。
我国2014年度国家社会科学基金的重大委托项目“语言大数据挖掘与文化价值现”的成果《基于大数椐的汉语表达智能模型及其理论基础》探讨了构建汉语表达智能模型,提出了建立用于汉语机器表达的专门语料库的设想,讨论了该模型的理论基础。梅德明在《大数据时代语言生态研究》一文中讨论了大数据时代语言生态研究者的思维模式和研究方法。刘国辉运用语料库分析了英语“X-able”形态的文体分布与历时演变。这些研究意味着语言学家开始以大型语料库为基础,运用大数据的方法来研究语言现象,这和大数据的内容挖掘技术是一致的。
新闻传播学是运用大数据方法比较早的一个学科。国外已经出现了通过大数据自动编写新闻的软件。2015年中山大学成立了我国第一个大数据传播实验室,同时也举办了“大数据与传播”的圆桌论坛。中国人民大学喻国明教授等也于2015年出版了《新闻传播的大数据时代》,该书涉及大数据时代的新闻生产、广告营销、舆情分析和新闻传播等方面的内容。喻国明教授特别强调大数据时代新闻传播学的范式转变,主要体现在从“随机样本”到“总体”的转变,从“理论”向“算法”与“规则”的转换。除此之外,大数据也对整个新闻产业产生了很大影响,主要体现在生产信息提供者层面、媒体层面和用户层面的深刻变化上。这种变化原因是大数据带来的新闻价值的改变,陈雪奇等就撰文分析了大数据给新闻“有用性”、“时效性”和“异常性”带来的改变。数据可视化给大数据新闻展示带来了很大变化,郎劲松等认为数据新闻通过挖掘和展示庞杂数据背后的关联与模式,能够通过可视化方式丰富新闻报道的方式。舆情监督和分析领域已经采用了很多大数据的方法,清华大学沈阳教授的团队在这个方面做了很多研究,其典型研究成果有《微博意见活跃群体分析报告》、《2013年中国县域网络形象分析报告》和《2013年中国地级市网络形象分析报告》等,都采用了大数据信息挖掘技术。总体来看,新闻传播学对大数据的运用已经有了范式、理论和方法方面的讨论,并有一些比较成熟的案例。
大数据方法也延伸到政治学研究领域。美国政治学的一个重要板块是研究政治选举,邦德(BondR.M.)等依据2010年美国国会大选投票期间的6100万Facebook用户的发帖内容,分析了自我表达、信息搜寻和真实世界的投票行为之间的关系。托马斯·沙德福(ThomasChadefaux)运用文本分析技术,分析了1990年到2013年间166个国家的报纸文章,来分析预测是否会发生战争。另外大数据在公共政策制定和分析中具有重要作用,而且已经用于突发事件处理和减少犯罪等方面。
国外的政治学研究已经有一些运用大数据方法的实证研究,而非仅仅是理论上的探讨。国内的孟天广等直接提出了“大数据政治学”概念,认为数据分析学新方法的引入、定量与定性方法的整合、政治学与计算科学、信息科学等跨学科研究、数据民主化所推进的政治知识平民化的传播和普及革新了我国的政治学研究方法。国内在政治学领域对大数据方法的探讨主要集中于理念和理论方面。
联系方式
随机阅读
热门排行