当前位置:评价网 > 考研加油绽 > 教育要闻 > 正文
北大光华教授王汉生:移动互联网时代的数据
来源:
发布时间:2014-08-22 10:22
分享到:

北大光华教授王汉生:移动互联网时代的数据

Q:什么叫数据?​

好多年前,我们认为数字才叫数据。什么叫数字?至少支持一种代数运算的才叫数字。到现在我们的概念全变了。可能每一个人对数据的定义都非常不一样,有人会说数据是信息,我觉得太抽象了。直白地说,什么是数据——凡是可以记录的都是数据。但是记录不下来的,这个时刻不是数据,也许未来是。以前声音不是数据,现在声音也是数据,图像是数据,中文文本也是数据。目前移动互联网时代我简单的把数据归类为文本,位置和网络结构三种。​​

​Q:网络结构给我们数据分析带来了什么样的机会和挑战?​​

以前我们对人的分析基于个体。比如说营销中,为了理解消费者,我们会做市场细分,消费者是非常个性化的,千人千面。这时候怎么分析呢?张三的性别,年龄,过去买多少产品,全是他一个人的信息。现在在任何一个电子商务网站上都能看见推荐,推荐做的最成功的是亚马逊,它会根据你过去的购买行为进行推荐。买了A这本书的人会不会买B这本书。看你过去买什么,再推送你将来会买的商品。​​

我跟大家讲一个真实的故事,我认识的一个博士后,毕业之后面对消费者做小微信贷。小微信贷是,比如我到苏宁电器看产品,很喜欢,但是发现差两千块钱,售货员就说说分期付款找小微信贷。然后我就跟做小微信贷的人说我要借两千块钱,但是什么都不想押,填张表就给我两千。他们会根据我的职业教育和其他各种信息,对我的还款能力做评分,20分钟决定给不给钱。这个风险是无比巨大的,这么大的风险大部分银行都不愿意做,但是民营企业愿意做。这个事特别的好玩,很多年前我们叫高利贷,现在叫金融创新。小微信贷要评估的是他的支付能力,支付能力填表很容易做假,如果有帐号,知道他去哪里,就知道他的真假了。所以位置数据也很重要。​​

​Q:在网络上如何获取个人信息?​​

在网络上,我们会通过人的标签增加对人的认识。或者有一个渠道,通过朋友的信息,知道哪些是正确的,哪些是错误的。这里我们可以把它变成非常有意义的统计圈,让用户愉悦体验的产品。数学模型上可以简化成什么样的结构?我定义我自己叫I,我关注的统计之都是Z,标识我关注统计之都,统计之都也关注我,这样就可以进行分析了。我们把标签存储下来,这就是分析的结果。有人说在互联网上,你只要在电脑屏幕前面,互联网另外一端不知道你是谁。现在全变了,你在这里,后面还有人看着你,你的一切他都知道。​​

再比如页面,原来推荐的广告是电子游戏。后来淘宝购买了18%的股份,很快就发生了一个变化,你在淘宝搜过什么东西,在就看到什么广告,这是单向的,还没有出现讨论什么,淘宝就有什么。​​

​Q:位置数据为什么很重要?​​

在互联网上第一批通过数据分析获得商业价值的都是电商。电商要求搜索购买交易行为全部在线上完成,典型的是3C产品、书等各种各样的商品。电商只是一部分行业,但还有很多服务行业是不能线上消费的,线上购买也很难。比如说培训,培训可以在网上购买,一般的就两万块钱,但是更多的人觉得,我们家孩子上英语班,还是先看看老师长什么样子,不能交了钱,人都不知道是谁。其他还有餐馆、酒店、旅游等,所有这些行业都有一个特点,需要完成线上行为和线下行为的打通。在线上了解一家培训机构的资质,线下再去接触;线上通过团购网站寻找一款美食,线下餐厅去完成消费。这个过程当中,位置信息就变得非常的重要。​​

​Q:知道地理位置以后做什么呢?​​

现在我给大家介绍一个我们做过的案例。我们想知道来颐和园玩的游客,他们都来自于哪里,他们在北京去什么地方,他们如何消费等等。​​

因为颐和园和圆明园的门票不贵,可能在这里玩完去CBD去住。但是不同区的领导是有竞争的,领导是希望你吃、玩、住都在我这个区的,这时候就需要采集游客的位置信息了。但是我无法采集到所有人的数据,线下在圆明园让游客做一千份问卷也不太容易,所以我们就用签到的数据,虽然这不是所有用户的数据。通过研究数据发现,首先到北京来的外地游客,在海淀区游玩的大部分在圆明园和颐和园转。我们能看到来颐和园、圆明园玩过的游客逛过的各个地方的最重要的旅游景点。海淀区有颐和园、圆明园、北京大学,朝阳区有鸟巢、国家体育馆、奥林匹克公园等等,东城区有王府井小街、南锣古巷和簋街。但是海淀就没有这些出名的商业街和小吃街了。所以这些来海淀区去颐和园、圆明园玩的人,他们吃饭都到东城区了。虽然这些人购物也发生在海淀区,但是东城区依然是强有力的竞争对手。​​

我们得到的位置信息可以精确到一个楼。所以如果你用心去做,就能通过简单的位置轨迹看到这个人的吃穿住行——是从机场来的,还是高速公路上的收费站来的,还是从火车站来的?是在什么样级别的餐厅吃饭?你只要得到餐厅的名字,就能推出他的消费能力。通过他住宿的酒店也可以看到住宿的经济能力。通过这个可以知道一个人的吃穿住行。​​

举个例子:如果我是国航的销售,一个客户今年在我这儿订过一张机票,现在的问题是要确定他是不是高端用户,如果是高端用户我应该想办法把他拉进来。但是我只看到他在我这里买一张机票,所以无法确定。这时候如果可以得到他的位置信息,比如他每周都在每个机场转一下,我就能知道他买了不少机票,但是机票都跑别家去了。将文本、网络结构和地理位置这三种数据整合在一起,我们就可以分析出很多有价值的东西。但是无论是国内还是国外我们的分析手段还是远远滞后的,滞后的不是技术方法,更多的是对商业的理解。什么样的数据支持我们什么样的商业模式,或者对现存的商业模式有什么改变。​​

​Q:怎样把管理和实践的问题归结成数据问题,然后把问题解决掉?​​

第一阶段首先是数据的生产、采集、整理。第二,有了数据以后,就要定义和数据相关的业务问题。比如车联网,我要定义业务问题,是具有什么驾驶习惯的人容易出事;喜欢逛什么地点的人支付意愿高。这也是业务问题,定义出来才能分析。第三是数据挖掘与统计建模。最后是数据业务的实施。当你有了业务分析结果的时候,你不可能通过统计学语言来表达,你要会表达故事,表达成人们可以懂的语言,比如营销策略和图表。这4个里面相对比较容易的是统计建模。最难的则是第二个,因为无章可学,没有任何一个老师和教科书可以回答你。只能跟最优秀的人在一起,跟他们一起探讨,互相学习。我特别享受的是,在我的课上每到一个学期结束的时候,听同学们汇报案例,我们都互相非常欣赏。有人是做医药行业的,有人自己创业,不一定每个人都给出最完美的答案,但是都能体会你的痛苦。对无法完美解决的问题,只要有更多优秀的人在一起,我们一起研究思考,就可以把它归结出来,找到最好的解决办法。

【中国科教评价网www.nseac.com
[发布者:yezi]
  相关阅读:  ·GRE阅读考试解题时如何善用虚拟语气找答案  ·2015年广东美术联考政策:考生须知3点变化  ·白岩松致儿子的信:争得第一的人不一定是胜者  ·你的英语表达礼貌吗?教你25句有教养的口语  ·礼仪专家:老师打扮成大叔姨妈 学生难有兴趣听
    网友评论:(只显示最新5条。评论内容只代表网友观点,与本站立场无关!)
文明上网,理性评论:
表情:
用户:密码: 验证码:点击我更换图片