大数据是万能的吗(大数据不是万能的 流调)
从DVD租赁到流媒体再到内容生产,Netflix一次又一次颠覆影视行业。然而最近一年内,Netflix的股价却从巅峰时期的700美元跌到现在的187美元,市值仅是巅峰期的四分之一。股价大幅跳水的背后,或许有宏观环境动荡、行业竞争加剧、企业文化僵化、核心创作人离职、成本控制不利等诸多原因,但我们认为Netflix一直以来的立身之本——大数据决策,在失速下滑中更难逃干系。
成也大数据,败也大数据。如今数字经济时代,没有大数据可以说是万万不能的,但我们也要清醒认识到大数据也不是万能的。过度依赖大数据决策、无视大数据决策的陷阱,恐怕也将重蹈Netflix的覆辙。
一、成也大数据——大数据决策成就Netflix的崛起
Netflix创始人小威尔蒙特·里德·哈斯廷斯对算法的偏爱,使得大数据成为Netflix的核心资产,通过数据的收集和分析进行大数据决策是Netflix短期内成长为流媒体行业黑马的关键。从用户点击进入Netflix网站,针对个人的数据分析就已经开始为Netflix决策提供重要依据,深刻影响Netflix商业模式的每个环节,尤其是关乎能否提供优质内容吸引用户的智能推荐和内容创作两环节的决策。
(一)基于大数据的智能推荐提升用户体验
Netflix将大数据用于智能推荐决策,通过采集和分析节目评分、使用地点、使用终端等数据,为每位用户提供高度个性化的体验。早在2013年,Netfilx全球传播总监Joris Evers接受采访时就表示,Netflix有3300万个不同的版本。据2021年Q3财报,Netflix全球用户已增长至2.14亿,Netflix正在走向亿人亿面。
具体来说,Netflix对每个用户进行数据分析,针对每个用户推出不同的画面和影视引导页面。页面设计上采用基于行的两级排名系统: 每一行的最左边是最强烈推荐的;页面从上往下每一行的推荐级别呈递减状态。页面主要内容有:个性化视频排序、Top N视频排序、当下趋势排序、持续观看排序和相似视频排序。具体排序规则来源自Netfilx极为复杂的推荐算法。
不仅如此,Netflix发明“量子理论”,在传统的影视分类之上再进行高度细化,形成“影片微类型”,“影片微类型=地区+形容词+影片类型+创作来源+设定时间+故事情节+内容+适宜观看人群+……”。Netflix目前共有76897种微类型,显著提升大数据的精确度。同时,Netflix鼓励用户提交更多的反馈来帮助优化推荐算法。随着推荐算法不断进化,目前己有75%的用户会直接选择系统智能推荐的节目。
(二)基于大数据的内容生产打造优质影片
作为互联网出身的公司,Netflix在内容创作方面本是短板,但凭借用户产生的大数据资源,优质内容生产已成为Netflix得天独厚的优势。
Netflix根据用户偏好来对内容创作项目进行决策。《纸牌屋》是Netflix通过大数据决策的第一部作品。当时Netflix首席内容长Ted Sarandos和他的团队,分析了近3000万用户大数据,包括每天近3000万次左右的播放行为、400万次的评价、300万次的搜索等等,明确创作方向、播出形式、推广手段等多个关键环节,最终决定对开发《纸牌屋》进行高达一亿美元的投资。
此后,随着用户数量的增长,Netflix积累的大数据越来越多,以大数据决策为核心驱动,爆款内容被不断制作出来,甚至通过大数据决策,Netflix走出了独特的影视国际化的道路,打破传统内容市场纯粹依靠创作着灵感、影视公司制作经验和市场调研的方法,以大数据为切入口,找到了一条流媒体平台全球化战略中的内容创新与价值生成的新路径。
以Netflix韩国本地化模式为例,在Netflix进军韩国市场之初,结合自身平台的品味集群数据,以及《大长今》、《釜山行》等韩国成功影视作品的大数据分析,决定将韩国本土历史文化与当时东亚时兴的丧尸文化相结合,加上具有国际影响力的演员阵容,打造出了非常成功的电视剧《王朝》。随着越来越多的数据证明将不同的文化元素进行串联是影视全球化的有效方法,Netflix不断调整剧本方向,选择兼具本土化和国际特色的故事,并辅助以更具优势的好莱坞制作标准、更高级别的资金投入来提升内容品质,产出国际化爆款内容创作,获得大量全球用户。
二、败也大数据——Netflix大数据决策背后的陷阱
Netflix的迅速崛起让我们更多聚焦在大数据决策是如何缔造商业神话这一表象,却忽视了大数据决策背后的陷阱。
(一)大数据决策反噬Netflix的内容创作
尽管Netflix的企业文化写明:只有事实才能捍卫观点,事实驱动并非数据驱动。然而实际上,大数据正在影响编剧的创作,决定编剧必须去创作什么以及如何创作。Netflix的内容创作正在被大数据决策反噬。
通过数据分析,Netflix对于剧情点的安排要求十分严格,尤其是在剧集前半部分,每隔 15分钟左右就需要出现一个情节点,用快节奏、高强度的密集信息持续吸引观众注意。但由大数据决策主导的内容创作,似乎并不成功。Netflix在2021年底推出一部贺岁片《不要抬头》,Netflix对这部反讽社会的喜剧片寄予厚望,然而上映后的口碑却事与愿违。虽然笑点密集,但基本上浅尝辄止,作品的内容和节奏非常俗套。观影者普遍感受到仿佛算法正催导演:观众快要无聊了,赶紧加料。
Netflix过度依赖大数据决策进行内容创作,意味着用户数据的轻微波动可能都会影响内容的命运,结果便是Netflix的很多创作半途而废。Netflix 的大数据可以根据订阅者的观看行为去判断下一季是否出现这个人物、动物或者产生一个场景,并建议保留或者删除。这样缺少长期主义耐心的内容创作难以打造经典IP,用户流量难变存量。
Netflix的核心战略是在全球范围内发展流媒体会员业务,这一战略极度依赖优质内容的持续输出能力,尤其爆款剧对用户的增长起到关键性作用。过度依赖大数据决策导致的缺乏爆款、吸引力下降,直接影响Netflix商业模式的可持续性。
(二)亚马逊版《纸牌屋》犯下类似大数据决策错误
不仅Netflix陷入大数据决策陷阱,亚马逊也犯下同样的错误。几乎与Netflix筹划《纸牌屋》项目的同时期,亚马逊也试图模仿Netflix,通过大数据决策推出现象级的原创影视作品,但以失败告终。
时任亚马逊广播公司的资深决策者Roy Price为保证成功,进行了扎实的影视作品数据分析、评估,最终决定八个候选电视剧。并为每个剧制作了第一集并让观众免费观看。通过对几百万观众的观看行为进行观察,比如暂停、快进、重复等,Roy Price的团队收集了几百万条数据进行分析处理,来决定要做什么样的剧。最终他们决定亚马逊需要制作一个有关四个美国共和党参议员的喜剧。于是他们做了《阿尔法屋》,但这部剧收视率并不理想,得分仅7.5,远低于《纸牌屋》。
为什么两个非常精通大数据分析的公司都是依据大数据并做出决策,一个打造了爆款,另一个却以失败告终?一位德国大数据科学家对此深入研究,认为大数据分析伴随着分离和整合两个过程,即将数据分离以便进行分析和将数据重新组合从而进行充分利用,只有分离的过程是对大数据决策有用的,整合的过程做决策是很不合理的。Netflix只是通过分析用户数据决定内容创作的方向,而内容创作过程的决定权仍在编剧、导演等手中,因此成功。而亚马逊在整个制作过程中都使用了大数据决策,然后将每一部分的决策整合在一起,过度依赖大数据决策的结果,因此失败。
三、大数据决策的陷阱
Netflix不是第一个落入大数据决策陷阱的,也不会是最后一个。如今我们对数据的依赖越来越强,试图通过大数据做出一些远比内容创作与分发更加严肃的决策。尤其在企业经营中,大数据决策已经逐渐成为企业最重要的能力之一。然而,据高德纳咨询公司分析师尼克•赫尔德克的估算,高达85%的大数据项目是失败的。尽管大数据一定程度上提高了效率,优化了决策过程,但是我们必须认识到大数据决策同样存在着陷阱和风险。
(一)数据陷阱
数据单一。随着科技的进步,我们可以同时获得来自不同时间、不同空间的多元性数据。然而,正如人的认知是有局限性的,我们只能看到我们想看到的,我们永远无法获得想象之外的东西,数据的获取也是有局限性的,我们只能获得我们想获得的数据,这些数据看起来是多元的,但相比于我们没有看到的数据,这些多元数据也是单一的。基于这些单一的数据的决策结果也注定是有局限性的。
数据冗余。数字时代,数据正在以难以想象的速度膨胀。有研究表明现在每天新产生的数据量高达2.5个艾字节,一个艾字节是1后面加18个0。面对几何级增长的海量数据,大数据决策很容易陷入既数据爆炸,又信息贫乏的境地。只有靠高质且有效的数据,大数据决策才能保证决策的准确性。大量的低质数据,不仅对大数据决策毫无意义,甚至还会导致大数据决策失灵。
数据不准确。一般来说,数据的准确性会受到人为错误的影响,但即使数据收集过程是自动化的,也仍然会有很多的错误来源,比如手机信号塔的间歇性停电就会造成错误;在金融交易清算过程中运用自动化的信息收集方式同样可能产生错误。事实上,一项研究发现,65%的零售商库存数据是不准确的。错误的数据比没有数据更为糟糕。不仅如此,数据统计口径的不同也会导致最终数据的不准确。以刚过去的罗大佑和孙燕姿的线上演唱会为例,从数据表现来看,罗大佑的千万级观看量与而孙燕姿的亿级观看量相差悬殊,但实际上,两者直播平台不同,统计口径也不同。罗大佑微信视频号直播以观看账号为统计口径,而孙燕姿抖音直播以观看人次为统计口径。口径不同,数据不同。若仅以此判断孙燕姿和罗大佑孰火孰凉,视频号和抖音孰强孰弱显然是不妥的。
(二)算法陷阱
算法可能不合理。算法的逻辑与设计直接决定了大数据决策的结果,但算法很难做到完全合理,不合理的算法无法给出合理的决策。有经济学家发表报告,警告说美国债务即将面临一个关键的节点。他们的工作引发了一场政治风暴,但后来事实证明,他们的算法中出现了一个简单的错误,导致他们夸大了债务对GDP的影响。
算法有局限。以大数据决策指导精准营销为例,在做大数据精准营销之前,需要对用户的浏览数据、分享数据、搜索数据等行为信息进行分析,从而对人群或事物进行分类,并由此推测用户的偏好、兴趣等。但偏好不一定代表喜好,也并不能等于真实需求。算法可以对行为分类,却不能真正探测到人的心理。这也是为什么在数字时代,很多大型广告公司、营销公司仍然采用传统的市场调查和分析方法去了解表面数据背后的故事和原因。这是算法目前没办法做到的。
(三)因果陷阱
大数据能证明相关性,却难以确定因果关系。前微软高管沈向洋表示,随着神经网络模型越来越复杂,在准确性越来越高的同时,研究人员也会遇到一个问题,即不得不在模型的准确性和可解释性之间做出妥协,因为两者常难以兼顾。尤其随着深度学习模型进一步推进,经常会牵扯到几百万个乃至数十亿的参数,导致的结果是,有时候研究人员做出一个行之有效的模型,却并不能完全理解其中的缘由。因此,即便结论正确,但是实践中却难以应用,因为我们并不知道其中的因果推导。比如有研究发现,2004至2012年间的美国汽车销售与印度餐厅这二者之间竟然存在相关关系,但显然这一结果是难以解释的,更难以应用。
谷歌对流感趋势的预测就曾因误把相关性理解为因果关系而遭失败。谷歌用大数据分析发现了搜索流感与流感爆发的相关性,并基于此多次成功预测流感,包括 2011/12年的美国流感、2007/08年瑞士流感、2005/06年德国流感、2007/08比利时流感等,其及时性甚至要比美国疾病预防控制中心还要高。但谷歌却严重高估了流感病例的数量,这是因为谷歌误把搜索流感与得流感的相关性当成了因果关系。搜索流感的人中不仅有因为感染流感而搜索的还有随机的搜索者,把随机搜索的人的相关关系理解为因果关系导致谷歌预测失真。
(四)结果陷阱
大数据分析结果也不一定准确。当下大数据决策正迅速为具有前瞻性的企业与组织所利用:美国宇航局前沿开发实验室、澳大利亚银行利用、加拿大电信公司等都在使用智能决策系统,但即使是最顶尖的数据分析公司,也无法保证大数据分析结果准确无误。微软曾自主开发了一个名为“必应政治指数”(BPI)的版块,采用包括网络搜索、社交媒体、第三方的预测结果等多个来源的数据,通过机器学习技术对数据进行分析处理。BPI 每个月更新一次,以及时反映选情的变化和新出现的问题。2016年10月9日,必应预测希拉里将获得各州选举团的323票,而特朗普只会获得215票,希拉里胜率为89%,特朗普仅为10%。但选举揭晓后,实际结果并非与预测的一致。
大数据分析结果有根本盲点,无法反映复杂的人性。数据是各种现象的一种呈现方式,但在现实之中,人类行为的灵活性、思辨性和复杂性,比某个阶段数据反映出来的当下特征更加难以捕捉。大数据难以反映人性,只是客观数据呈现,不涉及主体判断因素,所以大数据有根本盲点。创立初期的福特汽车公司曾搜集顾客数据,结果发现人们最想要“更快的马”,若单凭这一数据分析的结果,汽车可能不会在那时出现。那么如何让世界从马车跃至汽车呢?只靠数据分析做不出汽车,唯有在客观数据基础上加以主体判断,才能找到大数据错过的东西。
【小结】
不可否认,大数据依然是做决策时的强大的工具。但数据分析并没有想像中那么有效,当数据开始主导决策时,并不能保证万无一失,不管它有多么的强大,数据都仅仅是一个工具。科学决策需要智慧,离不开主体判断。至少在目前,大数据决策仍无法赶超人类大脑。借助科技的力量增强决策科学性,与此同时,保持决策主体思考的相对独立性和自主性,避免陷入大数据决策陷阱,才是实现精准决策的正确路径。