政治学与国际关系论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 249|回复: 0
打印 上一主题 下一主题

算法师:数据黑匣子的开启者

[复制链接]
跳转到指定楼层
1#
发表于 2013-8-15 12:04:20 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
  本刊记者王芳
  他们思维缜密、学历不低、收入丰厚、一才难求。他们从事的是“大数据”时代催生出的新职业,对庞大的数据中蕴含着的行为逻辑做科学的计算和提炼,以供企业转化为财富。他们有个带魔幻色彩的名字,叫做“算法师”。这个职业因陌生而不为人知。
  近日,本刊记者有机会与算法师近距离接触,揭开大数据算法师日常工作的神秘面纱。
  复杂的算法
  运动T恤+牛仔裤+板鞋+黑框眼镜,标准的IT工作范儿,7月9日上午10点钟,北京富华大厦16层,北京缔元信互联网数据技术有限公司产品副总裁牛程接待本刊记者的到访。
  经过办公区,目光所及之处,员工面前的计算机屏幕上都显示着各种各样的数学图片,饼状图、柱状图、曲线图,或者是密密麻麻的表格,一时间仿若掉进了数字的海洋。
  作为缔元信的创始人之一,牛程负责公司的核心部门即产品部,细分到具体事务,就是管理大数据知识库的整理、算法的设计和前端产品研发,而前两件都是算法师要做的事情。
  所谓知识库,就是建立起关于一件事物的关键词库,然后通过这些语料来不断训练程序的算法,准确抓取网页中的关键词并形成对应数据。
  比如在训练机器抓起汽车相关数据的时候,就要准备好具体的语料,如果是宝马三系车,它除了这个标准名称外还有很多别名如“小三”、“别摸我”、“吉祥三宝”、“Bimmer”等,这就需要与相应的知识库对应起来,初期需要准备几百篇包含这些关键词的文章训练程序抓取数据的准确性,然后才能放心交由程序去挖掘数据。
  “训练程序的事情是需要人工准备的,目前机器还无法替代。”牛程说。
  缔元信将自己定位成DMP,也就是数据管理平台,与以自用为主的封闭性的企业数据不同,缔元信的数据更加开放,几乎服务于所有体系。目前主要向媒体网站、广告主、电子商务网站提供大数据输出,帮助他们提高客户的粘性和发现消费需求、精准地投放广告。
  缔元信目前在整理汽车、大IT(数码、手机、家电、PC)、金融、女性、快速消费平行业的数据,这都是牛程在具体负责的内容。
  牛程告诉记者,缔元信花了4~5年的时间才整理出来汽车这一个行业的数据,难点在于随着微博、微信、人人网等自媒体的兴起,口语化的描述越来越多,为了追求更精确的数据不能忽视这些内容,就会让对应的知识库很难搭建。
  目前,缔元信对行业数据的整理和抓取主要是通过改良谷歌的TF(文章中词语的频率)和IDF(互联网中词语的频率)的算法来做。
  他们都是数学健儿
  对数据的敏感度和对大数据算法的设计能力,源于牛程16年计算器程序工作的磨砺。1997年毕业的牛程曾在新浪网从事互联网研发工作,2007年参与创办了缔元信。为门户网站提供数据服务,让他很自然地从一名研发工作者过渡成为数据挖掘工作者。
  但互联网技术日新月异,大数据时代迅猛来袭,对算法师这一职位的巨大需求使得整个行业不会有耐心用16年来等待一位算法师的成长,那么,新生代算法师又具有什么样的特质?
  牛程今年年初为缔元信雇佣了三位“算法师”,他们无论是“海龟”还是“土鳖”,都有两个共同的特质,就是基本上都系统地学习过数学、最低学历是研究生。
  “他们的特点有三个,一个是对数据很敏感;另一个是对互联网的生态环境比较了解;第三,他们或多或少地学习过计量经济学,对经济有一定的了解。”牛程表示,因为算法不仅仅是简单的算法累计,而是通过算法分析出用户日常行为和消费行为之间的差异。
  算法师并不一定要对互联网技术十分了解,因为他们的需求会通过计算器工程师来实现。
  根据牛程的介绍,算法师的日常工作就是提供一些算法的具体想法,然后再通过原始数据和计算结果的数据来对比看是否达到了他们设计算法的目的。开始是小样本测试,即对几千个人进行测试,然后到几万人的测试、几十万人的测试,然后看对应的结果是否一样、数据分布是否合理、是不是和公开的数据一致,如果偏差很大,就要考虑是不是算法出了问题。
  牛程告诉记者,一个算法,从设计到上线需要5个月的时间,其中设计算法就需要3个月时间,从设计之初就开始不断的试错,验证算法的正确性,即便这个“算法模型”正式投入应用,也还需要不断的调整和优化。
  比如要建立一个算法模型,分析网站的男女比例。通过模型算出来的结果,需要和已经公开的数据来做比对,这个公开的数据可能来自抽样调查,同时算法师还需要去搜集一些其它的真实的数据来和模型计算的结果做对比。验证的结果往往有两个,要么算法模型错误,要么公开数据错误。
  既然很多领域已经有抽样调研的结果,甚至可以提供给大数据算法提供参照,为什么大数据计算仍然要做重复的事情?
  牛程表示,调研是对人主观意识的调查,或许会因为具体的计算方法而产生偏差,成本也很高。而大数据则观察人的具体行为,可以通过常规行为预测人的行为,调研则做不到。并且由于大数据是全样本计算,出现偏差的可能性会小一些,同时也是对过往公开数据的再验证过程。
  牛程表示,其实算法师很关注关联计算,比如购物领域,为了不再为已经买过童装的消费者短期内继续推送童装广告,他们必须要计算出童装的关联消费是什么,就好比沃尔玛的啤酒尿布理论,周末购买了尿布的父亲通常会拎一箱啤酒回去看橄榄球比赛,所以沃尔玛周末把尿布和啤酒摆放在相邻位置。
  极度稀缺的人才
  “我并不是很担心下一代的问题,我关心的是随着大数据时代的变化,会要求我们有新的技能,谁来培训我们这一代?”《大数据时代》一书的作者维克托?迈尔?舍恩伯格曾表示过这样的担忧。而这个担忧已经在实实在在地考验数据公司了,对算法师的巨大需求以及相关人才的稀缺性,已经成为掣肘大数据发展的一个重要因素。
  “三个算法师只能满足缔元信半年的战略发展,要实现明年的战略规划,至少需要扩大一倍,到六个才可以。”牛程表示,就算聘用到了新的算法师,也不意味着团队工作量的减少,而意味着工作量的扩大,因为市场对大数据的需求越来越大、越来越快。
  牛程告诉记者:“我们一直在招聘,看过无数简历,但符合面试条件的人就不多,能够入职的就几乎没有,所以就算需求很急,但也只能空缺着,很难。”
  牛程告诉记者,要过简历这一关,他们的衡量关键词有四个,就是数学、数据挖掘、数学建模和算法。
  维克托?迈尔?舍恩伯格对未来的数据分析家有自己的看法,他认为应该会有一个特别的培训方案,而且是多学科的要求,一方面是技能方面的要求,比如如何筛选数据,如何获得数据;另一方面是基础学科的要求,比如数学、统计学;还有一些伦理方面的要求。
  “中国的学校也许可以设立专门的专业来培养人才,美国今后几年也会有这样的专业出现。”维克托?迈尔?舍恩伯格说。
  但是牛程却认为,算法师不是依靠学校能够培养出来的,而是在学校学习一些基础的数学算法诸如分类、聚类和关联等,然后在实践中延伸并且提升算法设计的技能。

分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友 微信微信
收藏收藏 转播转播 分享分享 分享淘帖
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|小黑屋|中国海外利益研究网|政治学与国际关系论坛 ( 京ICP备12023743号  

GMT+8, 2025-7-8 02:55 , Processed in 0.109375 second(s), 24 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表