新闻详情

一面数据:为数据迷雾开天眼,洞察消费市场秘密 | 创业

商场如战场,只要知己知彼,才干立于不败之地。关于竞赛对手以及整个商场的洞悉,往往决议了一家公司的存亡胜败,那些煮酒论英豪的商业成功者们也都深谙此道。

但是,知易行难,使用传统的问卷查询等办法洞悉商场改变往往是一件十分低效且耗资巨大的事。“用传统办法每做一次商场调研都需求30万左右的预算,而一个大的集团每年或许需求做几十次相似的调研,总成本或许飙升到上千万了。并且在时刻周期上往往也需求3-6个月才干出成果。”

别的,

一面数据

创始人任栋霓还弥补以为查询问卷其实并禁绝,“查询问卷的定论或许会因查询样本的误差而失实,比方,在贫民窟和有钱人区得到的问卷定论肯定是不同的。并且问题的设置也很难,很难让咱们能够毫无保留地说出自己的心里话。”

明显,商场需求愈加低成本且高效、精确的替代计划,而人工智能+大数据便是现在公认的处理此问题的最好办法。使用人工智能+大数据的办法做商业洞悉,这明显是一个巨大的商场,而嗅到这个商机的企业也适当多,比方

玻森数据

、数据威、Clavis Insight等,而一面数据便是其间一家起步比较早的入局者。

扎根消费范畴,处理实际问题

创业历来都不是一件易事。首要要找到职业痛点,其次,也是最重要的,要找到能够处理这个问题的办法。

“职业界90%的公司都会挑选依据自己的技能,然后去做通用的、跨职业的处理计划。而咱们则挑选了一条更笔直的路途——消费品范畴,具体包含快消、鞋服、轿车等。”任栋霓表明他之所以如此挑选,首要垂青两点:

  • 首要,需求大。“消费品范畴是一个节奏十分快、竞赛特别剧烈的范畴。”消费品范畴企业急需通过商场洞悉了解职业改变趋势,并以此调整企业的生产规划。
  • 其次,数据多。光有商场也不可,假如没有满足的数据拿来进行大数据剖析,那一切也是白费,正好,“消费品范畴沉积下来了十分丰富的数据。”

因而,任栋霓以为消费品范畴才是大数据剖析最简单产生价值的范畴。所以,2014年,曾上任于腾讯、华为诺亚方舟研究院(香港)、快播等企业的任栋霓肯定创业树立一面数据,据了解,这是一家旨在使用大数据与AI技能为消费品职业供给商场洞悉服务的科技公司。

一面数据通过机器主动搜集电商、交际、直播等多种类型的揭露信息和数据(包含产品的描绘、价格、销量、用户的谈论等),与榜首方数据(企业界部熟睡的用户行为、订单、物流、标签等)以及第三方的数据进行交融,剖析处理得到实时的商业信号洞悉,进一步完成数据驱动的智能决议计划。

首要,让企业知道商场上的同行以及整个职业都在产生什么工作。

“比方咱们能够告知巧克力企业,2017年销量上升最快的巧克力口味其实是榴莲口味,上升最快的巧克力子品类是生巧克力,咱们还能告知企业到底是什么样的品牌或爆款产品主导了该品类的销量。”

其次,当客户知道了商场上产生了什么之后,一面数据还通过数据剖析告知企业应该怎样优化自己的事务,包含广告的投进、产品的迭代等。

比方,现在许多电商都是将最好卖的产品放在最显眼的当地,其他产品则按销量顺次排序。但是,在任栋霓看来,这些完全依托个人经历的摆放计划或许并不是功率最高的,为此,任栋霓找到了替代计划。“搜集到一切相关数据后,咱们就能够从历史数据中知道不同摆放之间的差异性,然后找到最佳的摆放计划。”并且,从这些数据中,任栋霓以为还能够找到“摆放方位与营销等怎样互动才能够添加营收”的要害信息。而这些数据都有助于企业依据商场改变及时优化自己的事务。

“相似的工作其实都是能够通过数据驱动的办法来做,以替代传统需求凭仗经历或许拍脑袋做的工作。”任栋霓如此表明。

据了解,这也是传统商场调研企图处理的问题。但任栋霓表明一面数据的办法现已将商场洞悉的费用下降到了传统办法的10%-30%左右,并且出成果的时刻再也不必几个月了,“现在只需求花一周左右的时刻清洗数据,之后每天都能够看见实时地数据了。”别的,任栋霓还表明传统顾客研究的办法往往只能得到3-5个维度的用户反应数据,而使用自然语言处理和数据科学能够掩盖传统办法80%掩盖不到的范畴

技能员面临海量数据,好像水手面临沧海

据任栋霓介绍,要想做出一个好的数据剖析产品,要害就在于数据的搜集和数据的处理,二者尽管在原理上并不难,但是一碰到巨大的数据量,那难度便直线上升了。

首要是数据搜集,“爬虫自身没有什么难点,但难就难在你每天要去搜集几十万个品牌,几亿个产品的数据,并且还要确保数据的精确性与齐备性。”任栋霓表明他们每天就要搜集300G到500G的数据,一起还要实时地将这些数据进行清洗,并跟历史数据做交融,巨大的运算量让数据的搜集和整理混合都适当困难。

“而在清洗过程中,另一个困难便是怎么让机器了解非结构化的文本数据。”任栋霓表明,在搜集到数据之后,一面数据还需求使用机器主动地将论题、要害词等从非结构化数据中提取出来,并判别这句话是正面、负面仍是中性等情感。但是,“自然语言了解在通用场景下精确率低,这是现在整个职业的难题。没有任何一个体系能够在通用环境下了解一切的对话,而这也是现在各种虚拟帮手、问答机器人看起来很傻的原因。”

“不管是爬虫仍是数据剖析,在技能上其实都不难,但随着数据量越来越大,处理起来却会越来越杂乱,比方就几行数据的时分,咱们用excel就能够处理了,而数据几亿行时,那就需求依托大数据渠道、依托专门的服务器了。”任栋霓如此表明。

但是,尽管如此,一面数据仍是克服了这些难题,据任栋霓介绍,通过多年的语料堆集和模型优化之后,一面数据现已完成了93%的语意辨认精确率,召回率更是达到了90%。并得到了全球前10消费品品牌中的5家的喜爱。

一面数据是怎么克服困难的?

对此,任栋霓要点答复了语意了解这一块。任栋霓表明,尽管要做通用型的语义了解十分难,但好在一面数据现在只专心于消费品这个相对小的细分范畴,因而得以树立一个十分具体的、杂乱的语义模型,来专门处理这个消费品职业界的语义了解问题。

别的,在情感辨认方面最重要仍是在于很多的语料标示,任栋霓表明,他们每年都会从天猫、京东、亚马逊等渠道上搜集超越200亿条的顾客谈论数据,并依托自己、品牌方以及第三方的力气对这些数据进行标示。“文本的标示是一件十分困难的工作,不像图片一眼就知道这是猫仍是狗,并且文本的标示十分依赖于职业的常识图谱,你有必要跟品牌在一起,才干知道怎么标示。”任栋霓着重与品牌方以及第三方协作标示是至关重要的。值得一提的是,任栋霓也认识到了纯依托人力来做数据的标示在功率上始终是不可的,因而,任栋霓介绍他们其实也在考虑使用强化学习来做主动化的数据标示,完全解放人力。

别的,任栋霓表明他们为了更好地辨认语义,还专门为不同的细分场景又独自练习特定的语义模型,“比方掉发、牙龈出血,每个不同的论题,咱们都能够使用不同的模型来判别,这能够有用进步语义判别的精确率。”任栋霓如此表明。

用技能与客户信赖铸就壁垒

关于竞赛,任栋霓好像并不忧虑,任栋霓以为一面数据有着从技能到商场占有率方面的壁垒,并不是他人想超就能超的。

首要在技能上,任栋霓以为关于一家科技公司而言,技能永远都是榜首位的,“要能够为客户供给更多价值,只要这样,客户才会与你协作。”

而另一方面,任栋霓以为此前堆集的巨大客户资源也是一面数据的护城河,“咱们前几年现已跟大客户产生了亲近的联络跟协作,未来咱们的产品将由咱们的客户来帮咱们界说,他们会源源不断地将榜首手的数据和需求给到咱们。这将使得咱们的才能与处理计划得到不断的提高。这对后来者而言,将是一个比较难以跨过的距离。他们假如不能得到榜首手的需求和数据,他们也将很难加工出比咱们更好的产品。”任栋霓如此说。

一面数据现在有职工40余人,关于一家树立了3年的公司而言,这人数好像并不多。对此,任栋霓表明,一面数据要做的是用机器替代人工,所以相关于传统商场调研企业等,人数会更佳精简。而在融资方面,16年9月,一面数据现已宣告取得1400万元的Pre-A轮融资,出资方为真格基金和联想之星。

题图来自123RF

← 返回新闻列表