国家发展和改革委员会主管   国家信息中心主办

财经界

您的位置:首页 > 财经界杂志 > 2015年第四期 > 两会报道 > 正文

数据产业发力“基础软件+”应用

摘要:近几年发展迅猛的大数据产业与“互联网+”一道成为引入关注的“热词”

  本刊记者/

  今年两会期间,近几年发展迅猛的大数据产业与“互联网+”一道成为引入关注的“热词”。

  代表委员们认为,信息技术和互联网的发展带来了数据的爆发式增长,数据正在成为驱动经济增长和社会进步的重要基础和战略资源。随着大数据时代来临,挖掘、分析、利用好海量数据在各行各业都将成为新的竞争力。

  面对新时代带来的新机遇,不少大数据公司已经开始未雨绸缪,积极谋划未来战略。对于下一步发展规划,中国本土大数据公司——国双公司的策略是通过自身在数据、技术、经验等各个方面的多年积累,打造发展国产基础软件,努力成为可以面向各个行业的数据科学家,为越来越多有挖掘数据价值需求的企业提供数据科学的服务。

  在国双公司董事长祁国晟看来,从应用软件到基础软件,是一件顺势而为的事。尽管挑战不小,但他认为,“因为市场上有这样的应用(需求),我们就要去承担这样的负荷。未来国双将继续致力于大数据技术研发,引领数据技术的发展,为更多的企业和组织打造一流的商业智能解决方案,帮助他们发掘大数据的潜能,创造商业价值。”

  为了在技术创新上更进一步,国双首先启动人才引进战略,特邀曾先后任职于惠普公司和微软公司、在软件工程和研发管理方面有丰富经验的刘激扬加盟并担任首席技术官(CTO),负责公司技术战略制定和整体产品研发工作。

  数据价值应惠及更多领域

  就打造大数据基础软件这一战略规划,祁国晟在跟媒体交流时表示,凭借在大数据领域十多年的应用积淀,在国内众多大数据公司中,国双应该是离这个梦想最近的。

  支撑其这一信念的,其实是国双十多年的发展基础。记者了解到,早在2005 年成立之初,国双便预见到互联网的发展必将带来数据量的爆发,类似“求和”(Sum)这样的简单运算,当数据量足够大时都需要借助分布式计算技术(GridComputing- 网格计算,曾是分布式计算的代名词)来完成,因此以“GRID”加“SUM”来命名公司(Gridsum)。随后数年间,国双研发了系列数据分析产品,产品家族不断发展,被600 多家知名企业和3000 多家政府机构广泛采用,取得引人注目的成绩。

  在服务企业和政府机构的同时,国双也积累和总结了大量数据应用特征。祁国晟向记者介绍了全数据实时不采样应用、数据关联的分析应用,以及非结构化数据、自然语言数据的相关应用等重点应用。

  在他解刨这些应用中的成功案例时,枯燥的数据仿佛变身神奇的“解码钥匙”,既可以做到全数据不采样的实时统计分析,也可以通过数据分析不断延伸剖析路径直至找到问题的根源,还能还原任何一个“关键词”的前世今生。

  凭借强大的数据分析能力,国双的大数据技术也得到政府部门越来越多的青睐和应用。祁国晟介绍,政府机构每年都要开一些很重要的会议,这些会议内容可能涉及到全球贸易、财政金融、民政社保、制度改革、资源能源、公共安全等很多话题。在这些会议中,“国双主要利用大数据技术帮助政府分析媒体转载、网民评论和政府发布的情况,以帮助他们了解这三个方面有多少重合或者有什么不一样,根据这一分析结论再去改进、调整,从而使会议主题更好地贴切社会和人民的普遍需求。”

  事实上,大数据技术影响已升级到国家层面,一个最典型的应用是今年两会期间的政府工作报告。政府工作报告起草组负责人、国务院研究室主任宁吉喆进行解读时指出,今年政府工作报告起草在方式上有所创新,运用互联网、大数据、云计算等现代方法和手段,找内容、找数据、找词语。

  伴随海量数据在更多领域的渗透,祁国晟越来越意识到数据所带来的重要社会价值。“其实我们做数据分析很多年,之前一直在做高性能、高时效、不采样、有关联性的数据分析,过去一段时间我们又引入了非结构化数据处理,尤其是自然语言的能力。事实上我们更应该在法律方面做一些事,因为这方面应用(大数据)可以让我们社会秩序变得更公平、更透明、更开放。”

  从应用软件到通用平台

  从数据行业应用软件,到可以面向各个行业的“基础软件+”系统平台,这样的跨越能实现吗?

  说实话,“这是一个很大软件工程的挑战。”祁国晟坦言,如果国双未来想尝试着把之前支撑自己应用的一些能力结合在一起,提供一个基础性平台的话,这是一个新的尝试。至今为止,还没有一家中国数据公司进行这样的尝试。

  刚刚加盟国双的刘激扬也向记者表示:“要做出一个通用的系统是非常困难的,很有难度的。你看微软的Windows 做了这么多年,还是在不断地改善,不断地提高。数据库也是一样的。”

  不过,面对这一未来数据产业发展必然路径,他也清楚地看到国双的机会在哪里。“从应用出发,我们知道哪些行业、哪些客户需要什么样的功能。所以,我们把需要支撑我们应用的核心组件先做起来,可以从小做到大,不用一开始就做一个完美无缺的数据库,通过一点一点地积累,一点一点地改进,来获取我们需要的经验和技术,这是一个不断学习的过程。”

  按照这一思路,刘激扬和他的研发团队也制定了发展规划。最短期的目标是整合公司现有产品和服务,使其性能和给用户交付的价值变得更加明确。长期目标则是要围绕在自然语言的处理、机器学习、数据可视,以及大数据的平台、数据挖掘和分析方面等核心内容,投入更大的资源和研发。

  下一步就是实际操盘,不断运转数据水晶球。要从越来越多的数据中挖掘出真正的应用价值,刘激扬认为,应聚焦技术提升。首先是做好大数据的平台。要做好大数据服务,一定要有一个很坚实的技术,在这个平台的基础上,就可以采集、处理、分析和展现这些大的数据,即完成数据挖掘。

  其次,不断加强数据可视化的投入和研究。为了让数据能够更好地发挥作用,就需要把这些数据用更加生动、更加平易近人、更加友善的方式呈现出来。

  此外,在自然语言处理和机器学习方面加强投入也至关重要。伴随互联网的发展,网上有很多文本数据,要把这些文本的数据变成商业智能,离不开自然语言的数据和机器学习。

  对于专业数据公司而言,投入和研发是无止境的。刘激扬认为,只有不断旋转手中的水晶球,才可以帮助客户看到企业运营的状况,了解他们面临的行业竞争态势,才能为他们的商业决策做出最正确的判断,也能够把大数据很好地传递给他们,让他们把大数据很好地使用起来。
 

关键词:数据