51学通信技术论坛

 找回密码
 立即注册
搜索
查看: 4597|回复: 0
打印 上一主题 下一主题

基于分布式云计算技术进行海量数据运营的探讨 [复制链接]

Rank: 9Rank: 9

跳转到指定楼层
楼主
发表于 2013-6-11 15:53:16 |只看该作者 |倒序浏览
一键分享 一键分享

本文摘自《移动通信》2013年5期。作者:唐辉 乔志勇 黄瑾

【摘 要】电信企业内部会在清单、信令、日志等多个地方生成海量数据,传统的处理方式成本高、速度慢,无法应对互联网时代快速、高效的要求。针对这一问题,采用云计算技术Hadoop集群处理海量用户清单,为业务系统和分析系统提供一个分布式可动态扩充的数据库,有效地提升了清单入库、查询和统计速度,同时硬件成本降低了90%以上。
  【关键词】云计算 分布式 海量数据运营 Hadoop
  中图分类号:TP315 文献标识码:A 文章编号:1006-1010(2013)-05-0084-04
  1 前言
  随着电信企业的业务范围拓展、服务精细化要求和IT技术发展,在企业内部或互联的IT系统中,存在着飞速膨胀的海量数据。和以往对比,现阶段企业海量数据呈现出数据量更大、数据类型复杂、处理速度要快的新特征。与此同时,越来越多的企业开始重视海量数据的处理,研发出各种海量数据处理技术,从中发现巨大的商业价值,以Google、Facebook、淘宝为代表的中外互联网企业,走出了一条以免费的基础服务为根本、以海量数据运营掘金的信息企业模式。
  这种现象可以称作“海量数据运营”,它是以海量数据处理为基础,以服务对象为核心,以客户关系为目标来进行信息的生产、交换,商业模式更有价值,企业运作更加优化,达到盈利或提供更好服务等商业或社会目标。
  2 电信行业面临的困境和对策
  在传统运营模式下,电信业务从技术到商业模式相对封闭,对于IT系统中产生的数据如用户话单、信令日志、运行日志等,除了部分用于提供给用户查询,大部分用于故障处理、简单统计。而对这些海量数据的分析,面临4大技术困难:
  (1)数据量太大,用于存储和计算的设备成本高昂;
  (2)没有合适的工具支持,传统关系型数据库只能存储几T数据、上亿条记录;
  (3)随着设备变更、网络升级、业务更新,原始数据模型经常变化,构建结构化模型并同步更新的难度非常大;
  (4)分析结果无法快速有效地实施到网络或业务平台。
  随着3G业务的发展、终端渗透率的提高和IT技术的进步,电信业务从技术到商业模式越来越开放,业务的盈利能力越来越依赖前面的终端和后面的业务平台。苹果、三星等智能终端厂家成为运营商争先拉拢的对象,移动互联网带来的大部分增量利润更多地涌向了创新型技术公司,而海量数据流量却冲击着电信网络的承载能力。
  业务承载量增长、收入增长、利润下滑,变成全球电信运营商普遍面临的困境,把网络建好、坐等收钱的好时代已经过去,运营商的主导地位岌岌可危,被管道化的趋势越发明显。
  面对这种局面,运营商开始提出“智能管道”、“流量经营”等思路求变,希望能够提升对用户的业务使用管理能力,寻找更好的业务模式,充分发掘网络承载能力,增加单位流量价值。一方面提升网络能力,达到精细化控制目的,如PCC(Policy Control and Charging,策略控制和计费);另外一方面,对生产关键环节的海量数据进行细化分析,能够动态、精细化地实现有效控制和资源优化,如DPI、信令分析。其中DPI分析的上网记录每日高达30T,信令日志的数据量也以T级别增加,海量数据运营开始出现。
  这些方面的建设当前都取得的不少成绩。在国外,相关运营商推出了定向套餐和流量控制业务,如Vodafone、BT在流量高峰时段控制P2P业务,O2优化网络让iPhone、iPad终端拥有高优先级和最大可用网速,Orange推出自有业务获得最高的端到端优先级等。
  3 海量数据运营的探讨
  当前的海量数据运营大部分在网络层面,充分体现了数据包、带宽、QoS、信道、小区、容量等网络特征,对三户一品(客户、用户、账户、产品)、营销、服务、计费、信控等业务特征进行了简化或弱化处理。大量数据如用户状态、业务订购关系、累计量等需要从业务侧同步到网络侧,存在着时延较长和不一致现象。
  运营商应该建设覆盖面更广的体系,有机融合现有支撑系统,充分利用现有支撑体系内部数据和功能,为客户提供更好的服务,产生更大的价值。但这种系统容量需要达到上百T,处理的实时性要求更高,若采用传统的“scale up”的建设思路,不但成本高,而且无法根据用户和业务变化进行有效的调整和更新。
  云计算技术的发展,提出了“scale out”的建设模式,根据互联网企业的经验和电信企业的特点,新的海量数据运营系统必须支持如下特性:
  (1)分布式架构:只有采用这种架构,才能充分利用现有的低端PC,在合理的成本基础上,将其组合成为满足电信企业的体系;
  (2)半结构化数据:电信领域的业务种类繁多、设备厂家多、升级频繁,固定结构的数据在灵活性方面很难适应;
  (3)动态作业能力:只有自动适应、自动分解、负载均衡的系统,才能对海量数据做快速运算和分析,满足网络侧的低时延要求。
  4 云计算清账单系统试点
  在电信企业内部,用户使用清单和账单(以下简称“清账单”)的存储和查询是一项基本业务。这一业务的特点在于数据量巨大(一个省公司每月的清单条数可达数十亿,每条记录可包含数百个字段),同时对实时性(从事件发生到可查询的时间间隔)和历史性(保存多久的记录)的要求很高。
  传统的系统是基于小型机和SAN存储实现的,存在容量有限、插入速度低、查询并发性差等问题。同时,传统的系统只能提供导入、查询和简单的固定统计功能。如果要对清账单进一步进行分析,则需要搭建昂贵的数据仓库,采用专有软件和设备,才能实现有效分析。
  云计算清账单系统,一是要克服现有的清账单系统存在的问题,建立一个低成本大容量的系统,二是要能够对于清账单实现数据仓库级别的灵活分析统计功能,三是能够和网络侧及支撑体系其他部分结合,提供实时的营销和服务功能。

云计算方案基础采用Apache Hadoop系统,并采用多重优化和创新来满足企业运营需求。整个体系共80台左右(HBase/HDFS/JobTracker/Thrift共享PC服务器)自带硬盘的双路PC服务器,共同搭建起Hadoop集群(如图1),支持1.2亿移动用户6个月的清账单处理工作。
  HBase实时数据引擎:实时NoSQL数据库引擎,基于列存储方式,很好支持稀疏表,提供强大并发查询能力。
  HDFS分布式文件系统:分布式文件系统,支持PB文件存储,最大可支持三份数据冗余,确保数据在分布式环境的安全性。
  MapReduce计算框架:基于HDFS的分布式计算框架。具有数据在存储服务器本地计算的特点,替代传统的把数据从存储迁移至小型机再进行计算的旧模式。
  ZooKeeper管理软件:调度管理集群中的服务器,一般为单数多台服务器,具有仲裁能力。
  Hive查询软件:支持SQL查询,提供了一种利用MapReduce分布式计算框架对HBase中的数据进行高效的分布式处理的简便方法。
  Thrift接口软件:提供C、C++、Java等多种高级语言统一访问接口,实现与外部不同种类异构平台实时数据交流。
  该系统全部使用廉价的X86服务器及Linux操作系统,提供600TB有效数据空间。新系统每5分钟加载一次数据,入库资源控制在20%左右,已经实现1000MB/s(100万条/秒)入库效率,在业务最忙时也不会产生数据积压。
  原来小型机的系统,只能满足200笔查询/秒。Hadoop通过HDFS分布式文件系统把海量数据分隔存储在各集群服务中,再通过HBase主键索引快速定位待查数据块。总体上,不同的用户访问不同的服务器,由Hadoop集群统一管理及调度,大大提高系统的并发能力,新系统在已经支持8000笔查询/秒的用户随机查询,返回结果集达80万条/秒。而且随着集群规模的横向扩展,性能还可以线性地提供,这是传统的小型机解决方案很难实现的。
  除了优异的加载及查询性能外,基于X86的Hadoop系统另外一个重要的特点是节省成本(如图2)。当前大主流的X86服务器,性能上基本都能达到40万tpmC,甚至过百万。而一台中高档的小型机,tpmC值大部分在100万~200万之间。因此,如果需要达到上述HBase RegionServer同样的硬件计算能力,至少需要14台中高端小型服务器,假设按每台100万人民币计算(实际价格更高),总计1400万人民币。同时,传统的解决方案一般使用计算服务与存储分离的方式实现。为了满足高性能及安全性要求,一般会选择中高端存储,每TB存储的平均价格在5万人民币左右,即如需满足600TB容量要求,需要约3000万人民币。而使用X86的解决方案,平均每台服务器价格约在3.5万左右,80台服务器只需不到280万。除此之外,以上价格仅是硬件的投入,还不包括传统商业数据库昂贵的商业许可。
  对于上述体系的分析统计功能,采用Hive+Map
  Reduce方式来实现,它提供了一种类SQL的查询语言HiveQL。该方法将HiveQL翻译成MapReduce任务来交给集群执行,实现更高的开发效率和更短的开发周期。同时,Hadoop有集群IO带宽的优势,能大大地提高海量数据统计分析的速度,原来36小时的任务集在Hadoop上只需要数小时即可完成。
  现在广东移动公司正在内部的清单系统上部署分布式数据挖掘框架Mahout的机器学习和数据挖掘功能,对用户的用户行为、基站等方面进行分析,通过分类等数据挖掘算法的应用,挖掘出更多的信息。例如对客户进行精细化营销、防止客户流失等方面提供决策帮助。根据用户的使用记录,按照若干指标(业务类型使用分布情况、终端类型、上网时长等)对客户群进行分组,并标签化。据此可向用户推荐合适的套餐,也可以据此设计更合理的套餐。
  广东移动公司基于Hadoop平台构建的新清账单系统已经平稳运行半年以上,有效地证明了云计算技术能切实地帮助国内运营商降低成本,提高竞争能力。
  5 结束语
  基于Hadoop的云计算实现方案,降低了电信运营商对小型机、存储、商业数据库/数据仓库的依赖,大大降低了投资成本,为海量数据运营提供了一个优秀的平台,为电信企业开展更大范围的流量经营提供了坚实的技术基础。淘宝、百度、Google等众多的互联网公司经验证明,分布式云计算技术的发展为企业经营模式转变提供了契机。
  参考文献:
  [1] 中国行业研究网. 全球电信运营商发展困境及策略探讨[EB/OL]. (2012-7-18). http://www.chinairn.com/news/20120718/514888.html.
  [2] 人民邮电报. 《财富》全球500强电信业表现疲软[EB/OL]. (2012-7-11). http://roll.sohu.com/20120711/n347910948.shtml.
  [3] 通信产业网. PCC架构智能管道成三大运营商建设热点[EB/OL]. (2012-09-14). http://tech.163.com/12/0914/09/8BBPGFJF00094MOK.html.

51学通信(www.51xuetongxin.com):致力打造最好的通信技术在线学习平台 。
您需要登录后才可以回帖 登录 | 立即注册

站长邮箱|Archiver|51学通信 ( 粤ICP备11025688 )

GMT+8, 2024-11-25 21:54 , Processed in 0.025555 second(s), 13 queries .

Powered by Discuz! X2

© 2001-2011 Comsenz Inc.

回顶部