过去十年间,全世界的数据量每两年大约增加10倍,已经远远超过计算领域的摩尔定律,因此人们需要有更高效的方式来处理数据。在如此强烈的需求推动下,大数据技术发展日新月异。
作为摩尔定律坚定的践行者,星环科技一直致力于实现大数据技术领域的摩尔定律:近日,星环科技正式发布TDH 4.6版本,实现6个月内单位性能提升60%,并发布了一系列新产品组件,进一步降低了大数据技术从概念到落地的复杂度。
此次TDH 4.6发布两大特色组件:
SQL on Elastic Search:在海量数据中快速检索到精确信息的利器;
Graphene:在超级复杂的关联网络中快速找到社区结构的图计算产品。
除此以外,TDH众多功能组件也都迎来了重大升级。
一、Transwarp Inceptor
1. 性能提升
作为TDH家族的兄长,Inceptor努力践行着摩尔定律:单位计算资源的性能在6个月内提升了60%。同时,相同资源能够支持的数据量也有同样比例的增长,这意味着在半年内,使用TDH的用户可以在不做硬件扩充的情况下,只要升级至4.6版本,就能够多处理50%的业务量。下图为TDH最近三个版本在TPC-DS基准测试上的性能对比数据。
为了有更好的分析性能,Inceptor 4.6开发了全新的Inter-SQL-Optimizer,可以分析一个文件中多个业务SQL,并生成依赖图,在此基础上进一步对业务SQL优化,包括删除未使用的字段、消除非有效的SQL等,并结合Cost Based Optimizer来提升性能。
2.图计算
Inceptor 4.6另外一个亮点是图计算产品Graphene的正式推出。Graphene提供基于SQL的扩展语言进行图计算编程,通过Inceptor引擎完成分布式计算,可以在海量数据中执行多达14种图算法。
3.Holodesk再升级
为了提供更好的检索和分析性能,Inceptor 4.6正式推出了Holodesk V2,包含存储层的一系列优化,更好的适配各种规格的SSD,并推出了全局索引,以及基于全局索引的各种优化。在我们的基准测试中,Holodesk V2相对于V1的性能显著提升,对于一些精确检索类的业务SQL,查询延时降至毫秒级。
4.数据字典
为了更好的帮助用户查看和管理元数据,Inceptor 4.6正式推出了数据字典。在数据字典中,用户可以通过基于SQL的方式来查询各种元数据信息,从而更好的对数据进行监管,同时也可以满足各种第三方工具的对接需求。
5.SQL支持
Inceptor 4.6在 SQL支持程度得到进一步提升,包括正式支持SQL Sequence语法,全面兼容VARCHAR和CHAR数据类型,并通过方言控制与Oracle以及DB2保持一致行为。
Inceptor 4.6新发布的功能提升用户体验,包括支持使用中文字符作表名或者字段名,更好的满足国内客户的需求;规范化的报错,快速定位问题并构建知识库;PL/SQL支持在编译期对SQL做语义检查,帮助用户更早的发现问题;支持持久化的UDF,用户只要一次加载就可以持续使用。
二、Transwarp Hyperbase
全新面貌交付,产品矩阵、运维支撑以及架构方面均有重大的提升。
首先,为了更好的适应海量数据的检索需求,Hyperbase 4.6正式发布了SQL on Elastic Search功能,包含SQL Engine,ES-Drive组件以及Elastic Search 2.0。其中,SQL Engine主要用于解析SQL以及全文检索的语法,并通过ES-Drive最终生成对Elastic Search的API调用。相比较于直接用ES API,SQL编程在便利性、可管理性以及性能上都有更好的优势。
以如下场景为例,我们可以看到使用SQL做全文检索的便利性。“查找出同时存在transwarp和outstand的文档,且两单词间距不超过10个单词的文本,并且要求transwarp一定出现在outstand之前。”SQL: select * from test001 where contains(content, 'NEAR((transwarp, outstand), 20)')
其次,Hyperbase抛弃了传统的InputFormat/OutputFormat的方式来操作HBase,而是通过HyperDrive组件来使用HBase。SQL操作会被直接翻译为对HBase的RDD操作,最终直接体现为HBase的API调用。使用这种全新的架构,大幅减少HBase原子操作的调用栈的复杂度,对HBase中错误的处理更方便。 此外,Hyperbase加强了对集群运维的支撑。我们基于HTrace实现了一套RPC的监控工具,通过标准化的输出日志,快速定位;并对各个组件做关联分析,更方便的甄别系统问题。同时,HBase提供Performance Metrics日志收集、分析和展现框架,用户可将自定义的Metrics收集起来,通过第三方工具做报表展现,从而掌握集群的状况。
三、Transwarp Stream
StreamSQL在4.6版本中新增了多项重要功能,更有效的应对复杂的实时应用场景。新版本中支持动态流控,当任务出现积压时,通过限制数据接收的速度来保证系统的稳定性;针对一些实时应用中可能出现过多的小文件问题,Stream通过Batch Flush模式进行规避。
Stream SQL支持Socket以及Kafka的数据源,此外由于数据格式的多样性,Stream SQL支持用户自定义的Decoder,并允许使用自定义的Decoder来解析通过Socket进入的数据。
此外,Stream SQL在处理数据的乱序问题上也做了增强。当Kafka中某一个时间段内有乱序的数据时,Stream正常接收数据并对相关的数据做重排序来恢复正常的数据流。
四、Transwarp Manager
Manager 4.6新增了磁盘问题管理。当某一个硬盘出现问题后,用户可以很方便的让所有的组件不再使用该硬盘,无需多次修改配置。新版本支持一键删除节点,并且支持Transwarp Manager HA的自动化配置,Manager本身的稳定性得到进一步完善。
为了让用户更好的了解集群状况,Transwarp Manager新增了报表页面。用户可以通过选取感兴趣的Metrics生成报表,通过对报表数据的阅读来掌握集群的运行状况。
在集群运维和检查方面,Manager增加了页面版本的环境检查工具,对当前系统的软件环境、网络状况等进行快速检查,找出潜在的环境问题。下图为环境检查工具在某个集群上的综合检查报告。
五、Transwarp Guardian
Guardian 4.6新增了列级数据权限控制,支持设置特定列对特定用户脱敏显示; 支持数据库级别的权限管理,支持按数据库批量赋予表的权限;可以通过SQL设置Inceptor表对应HDFS文件的ACL以及用户组;此外,在对Kafka的安全认证中,可以使用IP或者Host name作为Principal ,使用更灵活。
六、Transwarp Discover
从有效的数据中找出数据的价值是数据挖掘的主要使命,数据的质量对挖掘的效果有着非常大的影响,因此数据预处理一般是数据挖掘项目的首个重要任务。为了让用户对数据预处理更容易,Discover 4.6 提供了一套新的预处理的方法,包括数据归一化txNormalization和对异常数据的修改txReplacingData。
除了在预处理部分的提升外,Discover 4.6增强了分布式算法和R算法的适配,可以让同一套代码灵活的调用分布式算法或者本地R算法。目前常用的一些算法如决策树/ANN/SVD/PCA都可以在两个模型之间切换。
此外,Discover 4.6允许用户将已实现的Spark算法加入Discover算法库中,并可以通过Discover Data Frame接口来调用,无需将代码重新迁移。
七、结语
帮助更多的开发者将大数据技术落地并创造价值是星环科技的使命,也是驱动Transwarp Data Hub升级换代的直接动力。从最早解决大数据分析的难题,到现在推出的图计算,海量数据检索等功能,我们希望将易用/可靠/稳定/高性能的数据平台交付给开发者,让数据更容易流转,让大数据上的分析和挖掘更高效更敏捷,让数据的价值驱动业务的发展。