星环科技正式发布一站式大数据平台软件TDH4.6版本

当前位置：诸城新闻网 > 新闻 > 国内 > 社会 > 星环科技正式发布一站式大数据平台软件TDH4.6版本

星环科技正式发布一站式大数据平台软件TDH4.6版本

2016-08-24 13:43:24 来源：大智博通

　　过去十年间，全世界的数据量每两年大约增加10倍，已经远远超过计算领域的摩尔定律，因此人们需要有更高效的方式来处理数据。在如此强烈的需求推动下，大数据技术发展日新月异。

　　作为摩尔定律坚定的践行者，星环科技一直致力于实现大数据技术领域的摩尔定律：近日，星环科技正式发布TDH 4.6版本，实现6个月内单位性能提升60%，并发布了一系列新产品组件，进一步降低了大数据技术从概念到落地的复杂度。

　　此次TDH 4.6发布两大特色组件：

　　SQL on Elastic Search：在海量数据中快速检索到精确信息的利器;

　　Graphene：在超级复杂的关联网络中快速找到社区结构的图计算产品。

　　除此以外，TDH众多功能组件也都迎来了重大升级。

　　一、Transwarp Inceptor

　　1. 性能提升

　　作为TDH家族的兄长，Inceptor努力践行着摩尔定律：单位计算资源的性能在6个月内提升了60%。同时，相同资源能够支持的数据量也有同样比例的增长，这意味着在半年内，使用TDH的用户可以在不做硬件扩充的情况下，只要升级至4.6版本，就能够多处理50%的业务量。下图为TDH最近三个版本在TPC-DS基准测试上的性能对比数据。

　　为了有更好的分析性能，Inceptor 4.6开发了全新的Inter-SQL-Optimizer，可以分析一个文件中多个业务SQL，并生成依赖图，在此基础上进一步对业务SQL优化，包括删除未使用的字段、消除非有效的SQL等，并结合Cost Based Optimizer来提升性能。

　　2.图计算

　　Inceptor 4.6另外一个亮点是图计算产品Graphene的正式推出。Graphene提供基于SQL的扩展语言进行图计算编程，通过Inceptor引擎完成分布式计算，可以在海量数据中执行多达14种图算法。

　　3.Holodesk再升级

　　为了提供更好的检索和分析性能，Inceptor 4.6正式推出了Holodesk V2，包含存储层的一系列优化，更好的适配各种规格的SSD，并推出了全局索引，以及基于全局索引的各种优化。在我们的基准测试中，Holodesk V2相对于V1的性能显著提升，对于一些精确检索类的业务SQL，查询延时降至毫秒级。

　　4.数据字典

　　为了更好的帮助用户查看和管理元数据，Inceptor 4.6正式推出了数据字典。在数据字典中，用户可以通过基于SQL的方式来查询各种元数据信息，从而更好的对数据进行监管，同时也可以满足各种第三方工具的对接需求。

　　5.SQL支持

　　Inceptor 4.6在 SQL支持程度得到进一步提升，包括正式支持SQL Sequence语法，全面兼容VARCHAR和CHAR数据类型，并通过方言控制与Oracle以及DB2保持一致行为。

　　Inceptor 4.6新发布的功能提升用户体验，包括支持使用中文字符作表名或者字段名，更好的满足国内客户的需求;规范化的报错，快速定位问题并构建知识库;PL/SQL支持在编译期对SQL做语义检查，帮助用户更早的发现问题;支持持久化的UDF，用户只要一次加载就可以持续使用。

　　二、Transwarp Hyperbase

　　全新面貌交付，产品矩阵、运维支撑以及架构方面均有重大的提升。

　　首先，为了更好的适应海量数据的检索需求，Hyperbase 4.6正式发布了SQL on Elastic Search功能，包含SQL Engine，ES-Drive组件以及Elastic Search 2.0。其中，SQL Engine主要用于解析SQL以及全文检索的语法，并通过ES-Drive最终生成对Elastic Search的API调用。相比较于直接用ES API，SQL编程在便利性、可管理性以及性能上都有更好的优势。

　　以如下场景为例，我们可以看到使用SQL做全文检索的便利性。“查找出同时存在transwarp和outstand的文档，且两单词间距不超过10个单词的文本，并且要求transwarp一定出现在outstand之前。”SQL： select * from test001 where contains(content, 'NEAR((transwarp, outstand), 20)')

　　其次，Hyperbase抛弃了传统的InputFormat/OutputFormat的方式来操作HBase，而是通过HyperDrive组件来使用HBase。SQL操作会被直接翻译为对HBase的RDD操作，最终直接体现为HBase的API调用。使用这种全新的架构，大幅减少HBase原子操作的调用栈的复杂度，对HBase中错误的处理更方便。此外，Hyperbase加强了对集群运维的支撑。我们基于HTrace实现了一套RPC的监控工具，通过标准化的输出日志，快速定位;并对各个组件做关联分析，更方便的甄别系统问题。同时，HBase提供Performance Metrics日志收集、分析和展现框架，用户可将自定义的Metrics收集起来，通过第三方工具做报表展现，从而掌握集群的状况。

　　三、Transwarp Stream

　　StreamSQL在4.6版本中新增了多项重要功能，更有效的应对复杂的实时应用场景。新版本中支持动态流控，当任务出现积压时，通过限制数据接收的速度来保证系统的稳定性;针对一些实时应用中可能出现过多的小文件问题，Stream通过Batch Flush模式进行规避。

　　Stream SQL支持Socket以及Kafka的数据源，此外由于数据格式的多样性，Stream SQL支持用户自定义的Decoder，并允许使用自定义的Decoder来解析通过Socket进入的数据。

　　此外，Stream SQL在处理数据的乱序问题上也做了增强。当Kafka中某一个时间段内有乱序的数据时，Stream正常接收数据并对相关的数据做重排序来恢复正常的数据流。

　　四、Transwarp Manager

　　Manager 4.6新增了磁盘问题管理。当某一个硬盘出现问题后，用户可以很方便的让所有的组件不再使用该硬盘，无需多次修改配置。新版本支持一键删除节点，并且支持Transwarp Manager HA的自动化配置，Manager本身的稳定性得到进一步完善。

　　为了让用户更好的了解集群状况，Transwarp Manager新增了报表页面。用户可以通过选取感兴趣的Metrics生成报表，通过对报表数据的阅读来掌握集群的运行状况。

　　在集群运维和检查方面，Manager增加了页面版本的环境检查工具，对当前系统的软件环境、网络状况等进行快速检查，找出潜在的环境问题。下图为环境检查工具在某个集群上的综合检查报告。

　　五、Transwarp Guardian

　　Guardian 4.6新增了列级数据权限控制，支持设置特定列对特定用户脱敏显示; 支持数据库级别的权限管理，支持按数据库批量赋予表的权限;可以通过SQL设置Inceptor表对应HDFS文件的ACL以及用户组;此外，在对Kafka的安全认证中，可以使用IP或者Host name作为Principal ，使用更灵活。

　　六、Transwarp Discover

　　从有效的数据中找出数据的价值是数据挖掘的主要使命，数据的质量对挖掘的效果有着非常大的影响，因此数据预处理一般是数据挖掘项目的首个重要任务。为了让用户对数据预处理更容易，Discover 4.6 提供了一套新的预处理的方法，包括数据归一化txNormalization和对异常数据的修改txReplacingData。

　　除了在预处理部分的提升外，Discover 4.6增强了分布式算法和R算法的适配，可以让同一套代码灵活的调用分布式算法或者本地R算法。目前常用的一些算法如决策树/ANN/SVD/PCA都可以在两个模型之间切换。

　　此外，Discover 4.6允许用户将已实现的Spark算法加入Discover算法库中，并可以通过Discover Data Frame接口来调用，无需将代码重新迁移。

　　七、结语

　　帮助更多的开发者将大数据技术落地并创造价值是星环科技的使命，也是驱动Transwarp Data Hub升级换代的直接动力。从最早解决大数据分析的难题，到现在推出的图计算，海量数据检索等功能，我们希望将易用/可靠/稳定/高性能的数据平台交付给开发者，让数据更容易流转，让大数据上的分析和挖掘更高效更敏捷，让数据的价值驱动业务的发展。

1 条记录 1/1 页

编辑：博通

新闻排行

精彩热图

娱乐新闻