Informatica于今年9月份推出了Informatica Big Data Management框架,作为管理所有大数据的完备模式,该框架包含三大数据管理支柱:数据集成、数据质量和治理,以及数据安全。在这个综合框架之上,Informatica Big Data Management提供了更出色的技术与功能,进而推动大数据项目走向成功。
Informatica代理首席执行官Anil Chakravarthy先生表示:“数据是企业的生命线,而目前只有Informatica可以实现大数据的端对端数据管理。现在,大数据是争夺竞争优势、带来完美客户体验以及业务创新的下一个前沿阵地。从实现项目快速实施到确保数据的可信性,再到确保敏感数据的安全方面,Informatica Big Data Management以无以伦比的自动化流程、内置的工具以及优化的能力,让企业业务及IT更上层楼。快速体验以及关键业务无缝部署能够帮助企业从大数据中获取最大的商业价值。”
大数据管理的三个组成部分
动态、大规模的大数据集成
将大量不同的传统数据源转化成动态数据源再将其引入至Hadoop,这一过程耗费了大量宝贵时间。更有效的数据管道意味着将收集与发布同步进行,这是每一个大数据项目的基石。Informatica Big Data Management允许企业:
实时收集处理
全面的连接性:超过200个预建的高性能Informatica接口允许各种类型的数据快速引入到Hadoop,NoSQL以及MPP等大数据平台中。
高吞吐量、低延迟的数据集成:大批量处理和实时传输实现最大吞吐量以及低延迟的数据集成
大规模处理
开箱即用的处理流程:超过100种预设的数据集成和数据质量转化及分析工具以内建的方式运行在Hadoop之上,从而实现对于大规模数据集的扩展处理。
自动化数据集成流程:动态映射及参数化流程实现程式化的数据集成流程自动化。
可视化开发:通过可视化开发环境,数据处理程序的开发速度能够达到普通手动编码的5倍。
优化部署
简便部署:向导及映射模板能够快速实现从上千种数据源向数据湖或者运营数据仓库中部署数据。基于设计模板在运行时自动生成的涵盖所有类型的数据流,可以极大改进生产率和维护性
适应多变的环境:通过动态模式支持,可以连接到更灵活的数据格式。
优化的引擎:为了实现大规模数据集成的最大化性能及资源使用率,Informatica通过MapReduce以及全新的基于YARN的Informatica Blaze引擎优化了大数据工作负载。
全面的大数据质量和治理
大数据意味着大量的数据质量及治理挑战,因此企业难以判断出数据的可信度。对于数据质量的需求也在不断改变,因为同样的数据会被用以不同的使用目的。此外,由于万物皆互通互联,当其中隐含的关联被揭示时,通常会带来非常有价值的发现。当关系到外部新数据源时,数据可信度问题通常会被提升到一个较高的高度。Informatica Big Data Management能够帮助企业轻松应对这些挑战,通过提供透明性、可审计性、灵活性以及可信性,将大数据转化为提升商业价值的机会。
具体来说,Informatica大数据质量和治理可为企业提供:
协作管理
IT与业务部门的合作:直观的用户体验帮助分析师及数据分析人员高效地加入到全面数据管理流程中来,同时,完善的业务流程管理功能也提升了业务及IT部门之间的合作。
大数据探查、发现及警报:包括业务规则探查在内的数据探查和发现能够找出数据质量问题以及非正常状态,同时,可以轻松创建监控规则以及告警用以追踪并标记出质量问题。
360度全方位洞察
360度全方位关系探查:在大数据环境中实现高效、灵活的关系发现。
即时数据映射:基于一个完整全面的元数据目录及知识库,可以搜寻、发现并分析企业数据,利用Spark可以快速进行大规模的知识创建工作。
高信任度
高度可扩展的数据质量流程:可以在Hadoop上大规模地部署数据校验、丰富和去重。
完善的审计及分析:为超越Hadoop支持规范的数据沿袭带来端到端的可视化解决方案,同时能够高效进行数据质量根源分析及影响分析。
以风险为中心的大数据安全
随着大数据分布式的增长,企业在辨别敏感数据存储以及判断哪些数据集可信方面面临着巨大的挑战。Informatica Big Data Management能够发现敏感数据,及其扩散范围、使用状况、来源以及受保护情况等,并进行分析,以可视化的方式标记出敏感数据的风险和弱点。遵循企业制度以及业界规范,通过匿名化以及去敏感化处理保护敏感数据。Informatica大数据安全可为企业带来:
完全的可见度
发现敏感数据:企业可以看到谁接触了敏感数据,谁正在连接到敏感数据,这些数据是否得到保护,它扩散的范围有多大,包括数据流追踪,数据沿袭以及数据历史等。
可视化:可视化报告将敏感数据按照地理位置、功能以及属性进行识别。
风险分析
风险评分:通过分析敏感数据的位置、扩散范围、成本、受保护及使用状况等确定风险,并且标记出保护程度不够的数据。
敏感数据发现:敏感数据探查,发现及分析帮助企业洞悉他们的大数据安全风险。
主动报警:在高风险情况下向管理员及安全专家发送警报。
基于策略的保护
为应用程序、测试环境、报告及分析实现的匿名化:采用集中化的规则管理保护敏感数据。基于用户角色及权限,在生产环境中利用动态数据脱敏实现敏感数据匿名化。持久的数据脱敏技术可以在非生产环境中保护活动及存档敏感数据,例如测试、开发及培训环境。
微软公司副总裁Joseph Sirosh说:“微软的Cortana分析套件、SQL Server数据仓库以及Azure云基础架构带来了完美的大数据平台。配合Informatica大数据管理方案,客户将有能力大规模集成各种类型的数据,在整个企业内部对于数据进行治理以获得可信数据,并且确保敏感数据的安全以降低风险。对于企业来说这是一套强大、完善的分析平台。”
IDC研究总监Stewart Bond说:“Informatica推出基于下一代应用案例的产品,进一步证明了大数据正在走出实验室大规模进入到企业的日常运营中。Informatica大数据管理平台新的捆绑及授权模式给用户带来了更大灵活性,并且为用户提供了包括数据集成、数据治理以及数据安全在内的全套解决方案,无论是大数据还是‘小数据’均适用。”
Informatica执行副总裁兼首席产品官Amit Walia说:“我们很高兴能够拥有一个合作伙伴生态系统,同我们一起合作,帮助用户加速大数据之旅。超过75%的用户仍然在将大数据转化成价值方面面临着困难,我们承诺帮助企业解决通向大数据成功之路上的一切障碍。因此,Informatica最近开展了“百万美元大数据就绪度竞赛”,获奖企业将获得价值一百万美元的软件及服务,帮助企业解决大数据问题,从而助企业从大数据中获得实实在在的收益。”