一家公司正在Amazon EC2上运行商业ApacheHadoop集群.每天都使用此集群来查询Amazon S3上的大文件.AmazonS3上的数据已经过整理,不需要任何其他转换步骤.该公司正在使用AmazonEC2上的商业商务智能(BI)工具来对Hadoop集群运行查询并可视化数据.该公司希望减少或消除与管理Hadoop群集和BI工具相关的间接费用.该公司希望以最小的努力将其迁移到更具成本效益的解决方案中.可视化很简单,只需要执行一些基本的聚合步骤即可.哪个选项可以满足公司的要求()
A.每天启动一个临时Amazon EMR集群,并开发一个Apache Hive脚本来分析AmazonS3上的文件.作业完成后,关闭Amazon EMR集群.使用AmazonQuickSight连接到Amazon EMR并执行可视化
B.开发一个存储过程,该存储过程从在AmazonEC2上运行的MySQL数据库调用,以分析EC2来分析AmazonS3中的文件.然后使用在Amazon EC2上运行的快速内存BL工具来可视化数据
C.开发一个脚本,该脚本使用Amazon Athena查询和分析Amazon S3上的文件.然后使用Amazon QuickSight连接到Athena并执行可视化
D.使用在AmazonEC2上运行的商业提取,转换,加载(ETL)工具准备要处理的数据.然后切换到运行在AmazonEC2上的更快,更便宜的Bl工具,以可视化来自Amazon S3的数据
C、开发一个脚本,该脚本使用Amazon Athena查询和分析Amazon S3上的文件.然后使用Amazon QuickSight连接到Athena并执行可视化
解析:A这可能有效,但每天的EMR旋转仍然很昂贵.另外,要将quicksight连接到EMR,您还需要在群集中预先运行B.这很糟糕而且我认为您无法从存储的过程访问s3 D.Bad练习 ETL可能需要很长时间