久久久久久久av_日韩在线中文_看一级毛片视频_日本精品二区_成人深夜福利视频_武道仙尊动漫在线观看

<tfoot id='MXyz2'></tfoot>
  • <legend id='MXyz2'><style id='MXyz2'><dir id='MXyz2'><q id='MXyz2'></q></dir></style></legend>

    1. <small id='MXyz2'></small><noframes id='MXyz2'>

      <i id='MXyz2'><tr id='MXyz2'><dt id='MXyz2'><q id='MXyz2'><span id='MXyz2'><b id='MXyz2'><form id='MXyz2'><ins id='MXyz2'></ins><ul id='MXyz2'></ul><sub id='MXyz2'></sub></form><legend id='MXyz2'></legend><bdo id='MXyz2'><pre id='MXyz2'><center id='MXyz2'></center></pre></bdo></b><th id='MXyz2'></th></span></q></dt></tr></i><div class="qwawimqqmiuu" id='MXyz2'><tfoot id='MXyz2'></tfoot><dl id='MXyz2'><fieldset id='MXyz2'></fieldset></dl></div>
          <bdo id='MXyz2'></bdo><ul id='MXyz2'></ul>
      1. 將數據從 oracle 移動到 HDFS,處理并從 HDFS 移動到

        Move data from oracle to HDFS, process and move to Teradata from HDFS(將數據從 oracle 移動到 HDFS,處理并從 HDFS 移動到 Teradata)
          <tbody id='1cpDM'></tbody>
          <bdo id='1cpDM'></bdo><ul id='1cpDM'></ul>
        • <tfoot id='1cpDM'></tfoot>

        • <i id='1cpDM'><tr id='1cpDM'><dt id='1cpDM'><q id='1cpDM'><span id='1cpDM'><b id='1cpDM'><form id='1cpDM'><ins id='1cpDM'></ins><ul id='1cpDM'></ul><sub id='1cpDM'></sub></form><legend id='1cpDM'></legend><bdo id='1cpDM'><pre id='1cpDM'><center id='1cpDM'></center></pre></bdo></b><th id='1cpDM'></th></span></q></dt></tr></i><div class="qwawimqqmiuu" id='1cpDM'><tfoot id='1cpDM'></tfoot><dl id='1cpDM'><fieldset id='1cpDM'></fieldset></dl></div>

          1. <small id='1cpDM'></small><noframes id='1cpDM'>

            <legend id='1cpDM'><style id='1cpDM'><dir id='1cpDM'><q id='1cpDM'></q></dir></style></legend>

                • 本文介紹了將數據從 oracle 移動到 HDFS,處理并從 HDFS 移動到 Teradata的處理方法,對大家解決問題具有一定的參考價值,需要的朋友們下面隨著小編來一起學習吧!

                  問題描述

                  我的要求是

                  <塊引用>

                  1. 將數據從 Oracle 移動到 HDFS
                  2. 處理 HDFS 上的數據
                  3. 將處理后的數據移至 Teradata.

                  還需要每 15 分鐘進行一次整個處理.源數據量可能接近50GB,處理后的數據也可能相同.

                  在網上搜索了很多,我發現

                  <塊引用>

                  1. ORAOOP 將數據從 Oracle 移動到 HDFS(將代碼與 shell 腳本一起并安排它以所需的時間間隔運行).
                  2. 通過自定義 MapReduce、Hive 或 PIG 進行大規模處理.
                  3. SQOOP - Teradata 連接器,用于將數據從 HDFS 移動到 Teradata(再次使用帶有代碼的 shell 腳本,然后對其進行調度).

                  這首先是正確的選擇嗎?這在所需的時間段內是否可行(請注意,這不是每日批次左右)?

                  我發現的其他選項如下

                  <塊引用>

                  1. STORM(用于實時數據處理).但是我找不到開箱即用的 oracle Spout 或 Teradata bolt.
                  2. 任何開源 ETL 工具,如 Talend 或 Pentaho.

                  請分享您對這些選項以及任何其他可能性的看法.

                  解決方案

                  看起來你有幾個問題,讓我們試著分解一下.

                  在 HDFS 中導入

                  您似乎正在尋找 Sqoop.Sqoop 是一個工具,可以讓您輕松地將數據傳入/傳出 HDFS,并且可以本地連接到包括 Oracle 在內的各種數據庫.Sqoop 與 Oracle JDBC 瘦驅動程序兼容.以下是從 Oracle 轉移到 HDFS 的方法:

                  sqoop import --connect jdbc:oracle:thin@myhost:1521/db --username xxx --password yyy --table tbl --target-dir/path/to/dir

                  有關更多信息:此處和此處.請注意,您也可以使用 Sqoop 直接導入到 Hive 表中,這可以方便您進行分析.

                  處理

                  正如您所指出的,由于您的數據最初是關系數據,因此最好使用 Hive 進行分析,因為您可能更熟悉類似 SQL 的語法.Pig 是更純粹的關系代數,其語法與 SQL 不同,更多的是偏好問題,但兩種方法都應該可以正常工作.

                  由于您可以使用 Sqoop 直接將數據導入 Hive,因此您的數據在導入后應該可以直接進行處理.

                  在 Hive 中,您可以運行查詢并告訴它在 HDFS 中寫入結果:

                  hive -e "插入覆蓋目錄 '/path/to/output' select * from mytable ..."

                  導出到 TeraData

                  Cloudera 去年發布了適用于 Sqoop 的 Teradata 連接器,如這里,所以你應該看看這看起來正是你想要的.以下是您的操作方法:

                  sqoop export --connect jdbc:teradata://localhost/DATABASE=MY_BASE --username sqooptest --password xxxxx --table MY_DATA --export-dir/path/to/hive/output

                  <小時>

                  在您想要的任何時間段內,整個事情絕對是可行的,最終重要的是您的集群的大小,如果您希望它快速,則根據需要擴展您的集群.Hive 和 Sqoop 的好處是處理將分布在您的集群中,因此您可以完全控制計劃.

                  My requirement is to

                  1. Move data from Oracle to HDFS
                  2. Process the data on HDFS
                  3. Move processed data to Teradata.

                  It is also required to do this entire processing every 15 minutes. The volume of source data may be close to 50 GB and the processed data also may be the same.

                  After searching a lot on the internet, i found that

                  1. ORAOOP to move data from Oracle to HDFS (Have the code withing the shell script and schedule it to run at the required interval).
                  2. Do large scale processing either by Custom MapReduce or Hive or PIG.
                  3. SQOOP - Teradata Connector to move data from HDFS to Teradata (again have a shell script with the code and then schedule it).

                  Is this the right option in the first place and is this feasible for the required time period (Please note that this is not the daily batch or so)?

                  Other options that i found are the following

                  1. STORM (for real time data processing). But i am not able to find the oracle Spout or Teradata bolt out of the box.
                  2. Any open source ETL tools like Talend or Pentaho.

                  Please share your thoughts on these options as well and any other possibilities.

                  解決方案

                  Looks like you have several questions so let's try to break it down.

                  Importing in HDFS

                  It seems you are looking for Sqoop. Sqoop is a tool that lets you easily transfer data in/out of HDFS, and can connect to various databases including Oracle natively. Sqoop is compatible with the Oracle JDBC thin driver. Here is how you would transfer from Oracle to HDFS:

                  sqoop import --connect jdbc:oracle:thin@myhost:1521/db --username xxx --password yyy --table tbl --target-dir /path/to/dir
                  

                  For more information: here and here. Note than you can also import directly into a Hive table with Sqoop which could be convenient to do your analysis.

                  Processing

                  As you noted, since your data initially is relational, it is a good idea to use Hive to do your analysis since you might be more familiar with SQL-like syntax. Pig is more pure relational algebra and the syntax is NOT SQL-like, it is more a matter of preference but both approaches should work fine.

                  Since you can import data into Hive directly with Sqoop, your data should be directly ready to be processed after it is imported.

                  In Hive you could run your query and tell it to write the results in HDFS:

                  hive -e "insert overwrite directory '/path/to/output' select * from mytable ..."
                  

                  Exporting into TeraData

                  Cloudera released last year a connector for Teradata for Sqoop as described here, so you should take a look as this looks like exactly what you want. Here is how you would do it:

                  sqoop export --connect jdbc:teradata://localhost/DATABASE=MY_BASE --username sqooptest --password xxxxx --table MY_DATA --export-dir /path/to/hive/output
                  


                  The whole thing is definitely doable in whatever time period you want, in the end what will matter is the size of your cluster, if you want it quick then scale your cluster up as needed. The good thing with Hive and Sqoop is that processing will be distributed in your cluster, so you have total control over the schedule.

                  這篇關于將數據從 oracle 移動到 HDFS,處理并從 HDFS 移動到 Teradata的文章就介紹到這了,希望我們推薦的答案對大家有所幫助,也希望大家多多支持html5模板網!

                  【網站聲明】本站部分內容來源于互聯網,旨在幫助大家更快的解決問題,如果有圖片或者內容侵犯了您的權益,請聯系我們刪除處理,感謝您的支持!

                  相關文檔推薦

                  group concat equivalent in pig?(豬中的組串聯等價物?)
                  A way to read table data from Mysql to Pig(一種從Mysql讀取表數據到Pig的方法)
                  Apache Nifi How to load JSON with nested array JSON and Call Oracle Stored Procedure(Apache Nifi 如何使用嵌套數組 JSON 加載 JSON 并調用 Oracle 存儲過程)
                  Why Kafka jdbc connect insert data as BLOB instead of varchar(為什么 Kafka jdbc 將插入數據作為 BLOB 而不是 varchar 連接)
                  How to sink kafka topic to oracle using kafka connect?(如何使用kafka connect將kafka主題下沉到oracle?)
                  Why Kafka jdbc connect insert data as BLOB instead of varchar(為什么 Kafka jdbc 將插入數據作為 BLOB 而不是 varchar 連接)

                  • <tfoot id='iZ1Sj'></tfoot>
                    • <bdo id='iZ1Sj'></bdo><ul id='iZ1Sj'></ul>
                      <i id='iZ1Sj'><tr id='iZ1Sj'><dt id='iZ1Sj'><q id='iZ1Sj'><span id='iZ1Sj'><b id='iZ1Sj'><form id='iZ1Sj'><ins id='iZ1Sj'></ins><ul id='iZ1Sj'></ul><sub id='iZ1Sj'></sub></form><legend id='iZ1Sj'></legend><bdo id='iZ1Sj'><pre id='iZ1Sj'><center id='iZ1Sj'></center></pre></bdo></b><th id='iZ1Sj'></th></span></q></dt></tr></i><div class="qwawimqqmiuu" id='iZ1Sj'><tfoot id='iZ1Sj'></tfoot><dl id='iZ1Sj'><fieldset id='iZ1Sj'></fieldset></dl></div>
                      <legend id='iZ1Sj'><style id='iZ1Sj'><dir id='iZ1Sj'><q id='iZ1Sj'></q></dir></style></legend>

                          <tbody id='iZ1Sj'></tbody>

                          <small id='iZ1Sj'></small><noframes id='iZ1Sj'>

                            主站蜘蛛池模板: 美女天天干天天操 | 2019精品手机国产品在线 | 亚洲www| 亚洲视频免费在线观看 | 精品久久国产视频 | 在线看片福利 | www.四虎.com| 成人午夜激情 | 亚洲成人日韩 | 蜜桃av人人夜夜澡人人爽 | av色在线 | 久久精品国产亚洲一区二区三区 | 亚洲性网 | 国产一区二区在线免费 | 美女爽到呻吟久久久久 | 日韩视频在线免费观看 | 伊人春色在线观看 | 麻豆精品久久 | 一二区视频 | 中文字幕av网站 | 久草.com| 亚洲一区二区三区福利 | 国产乱一区二区三区视频 | 亚洲综合在线视频 | 日韩欧美视频在线 | 在线四虎 | 国产在线资源 | 亚洲欧美精品在线 | 久久久久久久久99 | 看一级毛片 | 欧美五月婷婷 | 亚洲免费三区 | www.成人.com| 日韩在线视频观看 | 欧美成人高清视频 | 国产视频一区二区在线观看 | 国产一级在线 | 在线中文字幕视频 | 亚洲高清免费视频 | 免费观看一级毛片视频 | 精品视频一区二区 |