データカタログの作成

Glueクローラの設定

AWS Glueのコンソール画面 (https://console.aws.amazon.com/glue/) でクローラの作成を以下の手順で行います。

  • 左のメニューペインからクローラを選択。
  • クローラの追加を選択します。
  • クローラの名前にtcudata-{name}と入力して次へを選択します。 (例: tcudata-twatanabe)
  • Crawler source typeはData storesにチェック、Repeat crawls of S3 data storesはCrawl all foldersにチェックして次へを選択します。
  • データストアの追加で、インクルードパスにs3://connected-vehicle-data-{REGION}-{Administrator Name}-{AWS Account Number}/telemetryを入力して次へを選択します。 (例: s3://connected-vehicle-data-ap-northeast-1-twatanabe-xxxxxxxxxxxx/telemetry)

※フォルダをクリックして、s3://connected-vehicle-data-{REGION}-{Administrator Name}-{AWS Account Number}/の左にある“+”を押してプルダウンしてtelemetryを選択。

  • 別のデータストアの追加はデフォルトのままで次へを選択します。
  • IAMロールの選択画面でIAMロールの作成をチェックして、AWSGlueServiceRole-{NAME}と入力して次へを選択。(例: AWSGlueServiceRole-twatanabe)
  • オンデマンドで実行を選択して、次へを選択。
  • データベースの追加を選択して、表示されたポップアップのデータベース名にcvradb-{NAME}と入力して作成を選択。(例: cvradb-twatanabe)
  • S3データのグループ化動作(任意)を選択してドリルダウン。S3 パスごとに単一のスキーマを作成するにチェックを入れて次へを選択する。
  • 完了を選択します。

Glueクローラの実行

クローラ画面で作成した、tcudata-{NAME}のチェックボックスを選択してクローラの実行を選択します。 左のメニューペインからテーブルを選択して、telemetryというテーブルが作成されていることを確認します。

telemetryテーブルが表示されない場合は、画面の上部にあるテーブルのフィルタリングでtelemetryと入力してフィルタリングを行います。それでも表示されていない場合は、上記クローラの設定のデータストアの追加でインクルードパスに/telemetryを入力できていない可能性があるので、再度クローラの設定を行います。