【SQLメモ】では、データベースから必要なデータを抽出し、前処理を行う話をしていきます。まずは、データベース管理システムのひとつであるAmazon Redshiftについてと、SQLの概要について書いておきます。
Amazon Redshift
Amazon RedshiftはAWS(Amazon社のクラウドサービス)が提供しているデータベースを管理するシステムのことです。データウェアハウスサービスなので、通常のデータベースとは違ってデータを時系列で保存することができます。そのため、一定期間経つとデータが削除される、ということもありません。
Amazon Redshiftは、SQL(データウェアハウスやデータベースとやり取りするためのデータベース言語)に対応しています。そのおかげで、他のデータウェアハウスやデータベース、ソフトウェアとの連携もしやすいそうです。便利ですね。
SQL
SQLは主にデータウェアハウスやデータベース(リレーショナルデータベースマネジメントシステム)からデータを抽出・加工・集計するために使われます。その他、データの追加や変更、削除もできます。
SQLで書かれたコードを「クエリ(query)」と呼びます。コードを書いた人からの命令(コードの内容)をSQLが受け取り、データウェアハウスやデータベースに問い合わせ(query)をして、その結果を返してくれるというようなイメージです。
このように、SQLは基本的に尋ねたことを確認してくれる(指定した条件に合うものを見つけてきてくれる)だけなので、そこからさらに分析をしたい場合はSQLで抽出してきたデータを別のところ(RやPython)で読み込んで操作しないといけません。
以上、Amazon RedshiftとSQLの概要でした。まだよくわかっていないことも多いので、勉強が進み次第随時加筆・修正していこうと思います。