Shopifyのデータパイプラインで実際に起きてた話なんだけど、最初に流したクエリが月950,000ドルレベルのコストを叩き出してて、 「このままじゃ無理!!」ってなったところからの最適化ストーリーがめちゃくちゃ面白かった。 救世主になったのはテーブルのクラスタリング。 よく使うWHERE条件でデータを整理して、無駄なスキャンを回避するだけで、あの高額クエリがたった100MBちょっとのスキャンで済むようになったらしい。 他にも - SELECT *を避ける - パーティショニングを活用する - プレビュー機能で事前チェックする など、すぐ使える最適化テクも紹介されてて、地味に全部ありがたい。 結果、月100万ドル → 約1,300ドルっていう信じられないレベルのコストダウンを実現。 これぞリアルなデータエンジニアリングって感じだった。 そしてこの話、たった7分の動画にギュッと詰まってて最高にテンポもいい。BigQuery触ってる人も、クラウド請求額で冷や汗かいたことある人も、絶対見た方がいい。