──世界屈指のアクセス数を誇る、アメリカ発の巨大掲示板サイト。 日本で言えば「Twitterと2ちゃんねるとQiitaを混ぜた」ような存在。 それが、2023年3月14日、約5時間(314分)、真っ白な画面しか返さなくなった... 原因は、Kubernetesのアップデートに潜んでいた小さなミス。 でもその裏には、複雑化したインフラと、"なんとなく積み上がってきた設計"のツケがあった。 redditはここ数年でgRPCやGraphQLを導入し、全文検索のために検索エンジンも刷新。 技術的にはめちゃくちゃ進化してたけど、ドキュメントが追いついていなかった。 ネットワークが詰まり、ノードが死に、復元手順は過去の環境用で、ログも追えず、 「もう全部ダメだ」ってなる一歩手前だった。 でも、エンジニアたちは手を止めなかった 壊れたものを一つひとつ手探りで直し、一度止まったクラスタを少しずつ息を吹き返させ、最後にはログと格闘しながら、全てを復旧させた。 この動画は、その障害対応の全記録と、そこから得られた学びを、静かに、でも力強く語ってる。 - バックアップは本当に動くのか? - 誰が何を知っているのか? - ドキュメントは未来の自分を助けてくれるのか? ただの障害じゃない これは、「チームとしての信頼」と「技術の積み重ね」が試された日の記録。 これはほんと、エンジニアなら一度は観ておくべき 明日は我が身、次の障害対応の登場人物は自分かもしれない