こんにちは、SREチームの @bayashi_ok です。
今回はクラウドワークスで週1回ペースで実施している「週刊ポストモーテム」の取り組みをご紹介していきます。
- ポストモーテムとは
- 週刊ポストモーテムとは
- 復刻:週刊ポストモーテム
- 障害対応した人もしくはそのチームの人が発表
- 障害がなくても開催
- ゆるく開催
- 継続して開催していくメリット
- みんなの交流の場にもなる
- 課題を見つけ、なにかをはじめるきっかけになる
- 他部門の人に知ってもらえる
- 監視ツールの使い方や見方がわかる
- 今後の課題
- 最後に
ポストモーテムとは
まずポストモーテムという単語について少し説明します。
ポストモーテムの意味は各分野でも変わっており、医学の世界では「検死」、プロジェクトマネジメントの世界では「事後検証」などの意味を指します。
SREの文脈では主に、
- 障害などが発生した際の影響
- そのとき行われたアクション
- 障害発生の根本原因
- 再発防止のためのアクション
などを記録するために書かれるもので、いわゆる「障害報告書」のようなものになります。
ただ、記録としての報告書というだけではなく、組織的な学びのために蓄積していくものだということです。
・SRE公式本(WEB無料公開版)
https://landing.google.com/sre/sre-book/chapters/postmortem-culture/
・その他参考記事
https://tech.mti.co.jp/entry/2017/11/25/000316
https://note.com/campfire_dev/n/n2a46e3832207
週刊ポストモーテムとはこれを毎週継続的に実施して行く取り組みです。
始まりは2019年2月で、障害が発生したときに、どんな情報から・どんな判断をしているのかというのを共有する場として設けられ、実際のアラートやタイムラインの流れを見ていくなどの取り組みから始められました。
続きを読む