クラウドワークス エンジニアブログ

日本最大級のクラウドソーシング「クラウドワークス」の開発の裏側をお届けするエンジニアブログ

チームでアラート運用の見直しを始めました

はじめに

こんにちは、エンジニアの杉浦です。 法人様向けオンラインアシスタントサービス『ビズアシ』の開発を担当しています。

突然ですが、みなさん、アラート通知先のチャンネル運用や通知されたアラートの整理は適切にされておりますでしょうか。

ビズアシでは、現状、一つのチャンネルでスコープ外のものもまとめて通知されていたり、 通知設定しているもののあまり拾いきれていない状態が起きております。。。

今回、これらの状態を解消するために動き始めました!

現在のアラート通知状況について

アラート通知状況

簡易的ですが、ビズアシでは、請求管理システムのRailsと、顧客用システムのReactとFlaskがあり、 監視する2チャンネルへそれぞれ通知を行っています。

それぞれのチャンネルの振る舞いは、下記のようになっています。

  • チャンネル(A): Rollbarからのエラー出力とDatadogからのモニタリング出力
  • チャンネル(B): チャンネル(A)へ通知される以外のDatadogからのモニタリング出力

問題点

問題点は主に以下の3点があります。

スコープ外のアラート通知: 

  • ①エンジニアが対応できないエラーもチャンネルへ通知されてしまっている。
  • ②以前発生していたシステムエラーが再び起きていないか定期的に通知がくる。

アラートのフォローアップ不足:

  • ③チャンネル(B)については監視が追いついていない状況。

このように、調査すると上記の問題が上がっておりました。

そこで、上記の問題点をチーム内で認識合わせをして、SRE Weeklyで相談をしました!

※SRE WeeklyとはSREチームと各チームのインフラ担当などが週一でMTGをして相談などを行う場所です。

SRE Weeklyは、以下の様な目的で行っております!

組織横断でのWebサービスインフラ関連の知見の共有

  • 仲良くなる(話しかけやすくなる)
  • 共に学ぶ
  • 興味関心を広げる

学んだ点

SRE Weeklyでは、各チームがどのようにアラートチャンネルを運用しているのかを聞きました!

1チャンネルのみで運用しているチームもあれば、アラートの重要度で分けたり、全体障害とそれ以外の障害で分けて運用しているチームなどがあることを学びました。

これから

学んだことを参考にビズアシ内では以下のように進めることで合意しました!

問題点①エンジニアが対応できないエラーもチャンネルへ通知されてしまっている。

  • この問題に対しては、別チャンネルへ通知する実装に切り替える。

問題点②以前発生していたシステムエラーが再び起きていないか定期的に通知がくる。

  • この問題に対しては、一旦このまま運用で進めるが根本対応後、引き続き通知をするか話し合う。

問題点③チャンネル(B)については監視が追いついていない状況

  • この問題に対しては、通知内容を精査して、精査後はチャンネル(A)に寄せる。

さいごに

やること自体は特に難しいわけではありませんが、このような緊急性低めで重要性があるものも率先して頑張りたいと思います。

以上、ビズアシ開発チームの杉浦でした。有難うございました!

We're hiring!

クラウドワークス社では、様々なポジションのエンジニアを募集しております。

ご興味のある方は、ぜひご連絡ください!

crowdworks.co.jp

© 2016 CrowdWorks, Inc., All rights reserved.