Mackerel Dayに行ってきました | イベントレポート

f:id:sktktk1230:20180726121247p:plain

2017年10月5日開催のMackerel Dayに行ってきたので、イベントのレポートです

イベント概要

エンジニアをワクワクさせる「直感的サーバー監視サービス」 Mackerel（マカレル）の正式リリースから3周年を祝して Mackerel Day を開催します。
今回はAWS様の大きな会場をお借りしました、たくさんの方にお越しいただけますので、ぜひふるってご参加ください。
当日はMackerelを古くから使っているユーザ様から今年新たにご利用を始めたユーザ様まで幅広いユーザ様がご登壇していただきます。

Mackerelリリース3周年の振り返りとこれからの成長について

Time 14:10〜14:30
Speaker はてな杉山様
slide

選ばれる理由

導入が簡単でわかりやすい
開発スピード(毎週リリース)
マルチクラウド
日本語サポート

直近の主要なリリース

Azureインテグレーション
グラフボード機能
- サービス内に任意のグラフを集めたページを作成可能（便利！！）
システムプラットフォームの堅牢化
- ディザスタリカバリを想定
- スケーラビリティの確保
DevOps Competency初認定

リリース予定

メトリックデータの粒度を維持しながら保持一分粒度を400日保持
※その他にも色々…

どういう方向で成長させていくのか

世の中の流れ

動的でかつ複雑化するインフラ環境
クラウドサービス
コンテナを始めとする仮想化技術

Mackerelとしての使命

エンジニアにとってエッジなサービス
ビジネスを加速化させるための仕組みであること
監視するだけでなく動的で複雑なインフラをより簡単にわかりやすくする仕組み
DevOpsライフサイクルの中核として効率化を促進

shitake4.hatenablog.com

アプリケーションエンジニアがMackerelで楽しく監視構成している事例

Time 14:35〜14:55
Speaker DMM.com ラボ様
slide

アプリケーションエンジニアがMackerelで楽しく監視構成している事例 from Keiko Nishioka

観点

アプリケーションエンジニアから見た事例

導入ストーリー

DMM.makeでの事例
オンプレミスからクラウドへ移行
クラウド移行することに伴いエンジニアの責務が変化

移行プロジェクトについて

使用するサービスAWS
アプリケーションは大きく分けて３つが移行対象
担当は2人（専任ではない）

監視どうするか？

今まで

Zabbixで監視し、アラートが着たら対応
監視サービスを独自にホスティングは厳しい

これから(構想)

AWSで一括管理を想定
CloudWatchとLambda

採用するための観点

比較するに当たっての観点

利便性

Mackerelは簡単かつ柔軟に設定できた。メトリクス取るのが楽

監視構成

監視対象

EC2,ALB,RDS アプリケーションのホスティング以外はマネージドサービスにお任せ
EC2
- 各種メトリクス
- ミドルウェア、アプリの死活監視
- Checking log
その他 AWSインテグレーションにお任せ

Ansibleでのエージェント設定

狙った構成がサクッと入った
楽
気持ちいい

監視設定の管理

Jenkinsからmkr monitors push
- 設定のJSONはGit管理
- 各種メトリクス監視、URL外形監視
WEB上で設定をお試しすること多し
チャンネル設定は手設定

サービス・通知レベル毎にチャンネル設定

得られた価値

楽な監視構成
つまづくことがほぼなし
1. エージェントの設定
2. プラグインの利用
日本語ドキュメント

気づき

リソースが余ってる
通知時のグラフでパッと見てヤバさを把握できる
アプリケーションエンジニアでも異常がわかる
Monitors設定はオンプレベースで確認中

まとめ

必要充分な監視を行えている
アプリケーションエンジニアでも扱える
導入が楽で、運用が楽しい

Mackerel インフラ基盤 AWS 移行の舞台裏

Time 15:00〜15:20
Speaker はてな大野　様
Slide

AWS移行の流れ

Mackerelのサービス名を分けて移行
DB、アプリケーション、DNSと切り分けて移行完了

※お客様から遠いところから移行

なぜAWSへ移行？

時系列データベース
データセンター運用コストの削減

クラウドに移行して問題を解決したい！！

時系列データベースの移行

mackerel-agent, APIが送るメトリックを保存
時系列データベースは自分たちで作り直した
移行時にはデータをコピーしながら2拠点（aws,データセンター）に書き込んでいた

時系列データベースの運用(Redis Cluster)

想定していた状態

Elasticacheで運用

懸念点

動的にスケールできない
クラスター作成後のノードが追加削除できない

実際の状態

Redis ClusterをEC2上で動かしている

Redis Cluster

複数のレディスをシャードとして分割している

キーでシャードを分けている
- シャードが偏ることがある、つまり負荷が偏る
シャードが偏るとどんなことが起きるのか
- CPU使用率がボトルネックになっている
- maxmemoryにあたって書き込めなくなる
メトリックはredisプラグインで収集している

DNSキャッシュサーバ

社内の権威サーバーがデータセンタにある

データセンタのサーバに問い合わせる構成
拠点ごとに権威サーバはない
社内ツールを使う為に依存している

Unbound

メリット

キャッシュを効率的にフラッシュできる
他のキャッシュサーバの選択肢
- dnscache
  - フラッシュさせるには停止が必要
- dnsmasq
  - すべてのレコードをフラッシュしてしまう

unbound 運用

VPC内のリゾルバはTTL60で固定されている
- MackerelホストのunboundはGoogle public DNSに問い合わせる
.ioドメイン不調時にはすぐに気づいた
- Mackerelもmackerel.ioにメトリックを投稿している

アクティブスタンバイ構成の実現

DBはアクティブ、スタンバイ
- keeepaliveでmaster,backup構成
keepalivedによるフェイルオーバ

AWSでのネットワークモニタリング

DCではスイッチからメトリックを収集していた

ネットワーク安定性モニタリング

SNMPプラグイン
- TCPパケットの再送、再送パケットの割合が見れる

AZ間の通信料モニタリング

iptablesのチェインでみる
- vpcフローログでなくても見れる

まとめ

AWS移行の見えない部分についてのお話
AWS移行は様々な技術に支えられている
AWSに移行したことでMackerel自体の監視、モニタリングも進化している
まだまだエージェントプラグイン便利にできる

shitake4.hatenablog.com

大丈夫！ Mackerel には CRE がいます

Time 15:25〜15:55
Speaker はてな井上様
slide

CREとは?

顧客信頼性エンジニア

CREが在籍していることの意味

Mackerelによって提供されているもの

サーバ監視が効率化されるという価値
動的なインフラ管理を実現することでDevOpsが加速されるという価値

→これらの価値はサービスが利用されることで生まれる価値

価値を支えるものは？

プロダクトそのもの
ユーザーからの信頼
1. 技術力によって支えられている
2. 向上させる他の要因

向上させる他の要因とは？

投げかけた質問に対し的確な回答
プラグインの導入法などに対してドキュメントがあること
知らない人が短期間で把握できること

上記３点を解決するのがCRE

CREは具体的に何をやっているのか？

投げかけた質問に対し的確な回答

寄せられた問い合わせにたして、出来る限り力になる
技術的な課題には立ち向かいたくなる
- インフラエンジニア、SREという肩書は少数精鋭
- インフラ基盤の安定運用というミッションに対しても、その少人数のメンバーに大きな責任がのしかかっているという現状

具体的な努力

Mackerelとセットで使われることの多い技術・プロダクトについても日々理解を深める
ミドルウエアの最新バージョンのコミットを追いかける
社内勉強会
輪読会

価値を向上させるもの1 投げかけた質問に対し的確な回答

成果（前期実績）

同営業日中の返答率：90％
〜翌営業日の返答率　99％
やりとり（往復）の平均回数　2.0未満

価値を向上させるもの2 プラグインの導入法などに対してドキュメントがあること

公式Webヘルプがいつでも閲覧可能
- ヘルプドキュメント
- APIドキュメント
公式ブログ

ドキュメントの管理方法

公開されているドキュメントはGithubで管理
公開までのフローをコマンドラインで公開可能

価値を向上させるもの3 知らない人が短期間で把握できること

ハンズオンを開催
直接説明に伺う
魅力を伝える為にイベントに登壇

freeeでMackerelを使って一年間サービスを運用してみた事例紹介

Time 16:00〜16:20
Speaker freee 浅羽様
slide

導入前の話

Zabbixを使用
- VPC毎にzabbix serverを運用
- 機能が豊富なので作り込めば色々なことが出来る
  - しかし作り込みや運用に時間を取れない状況
いくつかのプロダクトを評価した観点
- 移行のしやすさ
- プロダクトの進化スピード
- 使いやすさ
- コスト
  - AutoScalingとの親和性

ZabbixからMackerelへ

現在の監視構成

Mackerel
NewRelic
CloudWatch
Bugsnag
Deep Security as a Service

Service, Role, Hostの考え方

プロビジョニングやデプロイはEC2タグで処理を分けているので、タグの情報をそのままMackerelへ移植

サービス開発エンジニアとのコミュニケーション

ダッシュボードかサービス一覧のグラフを眺める
- 定期的にパフォーマンス振り返り会を実施
- ぽちぽち作るのは面倒なのでmkrコマンドで作る
- さらに深掘りしたい場合は、NewRelicで確認する
何かあったときやグラフをシェアしたいとき

デプロイの記録を行う

いつデプロイしたかわかるように記録

サービスメトリックの使い所

サービスに紐づくメトリック
1. レスポンスタイム
2. 非同期ワーカーの未処理のキュー
3. サーバ台数
サービスメトリックの放り込み方

アラート通知

基本的にはslackに通知
1. WarningはSREが見る
2. Criticalは広めに通知
夜中のアラート
1. PagerDutyなどは使わずに雑にbotが電話をかけていく
2. slackに誰か反応したら電話を切る

Mackerelの設定

Host Statusの初期状態はstandby
- AutoScalingのUserDataが動いている間はアラート出したくない
- UserDataの中でmkrを叩いてworkingに戻す
  - 構築でコケた場合も
実験的機能
1. とりあえずonにしておく

Mackerelに欲しい機能

毎月の支払い（レシート）をPDFで欲しい
AWSインテグレーションも自動退役機能が欲しい
1. EC2でないリソースを主にstaging環境で作ったり消したりするので、消すスクリプトを作った
2. タグ・除外タグをサービスごとに設定出来ると嬉しい

まとめ

全く問題なく運用できてます

質問

Zabbixの頃のほうがよかったことはあるか？
- 特にない。Mackerelで出来ないものもあったが、そもそも監視する必要のないものだったりしたので、監視すべきことが整理出来たのが、よかった

shitake4.hatenablog.com

Mackerelを導入して変わったN個のこと

Time 16:25〜16:55
Speaker GMOペパボ高石様
slide

使用状況

サービス：20
メンバー:100
ロール:300
ホスト：1000
サービスメトリック:300
外形監視：70

Mackerelが使われるキッカケ

nagiosの管理が大変
- サーバーの追加、削除時に設定ファイルの更新が必要
- SERF&イベントハンドラでいちおう自動化は可能
- 監視サーバーが複数ある
  - どこをみればいいのかわからない
クラウドらしい仕組みへの移行
サーバーの管理を手で行っていた
サーバーがボコボコ生まれ変わる時代だと厳しい
監視設定の追加
情報の一元管理
- サーバ自体とパッケージ情報も管理したい
  - パッケージ更新したっけ？をなくしたい
- 監視サーバーが複数あるのも同様の問題

Mackerelに移行した結果どうなったか？

nagiosの管理が大変
- nagiosの管理が不要
クラウドらしい仕組みへの移行
- サーバーの管理が楽
情報の一元管理
- Mackerelのページを見ればすべて載っている

どのような使い方？

サービスディスカバリとして使う
- 何かをデプロイするときに、デプロイ先を知りたい
退役忘れ、ロール設定忘れをチェックする
退役忘れで無駄にライセンス消費
ロール設定忘れて、運用に支障
ロール毎のサーバー数を数える
consul未所属サーバーの検知
リリースタイムを計測したい
- 改善したときにどの程度改善出来るのか知りたい
ステータスコード毎のリクエスト数を取得
sideKiqのジョブ数監視
- ジョブが詰まって障害になっている時に気づきたい
- 過去の特定時点でどの程度ジョブが溜まっているかみたい
TreasureDataのジョブ数監視
- ジョブが詰まると他のジョブに影響することがある
- エラーには気づけるが、その後リカバリ作業が必要
- ジョブ数を関しして、閾値を超えたらアラートしたい
GHE(GitHub Enterprise)のディスク使用量監視
- ディスク利用量が突如異常な増加
- いまいち原因が分からないので監視したい
お問い合わせ数を監視
- お問い合わせが急増していないか知りたい
- リリース後の思いがけないバグ

まとめ

やりたいことに集中できる
１つのダッシュボードを見ればすべてわかる
インフラ周りだけでなくいろんなものを気軽にモニタリング

Driving Mercari with 50+ custom Plugins

Time 17:00〜17:40
Speaker メルカリ長野様
slide

メルカリ＆インフラストラクチャの紹介

日本さくらインターネット（石狩DC）
アメリカ　(AWS, GCP)
イギリス (GCP)

Mackerel導入理由

異なるインフラストラクチャの監視項目・内容を共通化する
- 以前はregion毎にzabbixを利用。バージョンがずれたり監視内容の差が発生
- Service/Roleを利用することで管理
サービスメトリクスの柔軟な使い勝手
nagios互換のplugin

Mackerel以外の監視

Kurado
- 基本的なメトリクスはこちらで管理
NewRelic
- アプリケーションのチューニングの参考

Service/Role設計&デプロイ

サービスを行うregion毎にServiceを分ける
外形監視は別Service
- 通知チャンネルを分けるため
QA環境・マイクロサービス

Role設計

Role名のPrefixに意味を持たせる

role-　サーバーの基本的な役割
- role-mysql, role-applicationなど
z- 共通の役割
- 多くのサーバーはz-commonに属する
x- 監視上のフラグ
- role-mysqlはレプリケーション監視を行うが、x-mysql-masterを追加することで監視除外する

ROLEの自動付与

サーバに付与するRoleをどこかで自動で設定したい
conf.d以下のファイルに #role-def:ロール名 を追加すると起動時に読み込み、agentの起動オプションとして利用

Roleのprefixに意味を持たせる。conf内にRole名を書いて自動で設定
confはansibleで配布

監視にまつわる数字

監視ルール数: 265
Host毎の監視ルール数
- Mysql 34
- Application 39
- Search 36
カスタムプラグイン +50

カスタムプラグイン

z-commons

check_resolver
- resolv.confを独自に読み込んで名前解決する
diff-detector
- コマンド結果の変化があるとアラート
- 'cat /etc/passwd', 'uname -a', 'hostname' を見ている
check-iptables
- さくらの専用サーバはすべてglobal ipを持つ。不要なサーバはdisableにして運用
- 不用意な iptables --list　でiptables_filterが読み込まれ、パフォーマンスに影響するのを発見
check-uptime
- 不意な再起動を検知
- 閾値は2分-10秒。1回アラートが来てすぐに復旧する
- Mysqlやmemcachedでも行っている
check-inode
- inode 枯渇防止
check-machine-exceptions
- メモリ異常を検知した際のログを監視
check-raid-disk(MegaRAID)
- MegaCLIを使い各物理Diskの状態を監視
mackerel-plugin-ntpq
- OffsetとリモートとのSync状況の可視化
mackerel-plugin-linux-lite
- 2Coreから56Coreまでサーバがある
- 一貫した監視閾値を設けやすいように可視化

z-commons以外のplugin

periodic-checker
- 特定の時間のみ監視を行う
check-dns-rr
check-spf-and-reserve-lookup
- メール配信にて利用
- サーバが持っているGlobalIPすべて確認
chech-mysql-slave-sql-error
- レプリケーションが止まった時に、その理由も通知してくれると便利で作ったPlugins便利で作ったPlugins
check-mysql-msr
- MySQLのMulti Source Replicationの監視
mackerel-plugin-msr
- check-msyql-msrの可視化

その他の取り組み

問い合わせ数の監視
- 多くの人が参加するChannelへ通知
- 障害の検知、影響範囲の把握
監視されていないサーバの自動抽出
slackへの通知
- 1日2回slackへ通知
  - 監視されていないサーバ
  - standby,poweroffのサーバ

まとめ

コードを書いて問題を解決する
Mackerelは使い勝手のいい監視ツール

AWS Ecosystem with Mackerel

Time 17:45〜18:15
Speaker 酒徳様

DevOps関連サービス

ソースコードのバージョン管理
- CodeCommit
ビルド自動化
- CodeBuild
デプロイ自動化
- CodeDeploy
- CloudFormation
- ElasticBeanstalk
ワークフロー管理
- CodePipeline

CloundFormation

Infrastructure as a code
- AWSリソースの環境構築を自動化
ChangeSet Support
StackSet Support

Security

ユーザ/クレデンシャル管理
アクセス権限管理
権限の委任と監査

イベント行ってみての所感

これからMackerel使いこなしていきたいなと考えてのイベント参加だったので、使うのが楽という発表を聞いて色々と触ってみたりしたいという欲求が更に高まりました

イベント概要

Mackerelリリース3周年の振り返りとこれからの成長について

選ばれる理由

おすすめ機能

直近の主要なリリース

リリース予定

どういう方向で成長させていくのか

世の中の流れ

Mackerelとしての使命

アプリケーションエンジニアがMackerelで楽しく監視構成している事例

観点

導入ストーリー

移行プロジェクトについて

監視どうするか？

今まで

これから(構想)

採用するための観点

比較するに当たっての観点

監視構成

監視対象

Ansibleでのエージェント設定

監視設定の管理

サービス・通知レベル毎にチャンネル設定

得られた価値

気づき

まとめ

Mackerel インフラ基盤 AWS 移行の舞台裏

AWS移行の流れ

なぜAWSへ移行？

時系列データベースの移行

時系列データベースの運用(Redis Cluster)

想定していた状態

懸念点

実際の状態

Redis Cluster

DNSキャッシュサーバ

Unbound

メリット

unbound 運用

アクティブスタンバイ構成の実現

AWSでのネットワークモニタリング

ネットワーク安定性モニタリング

AZ間の通信料モニタリング

まとめ

大丈夫！ Mackerel には CRE がいます

CREとは?

CREが在籍していることの意味

Mackerelによって提供されているもの

価値を支えるものは？

向上させる他の要因とは？

CREは具体的に何をやっているのか？

具体的な努力

価値を向上させるもの1 投げかけた質問に対し的確な回答

成果（前期実績）

価値を向上させるもの2 プラグインの導入法などに対してドキュメントがあること

ドキュメントの管理方法

価値を向上させるもの3 知らない人が短期間で把握できること

freeeでMackerelを使って一年間サービスを運用してみた事例紹介

導入前の話

現在の監視構成

Service, Role, Hostの考え方

サービス開発エンジニアとのコミュニケーション

デプロイの記録を行う

サービスメトリックの使い所

アラート通知

Mackerelの設定

Mackerelに欲しい機能

まとめ

質問

Mackerelを導入して変わったN個のこと

使用状況

Mackerelが使われるキッカケ

Mackerelに移行した結果どうなったか？

どのような使い方？

まとめ

Driving Mercari with 50+ custom Plugins

メルカリ＆インフラストラクチャの紹介

Mackerel導入理由

Mackerel以外の監視

Service/Role設計&デプロイ