BLOG

RECENT ENTRY

ARCHIVES

アニマのインフラ監視方法について

皆様、新年あけましておめでとうございます🎍
本年もよろしくお願いいたします🍊

さて、新年最初の記事は久しぶりに
Development Div.(=開発部門)のお話です。

アニマでは昨年のDell EMC Isilonの導入によってデータ保全を
“より”堅牢にしましたが、現在各アーティストのPCとIsilon間の
ネットワーク環境や社内Webサービスを動かしているサーバーなどの
インフラの監視環境の整備を進めております。

昨年のIsilonの記事同様、システム管理スタッフに話を聞いてみました。

──どのようなインフラ監視ツールを使用していますか?

現在は以下のツール群が稼働しています。

・Zabbix
→社内ネットワーク上のwebサービス、サーバー、
ハードウェアの状態を統合監視できるオープンソースソフトウェア
・Grafana
→ZabbixやPrometheus、Elasticsearchなどから
得られるデータから直観的に理解しやすいグラフを生成し、
ユーザーが好きにカスタムして監視画面を生成できるツール

その他、以下のようなツールを使用して監視によって得られた
データやログの解析結果を可視化しています。

・Telegraf (TIG Stack)
・Prometheus
・Elasticsearch (ELK Stack+ElastiFlow)
・Loki (+Promtail, Rsyslog)

詳しくは、下記のような構成イメージです。

※画像はこちらで拡大してご覧いただけます

データの取得はZabbixをメインで使用し、
その他のツールは対象や目的に応じてZabbixで補完する形で稼働しています。
日常的なモニタリングはGrafanaを使用しており、
一部ダッシュボードは社内ユーザー向けでも閲覧できる設定にしています。

──稼働状況について教えてください
各種サーバー、ネットワーク、ライセンス使用状況、
共有ストレージ容量などをカバーしています。
また、Zabbix APIからデータを取得し、
社内のチャットツールで定期的にサマリーレポートを送信しています。

以下、運用中のダッシュボード例です

▼ 情報が集約されたホーム画面

▼ ストレージの監視用画面

▼ サーバステータス画面

▼ ネットワーク上のデータの流れの可視化

──改善された点はどんなところですか?
問題が発生した際に即座に察知することができ、
原因の特定や切り分けがスムーズになりました。
障害の予防の傾向と対策にも役立っています。

──今後の運用はどのように考えていますか?
主に運用面において、ブラッシュアップを図って行きます。
今回ご紹介したもの以外の監視ツールなども随時検証中です。
このあたりもまたいつかご紹介できればと思います!

今回の記事はここまで!
2021年も沢山更新しますので、お楽しみに*

PAGE
TOP