Azureを使ってさまざまなシステム構築ができますが、障害が発生するケースもあります。
障害が発生すればシステムのユーザーに対して迷惑をかけてしまい、業務に影響がでる場合もあるでしょう。そこで、障害が発生した場合リアルタイムに情報を確認して適切な対策が必要です。この記事では、障害発生時の情報を確認する方法や対策方法などについて詳しく説明していきます。

個人事業主としてWebライターをしています。 WebやIT関連を中心としてさまざまな分野の執筆をしています。
Azure障害の基本情報
Azureサービスはさまざまな分野において導入されています。
しかし、自然災害や通信、ハードウェアの故障などさまざまな理由において障害が発生する可能性があるため注意が必要です。特に、Azure障害が発生した場合システムが全体的に止まる可能性のある場合はいち早く適切な対応が求められます。
Azure障害が起こるメカニズム
Azureで発生する障害にはさまざまな種類があり、データセンター内で発生するものやDNS障害、ネットワークやハードウェアのトラブルなどさまざまな種類があることが特徴です。データセンターはさまざまな場所にあるため、それぞれ障害の要因が異なる可能性があります。
また、DNS障害が発生するとサービスのアクセスが制限されてしまい従来の働きをしなくなる点に注意が必要です。サーバーやストレージなどに使っているハードウェアの故障、通信に影響を与えるネットワークトラブルなど、それぞれの障害に対して対策が必要です。
Azure障害は、台風や地震などの自然災害による停電が原因で発生する場合があります。また、基盤に負荷がかかりすぎた場合や認証エラーでも起こります。
Azure障害の影響範囲とは
2024年現在、Azureには200以上のサービスがあり、医療や金融サービス、小売業や政府などさまざまな分野で導入されています。Azure導入によってコスト削減やセキュリティ強化、業務効率化などさまざまなメリットがあることが特徴です。
しかし、Azure障害が起きてしまうとシステム全体的に使えなくなってしまい業務に大きな支障が発生します。過去には、自然災害やハードウェアの故障、そのほかさまざまな理由において業務に支障が発生したケースがあります。
障害が発生した場合はリアルタイムで状況を把握し、いち早く適切な対策をおこなうことが重要です。
Azure障害情報のリアルタイム確認方法
Azureに障害が発生した場合、対処が必要になる場合があります。そのため、迅速に障害が起きていることを把握することが重要です。Azure障害情報をリアルタイムで確認するためには次のような方法が挙げられます。
- Azure サービス正常性ダッシュボード
- Azure 通知
- Azure サブスクリプションの通知
- Azure ログ
- Microsoft からの公式発表
- サードパーティ製ツール
- SNSやフォーラム
Azure公式サービスのほかに、サードパーティ製のツールやSNSなど非公式のサービスも利用可能です。ここでは、それぞれの確認方法について詳しく説明していきます。
Azure サービス正常性ダッシュボード
Azure障害情報をいち早く把握するためには、Azure サービス正常性ダッシュボードの活用が効果的です。現在利用しているサービスの状況を確認できるため、正常に動いていない場合や問題が発生している場合などの状況把握ができます。
また、普段使っているリージョンやサブスクリプションを設定できるため、より状況把握がスムーズになります。Azure サービス正常性ダッシュボードは、Azure Portalから無料で利用できるためコスト面で負担がかかることもありません。
Azure 通知
Azureでは、Azure MonitorとAzure portalで通知を設定できます。Azure Monitorでは監視データに問題があった場合に事前に通知することが特徴です。そのため、管理者は前もって問題を把握し対処できます。
Azure portal では、すべてのアプリを対象に監視できます。様々なサービスを活用している場合でも一元管理できるので、管理における負担を減らすことが可能です。
Azure サブスクリプションの通知
Azureサブスクリプションの通知によって、Azure障害を把握できる場合があります。Azure障害が発生した場合に、リソースに関する操作であるアクティビティログ通知や、リソースのメトリクス値が従来の数値でない場合に対応するメトリックアラート通知を活用可能です。
Azureサービスに異常があった場合には、Azureサービス正常性通知が知らせてくれます。このように、Azureサブスクリプションにはさまざまな通知があるため、Azureの利用状況をより詳しく把握することが可能です。
Azure ログ
Azureリソースに診断設定とよばれるログがあります。ストレージやデータベースなどAzureリソースがどのように動作しているかを記録する機能です。ログに表示されている情報において問題が発生した場合でもリアルタイムに把握できます。
さらに、問題の原因を分析できるため今後再発しないように防止策を設定しやすいことも特徴です。また、ログの監査証跡として活用できるためコンプライアンス要件を満たす場合もあります。
Microsoft からの公式発表
Microsoftでは、Azure Service Healthを通して、Azureサービスに関連する障害の通知やメンテナンス情報などを提供しています。特定のサービスやリージョンなどの情報を受け取れるように設定可能です。
現在使っているサービスに関連する公式情報を受け取ることで、適切な対策をスピーディーにおこなえます。また、システムのユーザーに対してもスムーズな連絡ができるでしょう。あらかじめ、必要な情報だけをみられるように設定をしておきましょう。
また、Azure Resource Healthにて現在利用しているパフォーマンス情報の確認も可能です。そのため、障害に対してリソースが足りているのか、環境全体に問題が発生しているかなどの原因究明をしやすくなります。
サードパーティ製ツール
Azureでは、オラクル、SAPなどさまざまなサードパーティを利用可能です。
例えば、SAPアプリケーションを活用している場合は、Azure上で稼働している部分についてはサポート対象です。また、Windowsで利用している場合はMicrosoft製品に関しては障害に関連するサポートを受けられます。
また、オラクルはAzureのギャラリーからwindowsを取得したした場合はMircosoftのサポートを受けられます。このように、それぞれサードパーティー製ツールによって障害のサポートを受けられるかどうかのポリシーが設定されていることが一般的です。
SNSやフォーラム
AzureではAzure Statusを使ってサービスの状態を確認できます。サービスごとに情報を提供しており、赤くなっているサービスは障害が発生していることを示しています。もし緑色であれば障害が発生していない可能性があるため、より詳しく調査が必要です。
また、次のようにX(旧Twitter)でも障害情報を確認できます。
MicrosoftがAzure障害情報を提供するためのアカウントであるAzure Supportは必ずフォローしておくとよいでしょう。また、非公式ではありますが、Azure障害情報は日本語で情報を提供しているだけでなく、ほぼリアルタイムで発信をしてくれます。
Azure障害発生時のネットワークとシステムのチェックポイント
Azure障害が発生した場合、ネットワークやシステムをチェックする必要があります。スムーズなチェックをおこなうためにも、それぞれどの部分を把握すべきか理解しておくようにしましょう。
ネットワーク
ネットワークの障害である場合は、ルーターをはじめとしたハードウェアの故障によるものかAzureサービス全体的な障害であるのかいずれかです。
サービス全体の障害に関しては、Azureの状態ページやAzure Service Healthなどで確認できます。予定されているメンテナンスまで把握できるので、ユーザーに知らせることができるでしょう。
ハードウェア故障の場合はいち早く修正し、一時的に代理の方法に切り替えることが必要です。普段から、ハードウェアのメンテナンスをするほか故障した場合のマニュアルを決めておくとよいでしょう。
システム
データベースや仮想マシンなど、Azureではさまざまなハードウェアがシステムを構成しています。
それぞれのハードウェアが従来通りの動きをしないと、Azure障害につながる可能性があるため注意が必要です。
Azure Resource Healthを使うことで、特定のデータベースや仮想マシンなどの状態を把握できます。状態を把握することで原因特定がしやすくなり、スムーズな対応が可能です。メモリやCPU使用率を把握したり、パフォーマンスの低下や従来通りでない動作を把握したりなどシステムの状態を確認できます。
Azure障害時の初期対応
Azure障害が発生した場合まずどのような対応をすればいいのかわからない場合があるでしょう。そこでこの章では、障害が起きた場合にまずすべきこと、またリソース不足への対処方法を解説していきます。
障害の確認
まず、Azure障害が発生したかどうかを確認することが必要です。
Azureで障害が起きているかどうかは、Microsoftからの公式発表やAzure通知、SNSやフォーラム、サードパーティ製ツールを活用するなどさまざまな方法があります。
障害の内容によって対処方法が異なるため、まずはどのような障害であるか把握することが重要です。そのため、普段から障害通知を確認できるようにしておきましょう。
例えば、データセンター内の障害であれば別のデータセンターに切り替える方法があります。障害の状況をリアルタイムで把握するために普段からAzure Monitorをはじめとしたツールを活用してリソースの監視をすることが大切です。
影響範囲の特定
Azure障害が発生していることを把握できたら、次に障害がどこまで影響するのかを特定することが重要です。
範囲を明確にしたうえで、影響を抑えることが求められます。障害の影響範囲を特定するためには、次のような方法があります。
- Azure サービスヘルスダッシュボードを活用
- ログを分析
- 実際の声を確認
Azure サービスヘルスダッシュボードを使うことで、Azureサービス全体の現在の状況を把握できます。
障害が発生している部分や影響を受けるリージョン、時間帯などを確認しましょう。ほかにも、Azure Monitor を分析したり実際に影響を受けているユーザーの声を確認することも重要です。
影響の軽減
Azure障害による影響を把握できたら、即座に対応して影響を軽減することが必要です。障害の内容によって対策方法が異なります。例えば、複数のリージョンにリソースを配置するなどリソースを増やすことで負担を軽減できます。
フェイスオーバー設定をすることでサービスの可能性を高めることも可能です。また、影響を受けるユーザーに対してスピーディーに通知することも重要です。ユーザーは障害の発生を知ることで、影響を最小限にできる場合があります。
根本原因の調査
Azure障害による影響を軽減できたら、根本原因の調査をおこなうことが必要です。場合によってはMcirosoftのサポートからRCA(Root cause analysis)とよばれる報告書を受け取る場合があります。RCAには、障害の原因や対応した結果、今後の対策などが書かれています。
顧客に対して説明をするにあたって、Microsoftの正式な見解を報告することが可能です。そのためにも、RCAを正しく理解するようにしましょう。
Azureリソースが不足した時の対策
Azureリソースが不足していると、従来の通りにシステムが動かずAzure障害につながる可能性があります。そのため、リソースが不足しないように使用状況を確認したうえで必要な分を増強することが重要です。
しかし、リソースが必要以上にあるとコストが高くなってしまいます。そこで、リソースの最適化が求められます。自動スケーリングを使うと、利用状況に合わせてリソースを増やしたり減らしたり自動的にできるので便利です。
リソース使用状況の確認
Azureリソースが不足した場合、まず人材や技術的な面においてリソースの使用状況を確認することが必要です。また、仮想マシンやデータベース、仮想ネットワークなど管理できる要素が足りているかどうかを確認しましょう。
ほかにも、管理グループやサブスクリプションなどさまざまな要素があります。リソースの増強を的確に行うためにも、リソース使用状況を把握することが必要です。
リソースの増強
リソースが足りなくて負荷が増大している場合リソースの増強が必要です。リソースが不足していることがどのような影響を与えているのか、今後のリソース需要を把握するようにしましょう。
リソースを増強する方法ですが、スケールアップやスケールアウト、さらにクラウドサービスを利用する方法などがあります。増強後のパフォーマンスやコスト、可用性などを踏まえて増強する方法を選ぶとよいでしょう。
リソースの最適化
Azureリソースの増強が終わった後は、リソースタイプの見直しをするようにしましょう。例えば、Blob Storageにおいて最適なアクセス層を選ぶほか、VM(Virtual Machine、バーチャルマシン)の稼働率を把握します。現在使っていない仮想マシンがある場合は、削除すべきこともあるでしょう。
また、一時期の決まった時間だけVMを利用するのであれば、使っていない時間はシャットダウンをすることでリソースの最適化につながります。Blob Storageは、HotやCool、Cold、Archiveの4つの層に分かれています。Hotが頻繁にアクセスするデータでありだんだんとアクセスする頻度が下がっていきます。このため、アクセス数頻度に合わせてアクセス層にすることが重要です。
自動スケーリングの利用
リソースの最適化を行ったあとは、自動スケーリングを活用します。自動スケーリングとは、アプリケーションの利用具合によってリソースを自動的に減らしたり増やしたりできるサービスです。アプリケーションを活用することが増えると、自動的にリソースが増えるので負荷を減らすことが可能です。
逆にアプリケーションの利用が減ると自動的にリソースが減るため、リソースが無駄になることがありません、リソースを増やすCPUの利用度合いやキューの長さを設定するなど前もってルールを設定できます。
サポートへの問い合わせ
Microsoftサポートに対して問い合わせをする場合は、Severityとよばれる重要度を設定します。
問い合わせをするのは主に、システム停止によってユーザーに影響が出ている場合です。問い合わせをする場合はSR(Service Request)をサポートに提出しましょう。
この際に、リソース名や該当のサブスクリプションIDを明確に伝えてください。もし、間違ったIDを伝えると「該当するリソースはない」といった答えが返ってきます。
Microsoftのサポートには次のようなプランがあります。
費用(1ヵ月あたり) | 対応範囲 | |
Basic | 別途の費用は不要 | Azure全てのユーザー |
Developer | 29ドル | 非運用や試用である環境 |
Standard | 100ドル | 運用ワークロード環境 |
Professional Direct | 1,000ドル | ビジネスでの利用 |
Azure障害に使えるツール
Azure障害への対策としてさまざまなツールを使うことで、データをバックアップしたりスピーディーな復旧ができたりします。障害が発生するとユーザーにも影響がでるため、ツールを使って影響を軽減したり一刻も早く復旧することが重要です。
Azure障害には次のようなツールを活用できます。
- Azure Monitor
- Azure Backup
- Azure Site Recovery
Azure Monitor
Azure Monitorとは、Azureのリソースにおいてログ分析をしたりパフォーマンス監視をしたりできるツールです。
リソースの状況をリアルタイムで追跡できます。さらに、Azure内での動きや変更などを把握することが可能です。Azure Monitorを活用することで、リソースの使用状況を把握できるほかセキュリティイベントの確認もできます。
Azure Monitorは直感的に情報を把握できるため、スピーディーに適切な対応が可能です。リソースの利用状況や目的などを把握しやすいため、効率的にリソースの活用や問題解決ができるようになるでしょう。
Azure Backup
引用:Azure Backup
Azure Backupは、シンプルなクラウド上でのバックアップが可能でありサーバー1台でも利用できます。VPN接続や専用線は不要であり、ファイル単位でも復旧可能です。さらに、ハードウェアの準備も不要であることから、もっとも導入しやすいといえるでしょう。
Azure Backupではオンプレミスの仮想マシンやアプリケーション、さらにはAzure laasのwindowsやLinuxの仮想マシンをバックアップできます。容量が無制限であるほか、ストレージオプションも次のように2種類あります。
LRS | 1つのリージョンで保存 |
GRS | 2つのリージョンで保存 |
データを暗号化することから、セキュリティ対策がしっかりとしている点も大きな特徴です。
Azure Site Recovery
Azure Site Recoveryは、クラウド上に保存しているバックアップデータを活用することによってシステムをスピーディーに普及できます。災害などの有事の場合に仮想マシンを起動することでシステムを復旧する仕組みです。
バックアップ対象サーバーから中継サーバーを経由してAzure Storegeへと瞬時にデータを移動させますが、Azure Site Recoveryであれば簡単に移行できます。そのため災害時でも安心です。Azure Backupと違いVPN接続や専用線が必要であるほか、Azure Backupがデータの保持期間が30日間であるのに対してAzure Site Recoveryは数時間から最大3日間です。
まとめ: Azure障害に強いビジネスを構築するために
Azureデータセンターは堅牢ではありますが、地震や台風など大規模な災害で稼働が滞ってしまう可能性があります。
災害の大きさによってはすぐに稼働再開できない場合もあるでしょう。Azure障害を効果的に対応することでビジネスを安定させる戦略が必要です。
そこで、Azure障害対策をできるシステムを開発できるJiteraにご相談ください。AIで開発をするためスピード開発が可能であり、知識のある担当者がサポートします。地震や台風などの災害は避けることができず、災害対策を含めた戦略が必要です。しっかりとした災害対策の戦略を立てることで他社と差別化してはいかがでしょうか。