本文とサイドメニューへジャンプするためのナビゲーションスキップです。

スタートアップガイド

J-Net21 中小企業ビジネス支援サイト

  • J-Net21とは
  • スタートアップガイド
中小機構
  • メルマガ登録
  • RSS一覧
  • お問い合わせ

HOME > 製品・技術を開発する > デジ・ステーション

デジ・ステーション


5分でわかる最新キーワード解説
転ばぬ先の杖!HDD故障予測技術とは?

日々進歩するIT技術は、ともすると取り残されてしまいそうな勢いで進化の速度を高めています。そこでキーマンズネット編集部がお届けするのが「5分でわかる最新キーワード解説」。このコーナーを読めば、最新IT事情がスラスラ読み解けるようになることうけあい。忙しいアナタもサラっと読めてタメになる、そんなコーナーを目指します。今回のテーマは「HDD故障予測」技術。ビッグデータの活用で、故障予測精度がグンと上がりそうです!

1. 「HDD故障予測」とは

「ノートPCが突然壊れた!」…PC利用経験が長い人は、この苦すぎる経験を何度か味わっているかもしれない。PCの故障原因の多くはHDD(ハードディスク)の障害だ。困ったことにHDDはたいてい“突然死”してしまう。内部ではじわじわ劣化が進行していたかもしれないが、発症までは違和感がほとんどなく、一旦発症したらもう既に手遅れ、バックアップもできない状態になることが多い。そしてユーザは「故障が分かっていればバックアップをとったのに…」と嘆く。IT管理者は「故障が分かっていれば代替機を用意しておくのに…」と悔やむ。「故障の事前予測ができたらいいのに」。それが長年のPCユーザの願いだった。特に衝撃や振動が加わりやすく、故障への不安が大きいノートPCのユーザならなおさらだ。
 そこに登場したのが昨年12月に東芝が発表した「ノートPC内蔵HDDの故障予測」技術だ。これは膨大なHDD稼働ログと修理センターの故障状況データを合わせて、実際の故障と故障の予兆を示す稼働状態との相関を明らかにした。ビッグデータ分析による新しい故障予測最適化の手法が見えてきた。

1-1. 普通の「健康診断ツール」ではダメなのか?

「HDD故障予測ならソフトウェアをいつも使っているよ」という方もいるだろう。実際、HDDの稼働ログはいつでもとれるようになっており、HDDの利用状況のログを収集して表示する様々な「HDD故障予測ツール」あるいは「HDD健康診断ツール」が登場している。
 しかし今までのそうしたツールには2つの面で課題がある。
 1つは管理者による情報の一元管理が難しく、エンドユーザが自分で気をつけて計測された値や集計結果を調べ、対応しなければならないことだ。ITリテラシの高い部署ならそれでもよいが、業務部門にこれを徹底させるのは困難だ。
 もう1つはツールが表示する結果から危険度を適切に判断して過不足のない対応を図る方法が分からないことだ。ツールによっては「安全」「危険」「注意」などのようにリスクを表示してくれるものもある。専門家のノウハウによる“しきい値設定のさじ加減”が予測を左右することになるが、判断基準がツールベンダによって違い、正確性に疑問が残る。
 これら課題を解決するには、管理者が多数のエンドユーザのPC故障確率を把握して適切な対応がとれるよう、一元管理可能な仕組みがいる。そして信頼するに足る予測の根拠があることが望ましい。

1-2. 故障予測が正確にできる理由は?

昔からのこれら課題に対してノートPC分野で世界最長の歴史を持つ東芝が応えた、というところが今回の発表の重要ポイントだ。東芝は28年前に世界初のラップトップPCを発売して以来、今日までノートPC領域で世界のトップブランドの1つであり続けている。
 「でもどうせPCベンダが言うことなんでしょ」と言うなかれ。注目すべきは東芝のノートPCユーザ数だ。同社はユーザの同意を得てHDDの稼働情報を収集しているが、その対象PC数は166万台にのぼる。しかも同社は設計・製造から修理・サポートまでワンストップで対応できる業界でも稀有な体制をとっている。
 PCから稼働情報を集めた上で、更に自社の修理センタで収集する故障情報と合わせて相関関係を調べることができる体制は、なかなかほかではまねできない。膨大な量のユーザ環境のデータと故障・修理のデータとをつきあわせたビッグデータ解析の結果を故障予測の根拠にしているため、他のハードやソフトの専門ベンダとは違った高い予測精度が期待できる。東芝がこの予測の精度(故障予兆検出能力)を検証した結果では、故障予兆が検知されたグループの故障確率と、故障予兆が検知されないグループの故障確率では67倍もの差があったという。それだけ信頼できる予測精度だということだ。

1-3. 故障予測に使うPC側からの情報とは?

この予測のためにノートPCから収集しているのは、HDDが一般的に記録している「S.M.A.R.T.」(「関連キーワード」参照)情報だ。同社のノートPCには「S.M.A.R.T.」対応の管理ツールが標準搭載されており、情報収集に同意したユーザからその情報をインターネット経由で常に収集している。

収集する「S.M.A.R.T.」情報って何?

「S.M.A.R.T.」はHDDの標準仕様なので、前述の「健康診断ツール」でも利用されている。例えば次のような情報が収集できる。ただしこれは一般的な一例であり、ベンダの考え方により項目に違いがある。

表1 S.M.A.R.T.で取得できる情報例
表1 S.M.A.R.T.で取得できる情報例

それぞれにしきい値を定め、現在の計測値やワースト値がしきい値を超えたら警告を表示する仕組みになっている。

「S.M.A.R.T.」の値がそのまま故障に対応するわけではない現実

こうした値が分かれば即ち故障確率が予想できるというわけではない。例えば、ノートPCの故障の大部分は内蔵HDDの障害だが、衝撃を受けたあとに「S.M.A.R.T.」各項目の値が悪化しても、一時的な悪化ならPC故障につながらない場合があることが分かっている(図1)。図では故障可能性が衝撃を受けた時に一時的に上がるものの、その後は安定していることが見てとれよう。

図1 ノートPC内蔵HDDの稼働情報の異常と故障との関係
図1 ノートPC内蔵HDDの稼働情報の異常と故障との関係

資料提供:東芝

PC利用状況によって異なる「寿命」

更に基本的なことを言えば、同時期に導入したPCでも使用環境や使用法によって経年劣化の程度に差が出る。一般的に装置の故障率は製品リリース直後の「初期故障」の時期を過ぎれば低いレベルで一定となり、ある程度の時間経過を経たあと、部品などの経年劣化、摩耗劣化により再び故障率が増加していく。その時期がいつくるかについて、PCベンダは例えば「平均故障間隔(MTBF)◯万時間」というように仕様として公表してはいる。しかしMTBFはその期間まで故障しないという意味ではない。使用の頻度(ON/OFF回数)や振動・衝撃、周囲の温度などによってまったく故障確率が異なる。もしも「健康診断ツール」が利用時間に重きを置くアルゴリズムで故障予測をしていたら、現実とは異なる予測になるかもしれない。

1-5. 故障予測はどのように行われるのか

では東芝のノートPC内蔵HDDの故障予測はどのように行われるのだろうか。同社の技術陣が最も悩んだのは故障の前兆となる稼働データの特徴を見つけ、数値化するところだったという。研究の中ではHDDの故障モードを念頭に入れながら時系列データから750種類以上にわたる特徴量を抽出する作業に多くの時間と労力が費やされた。その研究の過程で収集されたデータの中には震災の影響による故障も含まれたが、そうしたある種特別なデータは排除しなければならない。そんな例外的事象を慎重に検討して対応しながら、「ブースティングアルゴリズム(データマイニングの1手法)」を利用して、故障確率を3段階で評価できるモデルを構築した(図2)。

図2 「S.M.A.R.T.」時系列データと修理データの相関を分析して故障予兆モデルを構築
図2 「S.M.A.R.T.」時系列データと修理データの相関を分析して故障予兆モデルを構築

資料提供:東芝

この故障予兆モデルにより、「HDDに何が起こったか」から「故障が起きる危険度」を予測することができるようになった。予測は3段階で行われ、即座にバックアップなどの対応をすべき段階、バックアップ回数を増やすべき段階、通常の対策を実施する段階というように、リスクに合わせた対応がとれるようにした。
 一時的にエラーが出てもすぐに回復できる可能性があればそれも含めて評価することができるし、故障が起こりやすい状態が継続する期間の予測も可能なため、その期間だけバックアップ頻度を高める対策もとれるようになる

2. ノートPC内蔵HDDの故障予測を利用するメリットは?

さて、HDD故障が予測できることでどんな利益があるだろうか。もともとこの技術はPCユーザから「バックアップが必要なことは分かっているが、日々の作業の手間がかかるので実施していない。しかしながらデータの保護は重要であり、HDD故障を予測できる方法はないか」という声がきっかけとなって開発がスタートしたのだそうだ。「バックアップソリューションとともに、バックアップ頻度を判断する1つの目安」として利用することが目的とされている。その目的が実現間近になった今、次のようなメリットが考えられる。

よりユーザの身に迫る正確なリスク情報が活用可能

故障予測の1つのメリットは、これまでよりも裏付けがしっかりした精度の高い予測ができることにより、ユーザにリスクを正しく通知し、バックアップに関する認識を深めてもらいやすくなることだ。「HDDの現状」情報ではなく「危険度」あるいは「故障可能性」情報という、よりユーザの身に迫る形で情報提供できる。

管理サーバでリスクを一元管理して自動バックアップシステムも構築可能に

また企業内でのクライアントPC管理システムの管理サーバにリスク情報を集約し、一元管理する方法もとれる。こうすればバックアップはユーザ任せではなくなり、IT部門が主導して行う運用に切り替えていくことが容易になる。またクライアントPCデータを自動バックアップするシステムにすれば、リスクに応じた適切な頻度で手間いらずのバックアップができるようになり、業務効率アップに貢献しよう。更に、故障予測によりリスクが高いと評価される期間も割り出せるので、その間だけバックアップ頻度を高めるといった工夫も可能になる。

ノートPC買い替え時期の最適化にも期待

これまで企業では経年劣化、摩耗劣化による故障率増加時期を例えば3年なら3年と決めて、その時期が来たら劣化の激しいものも健全なものもいっぺんに新しい機種に入れ替えるやり方をとってきた。この方法を変えて、リスクが大きくなったPCから順に入れ替えていくきめ細かいリプレース方針にすれば、PCのTCO改善につながる可能性が出てくるかもしれない。

以上、課題、技術の仕組み、メリットを紹介した。残念ながらこの技術はPC一般を対象にしているわけではなく、今のところ東芝のノートPCに付随するサービスとして実現が図られている。同社ではPCへの標準搭載を予定しており、今後関連サービスを拡充していく予定だ。

取材協力: 東芝

掲載日:2013年4月10日

キーマンズネット

出典元:株式会社リクルート キーマンズネット 2013年3月6日掲載分

検索

このページの先頭へ