ホチキス先生の「プログラマーと呼ばれたい」

InfoPath & SQL Server !

Archive for the ‘システム障害’ Category

真似をするなら自己責任で。電解コンデンサを交換して壊れたパソコンの電源を修理する。

with 7 comments

学校のシステム管理者はここまでしなければならないのか、といった自問自答を繰り返しながら、壊れたパソコンの修理をやってみた。そもそもの発端はこうだ。

俺が勤める学校には「教員パソコン」と呼ばれる教員一人一台のコンピュータ環境がある。これらは職員室の机上におかれ、教員は自分の机上の「教員パソコン」から校内のファイルサーバーや共有プリンタを利用して事務作業をしたり、インターネットのWebアクセスで教材を調べたりしている。もちろんActive Directoryでコンピュータやユーザーを管理している。

この「教員パソコン」として使われているコンピュータのうち、NEC製のデスクトップ「Mate」のスリムタワー、MY26X/R-Hが次々故障するという事態がこの夏あたりから発生した。昨日は1台、今日は2台、といったように、あたかもタイマーが切れたかのように動かなくなっていく。それは、映画「ブレードランナー」で描かれるレプリカントの寿命が尽きるシーンを思いだすほどだった。

IMG_1857_mid_640_480

<Fig.1 : 次々と動かなくなったNECのMate MY26X/R-H>

動かなくなったコンピュータは、ほとんど同じ症状を呈している。それは稼働中に故障するのではなく、ある日、電源を入れようとして、動かなくなっていることに気づく、というものだ。そしてコンピュータは電源ボタンを押す前から電源ランプが点灯したままになっており、電源ボタンを押しても動かない、まったく何の反応もない、というものだ。

事務室を通じて修理の見積もりを依頼すると、数万円かかるということだった。かなりの台数になっているので、修理には相当の予算が必要になる。また古いコンピュータを数万円かけて修理することがよいのかどうかの判断もある。そこで当面、使えなくなったコンピュータを撤去して倉庫に集め、対策を考えることになった。

IMG_1931_mid_640_580

<Fig.2 : 倉庫に集められた故障コンピュータ>

しかし次々にコンピュータが壊れていくので、何らかの対策を考えざるを得なくなった。そこで、これらのコンピュータのいったいどこの具合が悪いのかを調べてみることにした。

まだちゃんと動いているものもあったので、問題のないものと故障で動かないものの両方を分解し、メモリを交換してみたりハードディスクを交換してみたりした。そこでわかったのは、電源ユニットに問題があるということだった。動かなくなったコンピュータの電源を取り外し、ちゃんと動いているコンピュータの電源と交換すると、すべてのコンピュータがちゃんと動くことが確かめられたのだ。

IMG_1901_mid_640_480

<Fig.3 : 故障の原因だった電源>

そこで、この電源部分だけを交換することができないかを考えた。近くのパソコンショップに電源を持っていき、これと同じものが手に入らないかを聞いてみると、ATマシンの電源はあるていど規格が決まっていて、これはおそらくTFX電源なのではないか、ということを教えてもらった。ただあいにくその店にTFX電源の在庫はなかった。

そこで再度、修理の問い合わせで、「電源部分の故障だということがわかったのだから、電源の交換だけでよいはずだから、もっと安く修理できるのではないか。なんなら電源部分だけを購入してこちらで取り替えてもいい。」と交渉してみた。すると電源部分だけなら7千円ほどで購入できる、というようなこともわかった。

それにしても、20台ちかく故障が出ているので、ひとつ7千円として20台で14万円もかかってしまう。それにしても、どのコンピュータも同じように電源が故障するとは、これは設計ミスか品質管理に問題があるのではないか、とも思われるほどである。

ところで、実は俺の義理の父は電気技師であり、電気製品の修理に詳しい人である。俺も子供の頃からはんだごてを片手にラジオやロジック回路を組み立てたりしたこともあり、修理の話などを聞き、電気機器やその回路、部品の話などをするのをいつも楽しみにしている。いろいろ聞く話の中で思い出したのが、「電気回路で壊れやすいのは電解コンデンサだ」ということだった。

もしかしたら、壊れた症状が同じならば、壊れた部品も同じものかもしれない。それならば、壊れた部品さえ特定できれば、その部品だけ交換することで直るかもしれない、と俺は思った。そこで電源ユニットを開いてみた。

IMG_1907_mid_640_480

<Fig.4 : 電源ユニットを開けるとそこは埃でいっぱいだった>

電源ユニットの中は見るに忍びない状況だった。埃でいっぱいである。空冷ファンによって空気が外から中に吸い込まれているのだから、こうなる理由はわかる。しかし、それにしてもひどい埃である。これでは故障するのもあたりまえだ、という気がした。

さて、電源ユニットを開けて回路をざっと眺めるのだが、当然、どこがどうなっているかわかるはずがない。故障の原因が電解コンデンサだと見当をつけたとしても、電解コンデンサは基板上に10個以上ある。ちゃんと動く電源から部品を取り出し、ひとつずつ交換するしかない、と思いながらネットで電解コンデンサの故障について調べると、どうやら電解コンデンサが故障するときに、膨張、液漏れ、といった症状を示すらしいことがわかった。

そこで基板上の部品を見ると、確かに膨張し、頂点がもりあがっている電解コンデンサがある。他の電源も開けて比べると、どうやら全部同じ部分の電解コンデンサの様子がおかしい。

IMG_1917_mid_640_480

<Fig.5 : 膨張し頂点がふくれあがった電解コンデンサ>

あらためて電解コンデンサの頭部を見ると、どのメーカーの電解コンデンサも、似たような切り込みが入れてあることに気づく。どうやら電解コンデンサの頭部にバツ印様の切り込みがしてあるのは、膨張したときに目視でわかりやすくするためなのだろう。

そこではんだごてを用意し、様子のおかしい電解コンデンサを取り外し、ちゃんと動いている電源の同じ部分の電解コンデンサを交換して取り付けてみる。すると、ちゃんと電源は動作することがわかった。

IMG_1921_mid_640_480

<Fig.6 : 取り外した不良の電解コンデンサ>

この電解コンデンサさえ交換すれば電源はちゃんと動作し、コンピュータも使えるはずである。そこで同等の規格の電解コンデンサを注文し、交換することにした。

IMG_1865_mid_640_480

<Fig.7 : 交換用の新しい電解コンデンサをまとめて購入した>

この電解コンデンサは、一個70円である。ひとつの電源ユニットには2個の新しい電解コンデンサが必要であるから、修理に要する費用は140円ということになる。

IMG_1867_mid_640_480

<Fig.8 : 交換用の新しい電解コンデンサ>

もともと基盤についていた電解コンデンサより、少し径が大きく高さが低いのだが、基盤には余裕があるので取り付けには問題がなかった。

IMG_1872_mid_640_480

<Fig.9 : 電解コンデンサを新しいものに交換した>

電解コンデンサを新しいものに交換すると、どの電源もちゃんと電気を共有してくれるようになった。20台のコンピュータを修理するのに、一個70円の電解コンデンサが40個、すなわち2800円の費用でできることになる。

もちろん、こうした修理はメーカーの保証外になり、何か他のトラブルがおこるかもしれない。したがってこの方法で修理したコンピュータを、そのまま実運用環境におけるかというと、それは問題があるかもしれない。しかし、一時的な実習に使うなど利用の場面はいろいろ考えられる。予算が乏しく、既存の設備を有効利用する方策を少しでも考えなければならない昨今なのだから。

広告

ネットワークに関するトラブルシューティングの実際(後編)

leave a comment »

ネットワークのトラブルでクライアントPCからファイルサーバーの共有フォルダが見えなくなった、との連絡をうけ、自宅からアドバイスを出しながら担当者にトラブル対応をお願いしていた。「人災」の可能性を考えた俺は、ネットワークのトラブルがおこった時間にネットワークに関して何かした人がいないか調べてみてくれ、とお願いした。すると普段はネットワークに接続していないノートPCを繋いだ人がいることがわかり、調べるとIPアドレスが既存のクライアントマシンと重複していたことがわかった。そこでそのノートPCのIPアドレスを重複のないものに設定しなおしてもらった。

担当者からは「いったん復旧したように思えたのですが、しばらくしてまた使えなくなりました」との報告だった。担当者からはPCからサーバーへPingを試した結果や、実際にクライアントPCから共有フォルダのマッピングがどのように見えているのかをデジカメで撮影した画像などを送ってもらった。このあたりはメールで文章で説明されたり、電話で聞いてもなかなか実際のところがわかりにくい。写真なら一目瞭然だ。

クライアントPCからドメインコントローラーやファイルサーバーなどにPingが正常に届くことがわかっている。またファイルサーバーは他にもあって、クライアントPCのいくつかは他のファイルサーバーの共有フォルダを正しくマッピングしているものもある。「ネットワーク」を開くとドメインを示すアイコンは表示されるものの、ドメイン内にあるはずのサーバーなどコンピュータはごく一部を除いてアイコン表示されていない。こうした中途半端な状態はやっかいだ。担当者は「名前解決の問題ではないでしょうか」と言ってきた。一般ユーザーは「見えない」とか「つながらない」と言うが、管理者としては接続において何が問題なのかを具体的に洗い出さなければならない。IPレベルだけでなく、「名前解決」ができているかどうかは重要だ。

ネットワーク経路のスイッチをチェックしたが、どのスイッチも異常がないようだ。ドメインコントローラーをチェックしてみる。すると確かにネットワークの障害がおこった時間にARPエラーログが記録されている。サーバーを再起動し、テスト用のクライアントPCをサーバー室に持ち込み、ネットワークを切りはずしながらチェックをしようとしていたとき、もうひとつIPアドレスの重複がみつかった。そしてIPアドレスを設定しなおすと、ネットワークの障害は解消された。

結局ネットワーク上に同一IPアドレスのマシンが2台あったことでネットワークのトラブルがおこったことがわかった。原因はきちんとしたIPアドレスの管理ができていなかったことにある。固定IPでネットワークを構成するなら、台帳で正確にIPアドレス管理をするべきであるが、言うは易し行うは難しで今までにも何度かこうしたトラブルを経験している。

まず設定時に不注意で間違ったIPアドレスを設定してしまうことがある。特に大規模なPCの更新時などは、単純作業を繰り返すうちに注意力が散漫になり間違う可能性を防げない。仮に2台同じIPのマシンを設定してしまっても、同時に起動していなければそれぞれは正常に動作するのでわからない。

次に実験的に構築したマシンのIPアドレスを「とりあえず」適当なものに設定してしまうことがある。実験機であってもIPアドレスの管理をするべきなのだが、実験中は思考が実験に向いているのでどうしてもIPアドレスのようなレベルの低い部分については、とにかく使えるようにすることを考えてしまうので、どうしても管理がおろそかになる。そして実験機がうまく動けば、そのまま実運用環境につないでしまったりするので問題になる。こうしていつのまにかネットワーク上に管理上ありえないIPアドレスのマシンが増えていく。

コンピュータを更新した場合もIPアドレスの重複がおこる。古いマシンを新しいマシンに置き換えたとき、新しいマシンを以前のマシンを同じIPアドレスにすることが多い。このとき古いマシンを廃棄すれば問題ないのだが、往々にして古いマシンも用途によってはまだまだ使えるということで、使用頻度の小さいクライアントPCに転用したりしてしまう。このときIPアドレスをそのままにしてネットワークにつないでしまったりする。

ネットワーク上にIPアドレスの重複があったとき、その重複のあるPCだけでなくネットワーク全体、厳密にはブロードキャストドメインにトラブルを与える。

Written by Yoshio Matsumoto

2011年7月16日 at 7:52 AM

ネットワークに関するトラブルシューティングの実際(前編)

leave a comment »

今日は職場でネットワークのトラブルが発生している。あいにく私は現地におらず、メールで連絡をもらった。「ファイルサーバーが見えなくなっています。策はありますか?」という連絡である。連絡をくれた担当者には少し前からActive Directoryの管理をまかせており、ネットワークの基本的な部分は理解しているが実務経験はまだ少ない。さて、どうアドバイスをするか。

俺が勤務する学校のシステム全体はWindows ServerとWindowsクライアントのクライアントサーバーであり、Active Directoryで管理されている。サーバーはドメインコントローラー、ファイルサーバー、その他何台かで構成されており、クライアントPCはWindows XP、Windows Vista、Windows 7が混在している。またネットワーク型のレーザープリンタが数台あり、Windows Serverでプリンタ共有になっており、Active Directoryで公開されている。インターネット接続はプロキシサーバー経由でWeb利用ができるようになっている。

トラブルシュートは実務経験を積むたいへん良い機会だ。俺は現地には行けないので、メールでアドバイスをしながら担当者が自力で解決できるように支援することにした。

まず現状を正しく報告させることにした。「ファイルサーバーが見えない」という報告だが、本校ではファイルサーバーの共有フォルダをWindowsのログインスクリプトでローカルPCのXやYにマッピングしている。一般ユーザーはファイルサーバーを利用するとき、自分のPCの「コンピュータ」を開くと、そこにXやYドライブが見えており、それを開くとファイルサーバーにアクセスするようになっている。「ファイルサーバーが見えない」ということは、おそらく「コンピュータ」のローカルドライブのマッピングができていない、という状況のようだ。担当者にもう少し詳細な情報を教えてくれ、とメールをした。

担当者からクライアントPCからネットワークを開いた画面を携帯で撮影したデータが送られてきた。「コンピュータ」にネットワークドライブのマッピングがない。また「ネットワーク」を開くとドメイン全体は表示されているが、ドメイン内のコンピュータが何も見えない状態になっている。

俺の今までの経験では、ネットワークにトラブルが発生したとき、誰かが何かをした「人災」であることが多い。一般ユーザーがLANケーブルを抜き差しして間違ってループ上にしてしまったとか、ネットワークプリンタの設定をいじってIPアドレスを変更したとか、持ち込みパソコンに勝手なIPアドレスを与えてネットワークに接続したとかである。そこでトラブルがおこった時間が重要になってくる。そしてその時間にネットワークに対して何かした人はいませんか、と聞くのである。多くの場合、本人は自分がネットワークに影響を与えたと思っていないので答えてはくれない。しかし全体に対して注意を喚起する意味でこうした問いかけは重要である。原因が判明してから「あなた、これ、あのときやったでしょ」と言うと、「ああ、そうだったかも」という答えが返ってくることが通常だ。こうした「人災」を少しずつなくしていくためにも、あるいはネットワーク障害の現状を説明するためにも、こうした全体への周知は必要だ。

コンピュータやネットワークのトラブルに限らず、何らかの故障に対応するときには、むやみに調べても効果はあがらない。ある程度原因を推理しながら調査することがいい。では今回のわかっている状況のなかで、トラブルの原因として考えられることは何だろう。次のような原因が想定できることを担当者にメールしてみる。

1.ファイルサーバー自体が故障のため機能しなくなっている。
2.クライアントPCからファイルサーバーに至るネットワークが物理的に途中で途切れている。
3.IPアドレスの重複などTCP/IPネットワークの問題がある。
4.経路上のスイッチなどネットワーク機器の不調。
5.名前解決ができなくなっている。
6.ログオンスクリプトが動かずネットワークドライブのマッピングができていない。

しばらくして担当者に電話で連絡すると、通常はネットワークにつないでいないノートパソコンをネットワークに繋いだ人がおり、そのIPアドレスが既存のデスクトップPCと重複していたことがわかったそうだ。そしてそのノートPCのIPアドレスを変更し、重複を回避したが、それでもネットワークは回復しないという。そこで俺は「そのノートPCがつないであるLANケーブルの先にあるスイッチングハブを見て欲しい。ランプの点き方が異常じゃないか。」と聞いた。すると案の定、スイッチのすべてのランプが点灯しっぱなしになっているとのことだった。そこでいったんスイッチの電源を落とし、しばらくしてから再投入を指示した。すると通常の点滅状態に復旧したようだ。

だがそれでもクライアントPCからファイルサーバーの共有フォルダは見えないという。他のスイッチも調べることを指示して今日の対策は終わった。(続く)

Written by Yoshio Matsumoto

2011年7月13日 at 4:38 PM