昨日、出社して朝のコーヒータイムを遂行していたところ、
担当しているシステムのひとつからTELが入ってきた。
ちなみにこの中規模イントラシステムは
画面300枚程度のWebが1つと、
百数十のバッチからなるものなんだけど、
とにかく問題が多く、多いときで1日に20回ほど
運用から電話が入る。
で、電話の内容はこれまたいつもの通り、
「Webの反応が悪い。常駐サーバアプリも重い」
とのことで。
ま、いつもの通りいくつかのDBテーブルの
IndexRebuildかAnalyzeかけりゃ大丈夫だろう と思っていたが
30分後にシステム全体が止まった というから
こりゃーまいった。
つーことで現場にふっ飛んでいったのだが、
Webやバッチやら各アプリがほとんどみんな
Oracleエラーで落ちてる。
エラーは ORA-00020 最大接続数を超えた だとか。
ここ2〜3週間、PG入れ替えは一切していないし、
ダメダメクエリも大概潰した筈。原因がわからん。
V$SESSIONの本数はいつもと変わらず30本程度
しかし、V$PROCESSが149本もある。
初期化パラメータPROCESSは150だから、MAXまで使ってる。
SESSIONが多発している場合、不要なものをKILLしていけば
とりあえず何とかなるが、PROCESSは殺せない とおもう。
どーにもわからんので、仕方なく SHUTDOWN IMMEDIATE
5分経過しても反応なし。
もう、しゃーない っつーことで SHUTDOWN ABORT
5分経過しても反応なし。
もちろん、サービスからインスタンスの停止も出来ん。
最終手段でDBサーバ再起動。
起動が完了すると、とりあえず各アプリは動作をしはじめた。
これで大丈夫だろー つーことで、再度 V$PROCESSをチェックすると
早くも100本超え。
110、120、130、140 あ、また死んだ。
その後、原因調査とともに、
・PROCESS最大値を300にしてSGA調整
・インスタンス再起動
・空いたセッションをかたっぱしからKILL
を繰り返すも、どうにもならん。
alert_logに情報はあがってないが、とりあえず
エキスパートに解析を依頼してみよー
ってことで、 C:ドライブにあるalert_logを
一旦デスクトップにコピー・・・
ファイルサイズは50MB弱だし一瞬でコピー終わるはずが
Explorerの出したダイアログでは、「残り4分」
ありえん・・・。
コピー終わるまでに本当に4分程度かかりやがった。
これはもしやSCSIディスクが破損し、REDOのIO待ちで
Oracleが遅くなってるのか?
ということでディスクの調査を現場に依頼したが
問題なしとのこと。CHKDSKもエラーを吐かない。
時間は既に18:00 昼飯抜きだ
こりゃー徹夜しても明日動かせる保障はねーな
と、土下座を覚悟していたところにTEL1本
「どーやらServerProtectが悪さしているらしい」
そーいや、全部のサーバにTrendMicroのServerProtectが
入っていたような・・・。
早速Webで確認すると でてきた。
トレンドマイクロのサポートページの下のほうに
「ウイルスパターンファイル4.995.00への
アップデート後に発生する現象についてのお知らせ」
内容は、他のBLOGとかで書かれてるんで省略
とりあえずパターンを最新対策版に更新したら
一発直りました。
問題のパターンファイルのリリースが13日の0時
対策版(?)が同日朝6時頃リリース
端末PCは朝一更新なので対策版をダウンロードしていたが、
サーバは1日1回、1:00頃の更新なんで、
不具合版をまともに食らってしまった。
隣のシステムはダイジョーブだったのか?ということで
確認してみると、Oracleのディレクトリは除外設定されてた。
これは、うちの鯖管が悪いのか、
それともトレンドか?
13日は、昼飯食えなかったSEが全国でどれだけいたのか・・・?
ま、とりあえず復旧してよかった。
久々のひとりごとでした。

0