SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

直近開催のイベントはこちら!

EnterpriseZine編集部ではイベントを随時開催しております

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けの講座「EnterpriseZine Academy」や、すべてのITパーソンに向けた「新エバンジェリスト養成講座」などの講座を企画しています。EnterpriseZine編集部ならではの切り口・企画・講師セレクトで、明日を担うIT人材の育成をミッションに展開しております。

お申し込み受付中!

マイクロソフト古賀啓一郎の「今月のケースファイル」

トランザクションログファイルが拡張できない

トランザクションログのデータフォーマットを徹底調査

  これまでトランザクションログのデータフォーマットをきちんと調査したことがなかったので、改めて構造をきちんと調べようと思いました。お客様からは、デタッチした時にコピーしたトランザクションログが送られてきていたので、ついでにトランザクションログの内容を確認できるツールを作ることにしました。構造がわかってもバイナリエディタで見るのはさすがにつらいからです。また、障害が発生した時の内容を確認したかったというのも理由のひとつです。というのも、データベースにアタッチすれば、DBCC LOGコマンド等で内容は確認できるのですが、送られてきたファイルをアタッチすると、ファイルのサイズが微妙に変わっていて気持ち悪かったのです。

  ソースコードやらなんやらを調べて理由がわかりました。トランザクションログの先頭8KBは、ファイルヘッダーページと呼ばれるページの構造をした部分だったのです。この部分には、ファイルのサイズやバックアップやリストアに必要な情報が記録されます。BACKUP LOGを行う時に、この部分を読み取ろうとしてstale read detectionに引っかかっていたのです。

  BACKUP LOGが失敗した理由は、これでわかりました。しかし、トランザクションログが拡張できなかった理由については不明のままです。エラーログからはこれ以上のことがわかりそうになかったので、メモリダンプを調査してみることにしました。予期しないBACKUP LOGエラーの延長でassertエラーに引っかかりメモリダンプが出力されていたのです。

 ところが、ざっと調べてみる限り拡張できない理由はわかりませんでした。何か手がかりがないかなぁと考えていた時に、思いつきました。SQL Serverは、飛行機の blackbox recorder のような機能を持っています。Ring bufferと呼ばれる循環型のインメモリ ログバッファーです。ここに何かヒントが記録されていのじゃないかと思って、メモリダンプからリングバッファーの内容を抜き出してみました。

  すると見つかりました。9002 エラー (トランザクションフル) 時のスレッドスタックが大量に記録されているのですが、同様に824エラーも大量に記録されているのです。しかも、それは必ず交互に記録されています。824エラー, 9002エラー,824エラー, 9002エラー,824エラー, 9002エラー…の繰り返しです。

 スレッドスタックをヒントにソースコードを追ってはっきりしました。起きていたのは次のような現象です。

 トランザクションログがフルになったのでログファイルを拡張します。拡張によってファイルサイズが変更になったので、ヘッダーページに保存されている情報、ファイルサイズなどを書き換えようとします。しかし、ヘッダーページの読み込みは、stale read エラーで失敗します。ログファイルを拡張する部分のコードでは、処理途中で何らかのエラーが発生しても特定のエラー以外は捕捉するようになっており、ユーザーにはトランザクションがフルで書き込めませんとしかエラーを返さないのです。つまり、すべてのエラーは stale read の824エラーがきっかけだったのです。

 824エラーが発生した理由については不明です。SQL ServerがI/Oを発行した後は、処理を下位のレイヤー(OSやストレージなど)にゆだねるしかないので、できるのはエラーを検知することだけです(*)。もちろん、不具合でエラーを誤検知する可能性もあるのですが、もしそうであれば、もっと頻繁に発生していてもおかしくない気がします。

(*)ハミングコードのようなエラーコレクションは考えられるのですが、SQL Serverはリトライというアプローチをとります。

 824エラーなどの破損系エラーは厄介なエラーです。完全にハードウェアが壊れているような場合はよいのですが、1ビット反転しただけとか、何か電気系統が一時的におかしかっただけじゃないの?みたいなことがあります。SQL Serverは、824エラーなどのハードウェアエラーを検知すると、何度か読み込みをリトライしたりデータベースを再起動したりしますが、その結果、処理が正常に終了したということもあります。

 とはいえ、破損系エラーに備えて、きちんとバックアップを取っておきましょう!ちなみに、可用性グループを構成していれば、ファイル破損が発生しても自動修復してくれるかもしれませんよ!

この記事は参考になりましたか?

  • Facebook
  • Twitter
  • Pocket
  • note
マイクロソフト古賀啓一郎の「今月のケースファイル」連載記事一覧

もっと読む

この記事の著者

EnterpriseZine編集部(エンタープライズジン ヘンシュウブ)

「EnterpriseZine」(エンタープライズジン)は、翔泳社が運営する企業のIT活用とビジネス成長を支援するITリーダー向け専門メディアです。データテクノロジー/情報セキュリティの最新動向を中心に、企業ITに関する多様な情報をお届けしています。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

EnterpriseZine(エンタープライズジン)
https://enterprisezine.jp/article/detail/5910 2014/06/11 00:00

Job Board

AD

おすすめ

アクセスランキング

アクセスランキング

イベント

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング