SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

最新イベントはこちら!

Data Tech 2024

2024年11月21日(木)オンライン開催

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けの講座「EnterpriseZine Academy」や、すべてのITパーソンに向けた「新エバンジェリスト養成講座」などの講座を企画しています。EnterpriseZine編集部ならではの切り口・企画・講師セレクトで、明日を担うIT人材の育成をミッションに展開しております。

お申し込み受付中!

EnterpriseZine(エンタープライズジン)

EnterpriseZine編集部が最旬ITトピックの深層に迫る。ここでしか読めない、エンタープライズITの最新トピックをお届けします。

『EnterpriseZine Press』

2024年秋号(EnterpriseZine Press 2024 Autumn)特集「生成AI時代に考える“真のDX人材育成”──『スキル策定』『実践』2つの観点で紐解く」

マイクロソフト古賀啓一郎の「今月のケースファイル」

根深かったNUMAの問題 Part 1


 ある日、お客様から「SQL Server 2012が異常な動作をする。」と報告を受けました。パフォーマンステストをしていると、突然、急激なメモリの確保と解放が発生し、この間ユーザートランザクションのスループットが低下してしまうらしいのです。

案件の概要

 ある日、お客様から「SQL Server 2012が異常な動作をする。」と報告を受けました。パフォーマンステストをしていると、突然、急激なメモリの確保と解放が発生し、この間ユーザートランザクションのスループットが低下してしまうらしいのです。SQL Serverは、本来、必要に応じて徐々にメモリを確保していきます。しかし、ユーザートランザクションのラッシュをかけている最中、突如、暴走したかのようにSQL Serverが急激なメモリの確保・解放を行い始めるのです。 

「こ、これは!」

 テストフェーズだったということもあり、お客様には現象発生時のXPerfと完全メモリダンプを採取してもらいました。しかし、XPerfのログは、なぜかモジュールのアドレスに関する情報がとれておらず、デバッグシンボルとマッチングできずうまく解析できませんでした。ホットスポットになっている関数名はわからなかったのですが、sqldkというdllの名前だけは記録されていて確認できました。Sqldk.dllは、SQLOSが実装されているモジュールです。メモリアロケーションは、SQLOSの仕事なのでsqldk.dllの部分に何か問題があるというのは間違いなさそうです。

 メモリダンプをのぞいてみると、ユーザートランザクションを実行中のスレッドがメモリアロケーションの最中だったということがわかりました。通常、SQL Serverのメモリアロケーションは、それほど時間を要すことはないので妙です。また、リソースモニターと呼ばれるスレッドが並行してaway blockと呼ばれるメモリを解放している最中であることもわかりました。Away blockとは、メモリアロケーションをしたスレッドが、ローカルのNUMAノードからメモリを確保できなかった場合に退避しておくメモリ領域です。

 どうやら今回の現象は、メモリアロケーションでローカルノードからのメモリ確保に失敗していることが関係していそうだということがわかりました。パフォーマンスカウンターを確認すると利用可能なメモリはたくさん余っているので、そもそも、ローカルノードからメモリを確保できないケースってどういう時なんだろうと思い、カーネル側のソースコードをのぞいてみました*

 *お客様は、Windows Server 2008にSQL Server 2012をインストールしていたので、確認したのはWindows Server 2008のコードです。

 10~15分くらい眺めて、思わず「こ、これは..」とつぶやいてしまいました。Windowsはメモリをいくつかの種類に分けて管理しています。利用可能なメモリは、Free Page, Zero Page, Standby Cacheと呼ばれるメモリの合計です。これらのうち、Free Pageと Zero Pageは、NUMAノード毎に管理されているのですが、Standby Cacheについては、NUMAノード単位で管理されていなかったのです。

次のページ
何が起きていたか

この記事は参考になりましたか?

  • Facebook
  • X
  • Pocket
  • note
マイクロソフト古賀啓一郎の「今月のケースファイル」連載記事一覧

もっと読む

この記事の著者

古賀 啓一郎(コガ ケイイチロウ)

日本マイクロソフト株式会社勤務。きままなエンジニア。
謎があると解決せずにはいられない性格。
週末は家事に従事。 

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

EnterpriseZine(エンタープライズジン)
https://enterprisezine.jp/article/detail/6116 2014/09/19 13:51

Job Board

AD

おすすめ

アクセスランキング

アクセスランキング

イベント

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング