IBM SPSS Boosttrapping

検定・集計の手法についてご紹介します。

Tool より信頼性の高いモデルを作成し、より高精度の結果を生成

IBM SPSS Bootstrapping は、分析モデルの信頼性と生成される結果の精度を検証する効率的な手段となります。記述、平均、クロス集計、相関、回帰など、SPSS Statistics 製品ファミリーの随所で使用される分析モデルとプロシージャーの安定性を検証するために使用できます。

SPSS Bootstrapping では、次のことが可能です。

  • 元のサンプルから復元再抽出することで、推定量のサンプル分布を素早く簡単に予測します。
  • 母集団内の存在をより正確に表すための、データ・セットの代替バージョンを多数作成します。
  • 外れ値と異常値の影響を排除して、モデルの安定性と信頼性を確保します。
  • 平均値、中央値、比率、オッズ比、相関係数、回帰係数など、母集団パラメーターの標準誤差および信頼区間を推定します。

Screenshot SPSS Bootstrappingの画面イメージ

記述表

記述表には、統計値と、その統計値のブートストラップ信頼区間の値が入っています。平均値のブートストラップ信頼区間の値 (86.39、105.20) がパラメトリック信頼区間の値 (86.42、105.30) とほぼ同じであることからすると、標準的な従業員のこれまでの経験年数はだいたい 7 年から 9 年だということが分かります。ただし、「Previous Experience (months)」には傾斜分布値が入っているので、標準的な従業員の現在の給与に関する指標としては、平均値よりも中央値のほうが望ましいと言えます。

比率の信頼区間 -「Statistic」列

「Statistic」列には、通常、元のデータ・セットに基づく頻度分析によって生成される値が入ります。「Bootstrap」の各列はブートストラッピング・アルゴリズムによって生成されます。

  • 「Bias」の値は、ブートストラップ・サンプルを対象にしたこの統計の平均値と、「Statistic」列の値の差異です。この場合は、1,000 件すべてのブートストラップ・サンプルについて先月のチャーンの平均値が計算され、次にそれらの平均値の平均値が計算されます。
  • 「Std. Error」は、1,000 件のブートストラップ・サンプルに関する先月のチャーンの平均値の標準誤差です。
  • 95% のブートストラップ信頼区間の下限値は、先月のチャーンの 25 番目と 26 番目の平均値の補間値です (1,000 件のブートストラップ・サンプルが昇順でソートされている場合)。 上限値は、975 番目と 976 番目の平均値の補間値です。

比率の信頼区間 -「Frequency」表

「Frequency」表には、各カテゴリーのパーセント値 (比率 × 100%) の信頼区間の値が入るので、すべてのカテゴリー型変数で使用できます。

比率のブートストラップ

「Std. Error」列を見ると、「Intercept」などの係数のパラメトリック標準誤差がブートストラップ推定値に比べてあまりにも小さくなっているので、信頼区間が広くなっています。また、[minority=0] などの係数では、パラメトリック標準誤差があまりにも大きくなっている一方で、ブートストラップの結果で報告されている 0.006 という重要度の値は 0.05 を下回っており、マイノリティーの従業員とそうでない従業員との間に見られる給与上昇の差が偶然ではないことが分かります。