基本的な統計関数(平均と度数分布)
平均はデータ分析のもっとも基本的な方法といってもよいでしょう。平均を求めるにはAVERAGE関数を利用します。

しかし、平均で求められる結果は、データに含まれる外れ値のせいで実態を正しくとらえていないことがあります。このような誤りを防ぐ方法の一つが、データの度数分布を見て外れ値の存在を見抜くことです。度数分布とは、データの値を等間隔の階級に分け、それぞれの階級に含まれるデータの数を計算したもののことです。度数分布を求めるにはFREQENCY関数を利用します。

FREQENCY関数で求められた度数分布から外れ値の存在を発見できる場合があります。
上の例でいえば、ひとつだけ飛び抜けて大きな値(150)があるため、全体の平均(85.6)を大きくしていることになります。このような外れ値を含まないデータで計算される平均がより実態に近いものといえます。外れ値を除外したデータの平均(81.6)を求めるにはAVERAGEIF関数を利用します。

FREQENCY関数で求められた度数分布を棒グラフにしたものをヒストグラムと呼びます。ヒストグラムの形状は、外れ値を含まないデータの場合、平均の値を中心として左右対称の山の形になります。統計学では、これを正規分布と呼びます。この正規分布の横軸を確率変数と呼び、縦軸は山の面積を1とした場合に確率変数がその値となる確率となります。

ヒストグラムを作成して度数分布を見たときに、山の形が正規分布に従っていない場合、外れ値の存在を疑う必要があります。