データの「代表値」とは

平均値・中央値・最頻値を算出する方法
複数のデータがあるとき、そのデータ全体の傾向や特徴を1つの数値で表すことができます。この数値を「代表値」といいます。代表値で最もよく知られているのが「平均値」。
たとえば、下図のようなテスト結果のデータがあったとき、パッと見ただけではただのデータの羅列でしかありません。そこで、平均値を求めてみると、前回の平均値と比較するなどして、「テスト結果全体の水準」を把握することができますし、特定の点数が「テスト結果全体のどの位置にあたるか」といったことも確認できます。平均値を算出すれば、データ全体の傾向などが把握できるというわけです。

代表値を使用すれば、データ全体の傾向や特徴を把握できる
代表値には様々な値がありますが、ここでは、「平均値」「中央値」「最頻値」の3つについて、Excelを使用した算出方法やそれぞれの使い方などを解説していきます。
今回紹介する関数
平均値を算出するには「AVERAGE関数」
平均値は、ご存知の通り、「すべてのデータの合計値」を「データの個数」で割った値ですね。Excelでは、AVERAGE関数を使用して算出できます。
AVERAGE関数の入力
平均値を使用するときに注意すべきポイント
平均値を算出する際、データの中に「極端に大きい数値」や「極端に小さい数値」があるときは注意が必要です。こういった極端なデータを「外れ値」といい、平均値はこの外れ値の影響を受けやすい、という欠点があります。たとえば、下図のテスト結果の場合、平均値は「627.5」となります。しかし、よく見てみると、主なデータは「530~655」の範囲にあり、「875」や「940」が極端に大きくて影響を及ぼしているようです。この外れ値を除いて平均値を算出してみると「571.5」となり、合点がいきますね。これらの平均値を比較してみると、先に算出した平均値「627.5」が「外れ値側」に寄ってしまっていたことがわかります。
このように、平均値を使用してデータ全体の傾向を把握するときは、ただ算出するだけでなく、外れ値の影響についても考慮する必要があるのです。

平均値は外れ値の影響を受ける
※ExcelのTRIMMEAN関数を使用すると、外れ値の影響を除いた平均値を算出できます。
中央値を算出するには「MEDIAN関数」
「中央値」は、データを昇順または降順に並べたときに「ちょうど真ん中にくるデータ」のことです。データの個数が偶数だった場合は、中央の2つのデータの平均値を中央値とします。Excelで中央値を算出するにはMEDIAN関数を使用します。
MEDIAN関数の入力

中央値が算出された
中央値は並べ替えた「位置」によって代表値を算出するため、「数値計算」によって代表値を算出する平均値と比べて、外れ値の影響を受けにくい性質を持っています。したがって、データの中に外れ値がある場合は、中央値を使用してデータの中央位置を把握するとよいでしょう。
サンプルのデータを見てみると、中央値は「570」となりました。外れ値の影響を除いた平均値が「571.5」だったので、今回の場合、中央値が外れ値の影響を受けていないことがわかります。

中央値は外れ値の影響を受けにくい
なお、平均値と中央値がほぼ同じであれば、データの中に外れ値がないと判断することもできます。また、平均値が中央値より小さい場合は「小さな数値の外れ値」、大きい場合は「大きい数値の外れ値」が存在することを表しています。サンプルデータの平均値「627.5」は、中央値より大きいので、「大きい数値の外れ値」があることを示しています。

サンプルでは中央値より平均値の方が大きい
最頻値を算出するには「MODE関数」
「最頻値」は、その名の通り、データの中で「最も頻繁に現れるデータ」のことです。最頻値を算出すれば、データが「どの辺りに集中しているのか」を確認することができます。Excelで最頻値を算出するにはMODE関数を使用します。
MODE関数の入力

最頻値が算出された
なお、「A,B,C……」といった数値以外のデータの代表値を求めたいとき、数値計算や数値の大小によって求める平均や中央値は算出できないため、最頻値を使用します。
代表値をまとめて算出することもできる
今回紹介した平均値・中央値・最頻値ですが、それぞれの関数を使用せずに、まとめてワークシート上に算出することも可能です。まず、「ファイル」タブ→「オプション」をクリックしてください。
※Excel2007の場合、画面左上の「Office」ボタン→「Excelのオプション」をクリックしてください。
表示された「Excelのオプション」ダイアログボックスで「アドイン」を選択して、「設定」ボタンをクリックします。

「アドイン」を選択して「設定」ボタンをクリック
表示された「アドイン」ダイアログボックスで「分析ツール」にチェックを付けて「OK」ボタンをクリックします。

「分析ツール」にチェックを付けて「OK」ボタンをクリック
「データ」タブをクリックして、「分析」タブにある「データ分析」ボタンをクリックします。

「データ分析」ボタンをクリック
表示された「データ分析」ダイアログボックスで「基本統計量」を選択して「OK」ボタンをクリックします。

※Excel2003では、「ツール」メニュー→「分析ツール」をクリックして「データ分析」ダイアログボックスを表示し、この画面から操作してください。
表示された「基本統計量」ダイアログボックスで、「入力元」の「入力範囲」に計算対象のセル範囲を設定し、「出力オプション」で「出力先」と出力先に指定したいセル番地(ここではセルD2)を設定して、「統計情報」にチェックを入れて「OK」ボタンをクリックします。

「基本統計量」ダイアログボックスの設定
基本統計量が算出されました。平均値、中央値、最頻値が算出されていますね。

基本統計量が算出された
【関連記事】