ふろむぜろぽいんと

社会人留学してしまいました。

スポンサードリンク

TOEIC®は何点ならスゴイと言えるか?統計データから見る

これまでさんざん従来のTOEIC®試験を叩いておいてなんだが、このテストが英語試験として日本で広く使われている現実に立ち返り、「何点を目指せばいいのか」「何点だったらスゴイといえるのか」を統計データから考えたい。

まず、参考までにTOEIC®の公式ページが公開している得点分布データを引っ張ってみる。(2016年1月度) 

f:id:takeshizm1:20160720203149p:plain

出典:ETS. (n.d.). TOEIC® スコア分布 詳細 (第207回). Retrieved July 20, 2016, from http://www.toeic.or.jp/toeic/about/data/data_avelist/data_dist01_10.html

さて、このなかで「何点とればスゴイのか」を考えてみる。

結論は中段以降に書いてあるので、せっかちな人は読み飛ばしてかまわない。

並外れた人になる方法

ふたつの単純なアプローチを考えた。
①経済学の「パレートの法則 (80対20の法則)」
②統計学の「正規分布

どちらも有名なものなので馴染みのある方も多いだろう。

いちおう簡単におさらいすると、

パレート法則

別名は 80:20の法則とかニハチの法則とか、多数ある。
もとはイタリアの学者パレートが富の分配について「上位20%の人が全体の80%の所得を握る」という現象を述べたもの。それが転じて「この世のいろいろな現象を説明できる経験則」として応用されたもの。

たとえば…「ある企業の売り上げの80%は、売上上位品目20%から生み出されている」「あなたの仕事の成果の80%は、仕事時間の20%の大事な活動から生み出されている」→だからこの20%にフォーカスしましょう、ということだ。

さらに拡張して、「2:6:2の法則」なんてのも、ここから来た概念だ。たとえば、社員は2割の優秀な人・6割の普通の人・2割のダメな人に分類される、といったものだ。

もちろんこれは経験則でしかないし、当たっていないことも多い。でも、すばやく物事を考えるヒントとして使われている。

正規分布

人間の身長の統計だとか、この世の事象の多くは、以下のような山なりのグラフの分布になるということ。そしてこの分布にはいろいろと特徴がある。

f:id:takeshizm1:20160720200042p:plain

出典:正規分布 Wikipedia. (n.d.). Retrieved July 20, 2016, from https://ja.wikipedia.org/wiki/正規分布

標準偏差(記号σ)

本題の前に、標準偏差という大事な用語がある。これはデータの分散度合いを示すもので「”各データの平均との差” の平均」だ。難しくはない。

たとえば生徒100人の身長のデータがあり、「平均は170㎝で、標準偏差 5㎝」だとしよう。
A君が176㎝、B君167㎝、C君180㎝ だとすると →A君は平均値から6㎝の差、B君は平均値と3cmの差、C君は平均値から10㎝離れている…こんな具合に、各自が平均値からどれだけ離れているかをみたところ、平均で5㎝離れていた、という意味だ。標準偏差が1㎝ならば平均近くの人が多いということだし、10㎝ならもっと各自バラバラだということになる。

★この「正規分布」になっているデータにおいては、この「平均との差が標準偏差(σ)以内に収まっている人たち」だけで、全体の約68%(68.27%)になるのだ。
この例でいえば、生徒のうち68%は、平均値170㎝ からプラスマイナス5㎝ 以内だ、つまり165㎝~175㎝ のあいだである、という意味だ。のこりの32%が、もっと低い人と、高い人だ。もっと言えば、正規分布は左右対称だから、16%が低い人(165㎝以下)、16%が高い人(175㎝以上)だ。

★さらに正規分布では、「平均との差が標準偏差の2倍(2σ)以内に収まっている人たち」だけで、全体の約95.45% になるのだ。のこりの4.5%が、そこに収まっていない人、上の例でいえば身長が160cm以下の人や、180以上の人だ。(この例では標準偏差σは5㎝なので、”2σ”は10㎝だ)。分布は左右対称だから、それぞれ高いほうも低いほうも約2.22%ずつだ。

★さらに、「平均との差が標準偏差の3倍(3σ)以内に収まっている人たち」までみていくと99.73%の人が含まれる。逆にそこから外れる人は約0.27%しかいない。この例だと、身長155㎝以下とか、身長185㎝を超えている人はそれくらいしかいないことになる。分布は左右対称だから、それぞれ高いほうも低いほうも約0.13%ずつだ。

このほか、この正規分布を累積グラフに直すと、マーケティングの世界でいう成長曲線みたいなS字カーブになったりと、面白い。
だがそもそも「データの分布が正規分布じゃないものには適用できない」ことが前提だ。
たとえば、データが横一線になる分布だとか、高いほうと低いほうに山がふたつできる分布などもあるからだ。

※余談だが学校の偏差値も、得点の分布を、”平均が50で標準偏差が10”になる正規分布にしたときの位置だ。だから60を超えていたら上位16%ということだ。

目標スコアの算出方法

上記2つのアプローチで見てみたい。

①パレート法則による目標スコア
テストの上位2割の人だと何点か?2割の人のそのまた2割の人=上位4%の人を目指すと何点以上か?
シンプルすぎて、統計の専門家が聞いたら卒倒しそうだ。でも大半の普通のビジネスマンにとっては、19%か20%かなんて誤差の範疇だ。「上位2割」と0.1秒で決断して始めるほうがトクをすることが多い。

②正規分布上の、外れ値(outlier)をめざす目標スコア:
ーもちろん”高い側”への外れ値をめざす目標スコア。
述べたとおり、平均値から2σ離れた上位の人は2.22%でありそれは何点か?平均値から3σ離れた上位の人は0.13%で、それは何点か?。

なぜ2σ や 3σ が”区切り”なのか、なぜ2.5σとか3.2σとかじゃないのか?には、確固たる根拠がない。統計のプロはいくつか異常値の算出法を使うらしいが、絶対の正解はないらしい。
2σや3σは、現実社会では「外れ値の目安」として実務でつかわれている。僕の前の会社でも品質管理に使っていた。だから人為的とはいえ、意味がある数字だ。

 

外れ値=outlier、アウトライアーという言葉の響きも、けっこう良いでしょう。
アウトライアーといえば、マルコム・グラッドウェル博士が書いた有名な本のタイトルでもある。「一万時間のトレーニングを積めば誰でも突出した天才と言われるレベルに達する」という研究結果を書いた本で、日本でも「天才!」というタイトルで有名になった。


そもそもTOEICの分布は正規分布なのか。

ありがたいことに、すでにTOEIC®の分布を分析してくれている人がいらっしゃる。
データマイニングや統計学に精通した方のようだ。

f:id:takeshizm1:20160720203026p:plain


出典:Sudillap. (2013, April 12). TOEICのスコア分布は正規分布に従っているのか. Retrieved July 20, 2016, from http://sudillap.hatenablog.com/entry/2013/04/12/223031

そう、結論からいえば「正規分布になっていない」のだ。

でも、あきらめるのはまだ早い。
正規分布にならない原因は、おそらく「990点より上の実力を測る方法が無いから、990以上の実力の人が全員990点になっている」からだ。

そこを除外して観察すると?ちゃんと山型のグラフになっている。
そもそも、TOEIC運営側のETSが正規分布を仮定している
だから上記のアプローチが使えないわけじゃない。


本当はもっと実力があるのに「990点どまり」だった人がいる…となると、スコアにあらわせない”実力の平均”は、スコアの平均よりも高いのかもしれない。
だが、実力の平均スコアや中央値が不明だとしても、いまは問題ないのだ。
だって、今回はスコアを上から数えるだけだもん。
平均がどこにあろうが、とにかく正規分布だとわかっていれば、スコア上位からかぞえて2.22%が「2σ を超える”外れ値”=特別デキる人」であることに変わりはない。

つまり本来は正規分布しているという「仮説」に基づけば、
上位16%(1σを超える)、上位2.22%(2σを超える)、上位0.13%(3σを超える)という「目標」が成り立つ

 

根拠ある目標スコア

TOIEC®の詳細なスコア分布は?

ETSが公開しているスコア分布は、区切りが大雑把だ。

前述のブロガーさんが、さらに次のように詳細なスコア分布を「推定」されている。

sudillap.hatenablog.com
出典:Sudillap. (2013, April 12). TOEICで満点(990点)を取った人は何人か?. Retrieved July 20, 2016, from http://sudillap.hatenablog.com/entry/2013/04/12/215713 

この仮説をありがたく使用させていただく。
ここから、上位○○%に入るために何点が必要なのかを推定する。

「アウトライアー」になるための目標スコア

パレートの法則では:
 740 で、上位20%以内
 895 で、上位20%のさらに上位20%以内(上位4%)

正規分布の統計則では:
 770 で、上位16%(1σ)以内
 925 で、上位2.22%(2σ)以内 =アウトライアー

そして「3σ越えのアウトライアー(外れ値)」になりたかったら、スコア 990点満点を取得し、満点取得者たちのなかのさらに上位40%になる必要がある。これを測定する方法はいまのところ無い。(というかこれ以上TOEIC®やる意味もない)

スピーキング&ライティングテストの目標は?

TOEIC®には、現在はまだ受験者が少ないスピーキング&ライティングという「話して、書く」試験がある。ご存じない方は以下を参照してほしい。

www.fromzeropoint.com

スピーキング&ライティングテストのほうも、スコア分布が大雑把に公開されている。ただし受験者数自体が少ないのでサンプルは不足かもしれない。

f:id:takeshizm1:20160720205006p:plain

f:id:takeshizm1:20160720204644p:plain

出典:ETS. (n.d.). スコア分布 詳細 (2016年1月17日). Retrieved July 20, 2016, from http://www.toeic.or.jp/sw/about/data/data_avelist/data_dist01_01.html

ざっくり上位2割か、1σ超え=上位16%を目指すとすると:

パレート法則では:
 スピーキング145、ライティング164 で上位20%
 →しかし10点刻みなので結局は 150点と、170点 だ。

正規分布の統計則では:
 スピーキング150、ライティング170 で上位16%(1σ)

※正規分布ならば、平均と標準偏差がわかっていれば、何%の人が何点なのか?が計算ができる。エクセル・NORMDIST関数 でググってほしい。

f:id:takeshizm1:20160721004954j:plain

ところでこの試験は、TOEIC®700以上の人におすすめだ、とされている。
つまり受験者する人自体がすでに「上位25%」の人の可能性がある(会社から言われてしぶしぶ団体受験する人は別か)。
「受験した時点ですでに上位25%なのだ」と仮定したら、全体の上位2.2%(2σ越え)以内に入って”アウトライアー”になるためには、このスピーキング&ライティングテストで上位8.8%に入ればいいことになる。(25% × X% = 2.2%。X≒ 8.8% )

そうすると、スピーキング 160点以上(できれば170)ライティング180(できれば190)が取れたら「実質」3σ越えのアウトライアーだ。

以上だ。

 

繰り返すと、TOEIC®のばあい、
2割8割法則の上位2割の仲間入りをするのが740点。
1σ越えが770点。
上位2割のそのまた上位2割は895点。
925点で2σ越え、外れ値アウトライアーの仲間入りだ。
疑う余地のない真のアウトライアー、3σ越えは990点とることが前提だ。


とにかくスコアは高ければ高いほどいい!なんて目標よりも、このような具体性と根拠のある目標のほうが人は頑張れるはずだ。

まあ、人に話したときのインパクトを考えると、キリ番の800とか900でもいいのだけれど。

今回、まるで中国や韓国の学生みたいに、スコア命・競争命…みたいなエントリになってしまった。参考までに、いままで僕が、TOEIC®スコアが高くても英語は話せないと叩いてきた理由は以下のとおりだ。

www.fromzeropoint.com

  ※注

英語でいうoutlierは「外れ値」というより、データから排除すべき「異常値」という文脈で使われることも多いです。たとえば勉強時間と成績の関係を見たときに100時間勉強して0点ならマークミスした人かもしれず、実力の傾向を測るのには邪魔なデータです。ただ、外れ値か異常値かの境目を決める定説がないそうなので、かまわずこの用語を使います。