2011年01月07日

◆ べき分布と正規分布

 統計的な分布というと、正規分布がよく知られている。だが、現実の世界に見出されるのは、べき分布であることが多い。では、なぜか? ──
 
 統計的な分布というと、正規分布が知られているが、それとはまったく違いものとして、べき分布というものがある。 
 べき分布とは、平均値からハズれたものが、かなり長く延びている形だ。「1/x」という反比例の形にも似ている。下記の図を参照。

beki.png
( 出典 : Wikipedia 「べき乗則」


 正規分布とべき分布の比較は、次のサイトでも図形の比較が見える。
  → 正規分布とベキ分布

 ──

 「正規分布とベキ分布」という話題は、経済物理学 の分野で話題になったことがある。金融工学で用いられるブラック=ショールズ式は、正規分布を前提としたモデルに従っているが、現実の分布はべき分布なので、ブラック=ショールズ式はもともと当てにならない、というような話題だ。
  → 池田信夫ブログによる解説 (元ネタは 高安秀樹の著作

 Wikipedia にも、簡単な解説がある。
 初期の金融工学では、原資産の価格変化率の分布が対数正規分布に従い、裁定機会が存在しないなどの仮定の上で、オプションの理論価格を導くことができた(ブラック・ショールズ方程式)。あくまで、数学的に扱いやすいから正規分布としている。金融工学は、時間が明示的に入っているため動学的な理論であると言えるが、実際の価格変化率の分布はパレート分布(ベキ分布)に従うため、現実的なモデルとは言えない。
( → Wikipedia
 ──

 これらの解説をいろいろと読むとわかるが、この世界には、正規分布よりも、べき分布に従う例が多い。
 冪乗則関係は、驚くほど多くの自然現象の形態(関係)を記述する。たとえば、重力やクーロン力のような逆二乗の法則は冪乗則である。また、円の面積における自乗比例の法則など多くの数学的な公式も冪乗則である。同様に、多くの確率分布は、漸近的に冪乗則関係に近づくテールを持つ。こうした冪乗則は、株式市場の崩壊や大規模な自然災害のような極端にまれな頻度だと考えられる、極値理論と強いつながりがある。
( → Wikipedia
 特に、ITの分野では、ロングテールという言葉とともに語られることが多い。
 べき乗則に従う商品売り上げのグラフを、縦軸を販売数量(population)、横軸を商品名(product)として販売数量順に並べると(右図)、あまり売れない商品が恐竜の尻尾(tail)のように長く伸びる。つまり、販売数量が低い商品のアイテム数が多いということを表す。
ロングテールはオンライン小売店の一つであるAmazon.comを例に用いるとわかりやすい。一般的に、ある特定の分野における売り上げは上位の20%が全体の80%を占めるという冪乗の法則(あるいは、20と80に限ってはいないがパレートの法則)に従っているとされている。
 今までのオフライン小売店では在庫の制限などでこの上位20%に当たる商品を多く揃えなければならず、その他(80%)は軽視されることが多かった。しかし、Amazon.comなどのオンライン小売店は在庫や物流にかかるコストが従来の小売店と比べて遥かに少ないので今まで見過ごされてきたこの80%をビジネス上に組み込むことが可能になり、そこからの売り上げを集積することにより新たなビジネスモデルを生み出した。
( → Wikipedia
 また、「パレートの法則」または「80対20の法則」という言葉で説明されることも多い。
  ・ 商品の売上の8割は、全商品銘柄のうちの2割で生み出している。
  ・ 売上の8割は、全従業員のうちの2割で生み出している。
  ・ 仕事の成果の8割は、費やした時間全体のうちの2割の時間で生み出している。
  ・ 故障の8割は、全部品のうち2割に原因がある。
  ・ 所得税の8割は、課税対象者の2割が担っている。
  ・ プログラムの処理にかかる時間の80%はコード全体の20%の部分が占める。
  ・ 全体の20%が優れた設計ならば実用上80%の状況で優れた能力を発揮する。
( → Wikipedia ) 
 さらには、人生論と絡めて説明されることもある。次の著作のように。
  → 人生を変える80対20の法則

 以上のように、べき分布は、さまざまな場面で出現する。
 たとえば、地震もそうだ。
   → 地震の確率?(べき分布)

 ────────────

 ここで、問題が出る。
 「べき分布がそれほどにも多く現れるのは、なぜか?」
 「べき分布を生み出す根源的な原理は、何か?」

 この問題に、以下で答えよう。

 ──

 まず、正規分布とは何か? それは、次のように言える。
 「ランダムな動きをなすものの統計的な分布」


 基本的には、熱運動をする気体分子の分布だと考えていい。(ボルツマン分布から正規分布へ、という流れ。)
 要するに、気体分子のようにバラバラなものが、バラバラに勝手に拡散すると、正規分布の形になる。

 では、べき分布はどうか? おおむね、次のことが成立する。
 「どのような二つの階層を取っても、階層差が一定であれば、そのエネルギー比率は一定である」

 ここで、階層差は「8:2」になるような階層差を取る。そうすると、
 「2割の上位者が、8割のエネルギーを占める」
 というような関係が、常に成立する。
 そして、その核心は、「8:2」という比率そのものではなくて、
 「どのような階層でもその比率が常に成立する」
 ということだ。つまり、
 「どのような階層でも、常に相似な関係がある」

 ということだ。
 要するに、べき分布の本質は、それぞれの階層における「相似」という性質なのだ。

 ──

 では、「相似」という性質は、どこから生じたか?
 このことは、正規分布と比較することで、判明する。
 正規分布は、気体分子のようなランダムな動きから生じる。
 べき分布は、ランダムではない別の原理から生じる。
 では、「ランダムではない」とは、どういうことか? 

 ここまで考えると、正解は推察される。次のことだ。
 「上から下へと、同一原理のが働く」


 ここでは、「力」というものが重要だ。正確には、同一原理の力だ。
 典型的に言えるのは、万有引力の力だ。それは「距離の二乗に反比例する力」である。
 同様の力は、他の多くの場合にも、見出される。

 (1) 経営力
 
 「金持ちと貧乏人」という関係を見よう。ここでは、
 「金持ちは貧乏人の富を奪う力を持つ」
 という原理がある。金持ちは、社会システムをうまく利用しながら、自分と他者とで協力して生み出した富みのうちの、大部分を(自分だけが)奪い取る力をもつ。具体的に言うと、社長は部下の給料を決める力をもつ。その力によって、部下の給料を低めに抑えて、社長の給料を高めにすることができる。つまり、部下の富を奪う力をもつ。(富の配分を決定できる経営力をもつ。)

 (2) 商品力

 商品の販売でも同様だ。売れる商品には、商品的な魅力がある。そのせいで、消費者の金の多くを引き寄せる力が生じる。つまり、「売れる力」(商品力 i.e. 他商品との差別力)がある。
 このことを具体的に示したのが、先の「ロングテール」だ。( Amazon など )

 (3) 被リンク力

 ネットの分野では、人気のあるサイトが多くの被リンクを受ける。サイトの魅力は、被リンク力として示される。(これを利用したのが Google の検索ランキングだ。)
 この力を考えるのと考えないのとでは、べき分布と正規分布という違いが生じる。被リンク力を考えると、べき分布が見出されるのだ。そのことを具体的に示したのが、次のサイトだ。(図と動画がある。)
  → http://d.hatena.ne.jp/rikunora/20091130/p1
 
 ──

 以上から、わかるだろう。
 この世界には、べき分布があふれている。その理由は、この世界に何らかの「力」が働いているからだ。その力の働き方しだいで、べき分布の指数の数字がいくらか変動する。
 たとえば、動物の代謝熱は、体重の 3/4 乗に比例する。( → はてなキーワード
 
 それぞれの場合で、べき分布が成立する理由が何であるかは、これまで知られていなかった。( → はてなキーワード
 しかし、本項を理解することで、その理由が判明した。その理由は、この世界に何らかの「力」が働いていることだ。そして、その「力」が存在することを、本項は教える。

 とすれば、あとは、その「力」が具体的にどのようなものであるかを、分析すればいい。そして、そうするために、「そのような見えない力があるんですよ」ということを、本項は教える。



 [ 付記1 ]
 ここで言う「力」とは、物同士がたがいに反発し合う力である。
 典型的に言えば、同じ電荷を浴びた粒子がたがいに反発し合う。その力は距離の2乗に反比例する。ここで「2乗」という値をいくらか変えることで、他の力にも応用が利く。
 たとえば、「高所得者と低所得者の分布」を見ると、「2割の高所得者が8割の所得を取る」ということは、必ずしも成立しない。米国では大金持ちが多くの金を得るが、日本ではそういうこともなく、金持ちと貧乏人との格差も少ない。これはつまり、米国では経済格差を生む力が強いが、日本では経済格差を生む力が弱い、ということだ。

 [ 付記2 ]
 このような力を生む源泉は、それぞれの場合ごとに異なる。
 たとえば、書籍では、「それぞれの書籍がたがいに異なろうとする」という力が働く。どうしてかというと、「同じような書籍だとすぐに飽きる」から、なるべく多様な書籍が生じやすいのである。小説では顕著だが、趣味の分野でも同様だ。(学術書ではそうではない。主流のものばかりが生き残りやすい。これは以下で示す例に当たる。)

 [ 付記3 ]
 書籍ではなく工業製品では、むしろ、逆の原理が働く。というのは、「大量生産の原理」によって、同一品種を大量生産することでコストダウンの効果が得られるからだ。この場合には、「反発し合う力」とは逆の「凝集する力」が生じる。すると、べき分布にはならず、むしろ、逆の形になりやすい。……具体的に言うと、正規分布よりももっと凝集するので、「釣り鐘形」とでも言うような  ∩  ふうの分布(端の方がほとんどない分布)となる。IT分野では顕著で、トップの3社ぐらいしか利益を出せないことが多い。

 [ 付記4 ]
 IT分野では、ファイル・サイズやウェブ・アクセスなどで、べき分布が見られるという。
  → wiredvision
 記事ではこれを「フラクタル」という用語で説明しているが、フラクタルは関係ない。(*
 むしろ、次の原理によるのだろう。
 「エネルギーが高いものほど、頻度が少ない」
 これは 1/f 揺らぎにも共通する原理だ。そして、このことは当り前だとも言える。それぞれの周波数のエネルギー総量が同じであれば、単体のエネルギーが大きいほど、頻度は少なくなるはずだからだ。(反比例関係 …… 指数分布よりも、べき分布に近い。)
 ファイルサイズについても同様だ。同じファイルがあるとして、そのファイルを二つに分割すれば、サイズは半分となり、個数は倍となる。そういう反比例関係が成立する。それがまんべんなく分布すれば、べき分布のような形になるだろう。
    *) 紹介記事にも記してあるが、フラクタルとべき分布とはアイデアの点で似ているだけだ。直接的に関係があるわけではない。ただし発想の上では似ているので、人が考える上でのヒントのような関係になっている。実際、フラクタルという発想は、べき分布を見ていた人が新たに思いついた発想だ。したがって発想の上では、「べき分布 → フラクタル」という関係はあった。なお、上の紹介記事では、「べき分布をフラクタルという概念から説明する」というふうに記述しているが、これでは順序が反対だろう。実際には、「べき分布」という概念がずっと昔からあって、その概念から「フラクタル」という概念が新たに生じたのだ。

 [ 付記5 ]
 一方、単語の頻度にべき分布が見られるのは、別の原理による。単語の使用では、「なるべく最適の単語を使用する」という原則が働く。そこでは、「世界を表現するのに、なるべく多くの単語を用いる」という力が働く。その力は、「反発力」のような力だ。この点では、[ 付記1 ]で述べた「反発力」という説明が妥当となる。ただしその力の大きさは、「反比例」という形とは異なるだろう。
 
 [ 付記6 ]
 「べき分布」で表現できる範囲は、限られている。通常、最初の方と最後の方は、べき分布が成立していないことが多い。たとえば、(上述した)下記の例だ。
  → wiredvision
 図を見ればわかるように、最初の方は消えているし、最後の方は頭打ちになる。特に、最後の方が大事だ。「ロングテール」になるといっても、そのロングテールはどこまでも続くわけではない。たいていは、「尻切れトンボ」みたいになる。
 このことは、株価についても言える。
  → nando ブログ 「経済物理学と べき分布」 の [ 付記 ]

 なお、どうして最後の方は途切れるかというと、エネルギーが頭打ちになるからだろう。ファイルの例で言えば、あまりにも巨大なファイルは、中身を作成するのに人間のエネルギーに限界があるので、頭打ちになる。他にも、資源とか、電力とか、パソコンの能力とか、さまざまな理由によって、べき分布の最後の方が頭打ちになることもあるだろう。
 Amazon の例で言えば、倉庫のサイズの限界などによって、ロングテールの最後の方は頭打ちになっているはずだ。


 [ 補説1 ]
 本文中では「相似」という概念を用いたが、実はこれは正確ではない。
 「相似」という概念が成立するのは、「べき分布」ではなく、「指数分布」である。そして、「指数分布」よりもさらに「ロングテール」の傾向があるのが、「べき分布」だ。
 このことは、指数分布と べき分布を示したグラフを比べるとわかる。
  → 対比の図 ( 引用元
 というわけで、「相似」という概念は、「力」という概念を生み出すためのヒントとはなるが、事実そのものではない。
 本項では「力」という概念を用いたが、それはあくまで「仮説」としての位置づけとなる。この仮説が妥当であるかどうかは、具体的に「力」を見出すことができるかどうか、ということで有益性が決まる。

 [ 補説2 ]
 べき分布が起こる現象では、「全体量が一定のなかで、大小の比率に相似がある」と見なすといいだろう。次の例のように。
  ・ 一定の大きさの石を壊したときの、大小の破片。
  ・ 一定の大きさの仕事量のなかで、大小の文書量。
  ・ 一定の大きさの資金量のなかで、株価の分布。
  ・ 一定の大きさの地殻エネルギーのなかで、解放エネルギーの分布。
   (解放エネルギーが地震のエネルギー[マグニチュード]。)

 


 【 追記 】
 べき分布の例をいくつか示そう。強い共通性があるとわかる。

 (1) 給与の分布

 給与の分布は、べき分布である。そこでは、次の原理が成立する。
 「(一定の)給与総額のなかで、低所得者の給与を奪うことで、高所得者の給与を増す。その奪う力が大きさの度合いが、べき分布の形状に現れる」

 (2) 破片の分布

 石をたたき割ると、微細な破片や、小さな破片や、大きな破片が生じる。その分布は、べき分布である。そこでは、次の原理が成立する。
 「(一定の)石の量のなかで、大きなものが砕けることで、小さなものが生じる。逆に言えば、小さなものの体積を奪うことで、大きなものの体積を増す。その奪う力が大きさの度合いが、べき分布の形状に現れる」
   → ガラスの破片の写真  (参考)

 (3) 地震の分布

 地震の分布は、べき分布である( → 別項 )。そこでは、次の原理が成立する。
 「(一定の)地殻の歪みの量のなかで、小さな地震が起こらないでいることで、大きな地震を起こりやすくする歪みが溜まる。逆に言えば、小さな地震の歪みエネルギーを奪うことで、大きな地震の歪みエネルギーを増す。その奪う力が大きさの度合いが、べき分布の形状に現れる」

 (4) 株価変動の分布

 株価変動の分布も、べき分布に従う。小さな変動が圧倒的に多く、大きな変動は少ない。ただし、大きな変動は、正規分布の場合よりもかなり多く発生する。(これを見誤ったせいで米国の金融危機が起こった。)
 → 相場の変動は正規分布と異なる



 【 参考書籍 】


歴史は「べき乗則」で動く


 ※ べき分布についての解説書。良書である。
 ※ ランダムな現象(確率的な現象)と、規則的な現象との中間に、
   「べき分布」(べき乗則)の現象がある。その中間的な領域の話。
 ※ 「べき乗則について、本書ほど丁寧に触れられているものは類書には無い」
   という読者批評がある。( Amazon )




 【 関連項目 】
 本項の執筆後、次の項目を書いた。べき分布の例となる。
  → 地震の確率?(べき分布)  [ 重要 ]

 ──

 次の項目は、本項と直接の関係がある。
  → nando ブログ 「経済物理学と べき分布」
  
 なお、べき分布の話ではないが、関連して、経済物理学の話もある。
  → nando ブログ 「経済物理学 1」
  → nando ブログ 「経済物理学 2」
  → nando ブログ 「経済物理学 3 」
posted by 管理人 at 18:09| Comment(2) | 科学トピック | 更新情報をチェックする
この記事へのコメント
最後に [ 付記 ] をいくつか加筆しました。
 タイムスタンプは 下記 ↓
Posted by 管理人 at 2011年01月07日 23:14
[ 付記6 ] を加筆しました。
 「べき分布の最後の方は頭打ちになっている」
 という話です。

 タイムスタンプは 下記 ↓
Posted by 管理人 at 2011年01月08日 08:46
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

※ブログオーナーが承認したコメントのみ表示されます。
過去ログ