研究嗜好
応用確率論,統計学,応用表現論。
かけ離れた学問の境界線に魅力を感じています。 確率と言う学問そ
のものよりも、確率を言語として扱う分野を常に探しています。
確率過程ってなんだ:
確率過程とはランダムに変わりゆく時系列の事です。株価の変動や、化学反応の中で変わり続ける化学物質の量等がそれに当たります。その中でも重要
なのはマルコフ過程と呼ばれる確率過程です。マルコフ過程とは、未来が現在の「時刻」に関係なく、現在の「状態」次第で未来が決定する過程の事です。例えば、毎年決まった時期に一度だけ繁殖する動物が要るとします。そうすると、その動物の生息数はマルコフ過程で推定する事が出来るかもしれません。来年の生息数は今年が「西暦何年か」などには全く関係せず、今年の生殖可能な個体数のみに依存するからです。マルコフ過程は数学的に面白い特徴が沢山有るため、計算、予測にはもってこいなのですが、厳密的には完璧なマルコフ過程はなかなか見つけられません。例えば、人間は通年繁殖しているうえ、一定のランダム性のある妊娠期間が有ります。すべての妊婦が赤ちゃんを産む事が出来るのは望ましい事ですが、近世などでは成功率はあまり高く有りませんでした。そうなると、現在の状況のみから未来の人口を判断する事は出来ません。或る人は哀しくも流産してしまうかもしれないし、或る人は出産が予定より遅れたり早まったりしてしまうかもしれない。 しかし、或る程度マルコフ過程を使って推測する事が出来ます。妊娠期間のランダム性を無視したり、人口を「妊娠1ヶ月の人」「妊娠2ヶ月の人」などと仕分けて (つまり、妊娠31日目の人と妊娠59日目の人を区別しない)モデルを簡略化したりするワケです。私は、こういった非マルコフ過程の推定の問題等も研究しています。
また、確率過程には離散の確率過程と連続の確率過程があります。連続の確率
過程とは、一筆書きでグラフとして描ける時系列の事で、
平日の株価の変動は大体そうです。離散の確率過程とは取る値が1、3、6、−1のようにポンポン
と跳び、中間点がない過程の事です。もちろん、こんな時系列の一筆書き
は無理です。 家族の人数の変動等は離散の確率過程になります。株価の変動に於いて34円54.33銭は妥当
な数ですが、2.3人や0.5人などの小数点は家族の人数には使えません。細胞の中で起こる化学反応の中にも、関わる分子の数がとても少ないものが有ります。例えば、タンパク質を作る際、細胞はオリジナルの設計図であるDNAからmRNAとよばれる「業務用コピー」を沢山作り、それをリボソームと呼ばれる
「作業員達」に手渡して大量生産を行います。このプロセスはセントラルド
グマと呼ばれますが、この話で登場したオリジナルのDNAの粒子数は
1です。モデルを作るに当たって、0.5個のDNAなどと云う話が出て来
てはならないし、四捨五入するにしても1個のDNAと0個のDNAでは大きな
差が出てしまいます。ポアソン過程と呼ばれる確率過程は、整数の値のみ
をとるマルコフ過程で、このような離散的なモデルにはピッタリです。
私はポアソン過程を用いて離散なシステムを高速でシミュレーションする
方法について研究しています。
統計ってなんだ :
統計と言うと只々沢山の足し算がついた公式を機械的に扱う学問という印象が
強いような感じがしますが、本質は全くそうでは有りません。もっと原点になっ
て考えてみましょう。この世はランダム、明日何が起こるか分からない。それは一体何故でしょうか。この質問をいっ
たん全て神様に押し付けてしまいます。神様が自分専用の万能サイコロを何億
何兆個も振って、この世の有様をランダムに決めているのです。これを逆に言えば、「神様」のサイコロを手に入れられれば、この世のすべてを予測する事が出来るようになるワケですから、「神のサイコロ」を手に入れる事は人類にとっての究極のゴールと言えるでしょう。では、これは努力すれば叶う夢なのか、と云うと答えはもちろん「No」です。 ですから、今迄でてきているサ
イコロの目の傾向から、次の目を予測するという手法がとられます。私の知識では、この手法は大きく二つに分けられます。
簡略化された疑似のサイコロを創作する方法: 観察した出目から、疑似のサイコロを制作します。疑似のサイコロはもちろん、神のサイコロに比べ
ると遥かにシンプルで、状況に応じた目的に准ずる物になります。 例えば6面の普通のサイコロの出目が奇数か偶数か知りたいなら、同じ情報を得るのに
6面全部は必要ではありません。「コイン」という「2面のサイコロ」で十分です。回帰という手法は疑似のサイコロを使い、データをランダムな神様の出
目による部分そうでない部分と分離することで解析を行います。間違ったサイコロを使えば、データからランダムでない部分を十分抜き取る事が出来
ず、疑似のサイコロのブレはデータのブレに比べて大きくなってしまいます。疑似のサイコロは巷でよく使われている、例えれば「市販」のサイコロの組み合わせで作ります。売れ筋のサイコロの一つに「正規分布」と呼ばれている物
があります。似たような小さなサイコロを大きな集合が「正規分布」に似たふ
るまいをするので、便利です。
相関から攻める方法: 神様のサイコロなんて模倣できる筈はない、と最初から諦め、神様が投げた幾千幾万のサイコロの出目の一部から他のサイコロの出目を予
測します。というのも、神様のサイコロの目にも実際に私たちが観測できるものと出来ないものがあるからです。例えば、アンケートを取るにしても、解答をくれる人の数に
も、設定できる質問事項の数にも限りがあります。但し、観察できる物の多くには相関性があるので、これを利用します。例えば、これは私見ですがレストランで女性が多い店の方が男性が多い店よりもおいしい傾向があります。私は女性の数を見る事で、レストランがおいしいかどうか予測している訳です。女性の数をサイコロAの出目とし、おいしいかおいしくないかをサイコロBの出目
としましょう。この場合、私はサイコロAとサイコロBの相関性を見ている事になります。要するに、サイコロAの出目からサイコロBの出目の相関を表す「関数(例えば、月並みですが女性の割合が何%以上ならレストランがおいしいか、など)」を探し出す事で、直接二つのサイコロを制作せずに予測を行うのです。機械学習と呼ばれる手法は、コンピュータに神様のサイコロの出目を勉強させ、それに基づいて予測を行わせます。
どちらの手法に於いても重要な事はデータとデータの距離を正しく決める事です。予測が実際のデータとどれだけ離れているかは距離の定義で大きく変わります。例えば(1、2) と(2、3)という二つのデータの距離はいくらでしょうか。この二つのデータは平面上の点として捉える事が出来ます。高校で習う ((1−2)^2+(2−3)^2)^0.5を使えば、二つの点を結ぶ直線の長さを二つの点の間の距離とする「ユークリッド距離」を求める事が出来ます。 |1−2| + |2−3| を使えば、縦と横のみ動ける場合に一つの点からもう一つの点まで辿り着く為の最短距離、「タクシーキャブ距離」を求める事が出来ます。状況によって、予測精度の測り方を変える必要があるのです。一つの答えのみを求める数学と統計が違う一つの所以です。私は遺伝学者の方と「距離」の一つをカスタムで創り、機械学習を用いて予測を行いました。
フーリエ変換ってなんだ :
複雑な物も見方によってはシンプルに見えるし、その逆もまた真なり。例えば、
重さを測る時や温度を測る時、私たちはグラムと摂氏を使います。1ミリリッ
トルの水が1グラム、0度が水の氷点、100度が沸点なので、毎日水を使う
人間にとってはとても参考にしやすい表現です。さらにミリは1000分の1、デシは10分の1、キロは1000というように、またまた私たちになじみ深い10進法が名前に用いられています。しかしアメリカではポンドと華氏が使われます。氷点が32度、沸点が212度。重さに至っては酷い話で、1ドラムが16分の1オンス、1オンスが16分の1ポンド、1ポンドが7000グレーンで、1ストーンが14ポンド。もうやめにしましょう。華氏は別な意味で酷い標準から作られています。華氏を作ったファーレンハイトは自分が測る事の出来た最も低い室外の温度を0年、自分の体温を100度としたのです。計算しにくい事この上ない。 同じように、複雑なシグナルも、すこし見方を変える事で簡単に表す事が出来たりします。例えば、
(49 74 34 55 0 40) は一見パターンもなにもないようなシグナルですが、実は(0 1 0 1 0 1) 、
(1 1 1 0 0 0)、 (1 0 0 1 0
0)、というような分かりやすいシグナルがそれぞれ40個、34個、15個集
まったものです。つまり
40*(0 1 0 1 0 1) + 34* (1 1 1
0 0 0) + 15*(1 0 0 1 0
0) =(49 74 34 55 0 40)。 (注:高校のベクトルの足し算
です)
フーリエ変換とは、
シグナルを簡単な周期性のある「材料」シグナルに分割することでシグナルの
新しい見方を得る方法です。 ですが、別に「周期性のあるシグナル」だけを
特別扱いする必要は有りません。「表現論」と呼ばれる数学の手法を用い、他の対称性の或る「材料シグナル」を使う事も出来るのです。 たとえば、「周期性」にはシグナルをある程度シフトした時に同じ形に戻ってくる、という意味が有りますが、選挙の情報等を扱う時、周期性というのは直感的にもあまり役立ちそうに有りません。代わって何が役に立つか、というと特定の入れ替え、置換を行った時に変わらない、隠れた「シグナルの一部」など
です。例えば、A、Bが政党1、C、Dが政党2、E、Fが政党3に所属するとして、
1位が6ポイント、2位が5ポイント、3位が4ポイント、4位が3ポイント、
5位が2ポイント、6位が0ポイントが得られると云う選挙が行われたとしま
しょう。それぞれの政党が得られるポイントを競うとしたら、(A, B, C, D
,E, F)という順位から得られる結果も、 (B, A, D, C ,F, E) という順位から
得られる結果も同じです(とちらの結果も政党1が11ポイント、政党2が7ポイント、政党3
が2ポイント)。一般フーリエ変換とは、シグナルを「何らかの数学的なパターンをもつ材料」に分割する手法です。
ですが、せっかく難しいシグナルの見方を変えられたとしても、そのまま解析するよりも見方を変える手法に苦労していたら本末転倒です。私たちは一般フーリエ変換を高速で行う方法について研究しています。
updated 2013 May