Otaku ワールドへようこそ![162]ウェブという名の大海に釣り糸を垂れてみる/GrowHair

投稿:  著者:  読了時間:26分(本文:約12,800文字)


上野さんと渋谷さんと新宿さんと池袋さんの4人がごしゃっと固まって立っています。だいぶ距離を置いて原宿さんが立っています。「ワタシは仲間じゃないんだからねっ。一緒にしないでよねっ」。

先の4人を挟んで原宿さんと反対側に、やはり相当の距離を置いて新大久保さんが立っています。「あれぇ〜、みんなとは近いんじゃないかと思ってたんだけどなぁ」。

さて、上記の6人のラインとはまた別の方角に、新橋さんと市ヶ谷さんと五反田さんがごしゃっと固まって立っています。その向こうには飯田橋さんもいます。あ、反対側のぽかっと空いたエリアに一人ぽつねんと立っているのは、なんと、秋葉原さんではありませんか。「あれっ? まわりに誰もいませんね」。

それを平面上にプロットしてみたのが図-1です。
< http://www.geocities.jp/layerphotos/FigDGCR121019/FigDGCR121019.html >

地理的な位置関係ではなくて、街の醸し出す雰囲気の近い遠い、言い換えると似てる似てないを表しているのですが。いかがでしょ? みなさんの感覚と合っていますか? 実は、これ、私の個人的な感覚で配置してみた、ってわけでもないのです。

図-1をよくよく見ると、X軸とY軸が引かれていて、目盛が打ってありますね。つまり、上野さんたちみんなが立っている位置が数値データで得られているということです。では、そのデータはどっからどうやって引っ張ってきたのでしょうか。それは、情報の大海から釣り上げてきたのです。

情報の大海とは、ウェブサイトです。日本語ページだけでも、百億ページぐらいあるんじゃないかと言われています。そこから魚を一本釣りしてくるための釣り竿は検索エンジンです。具体的にはGoogle。"上野"で検索をかけると、その文字列を含むページがわさっと釣れるわけですな。

釣れた魚に味付けして缶詰にする工場は、統計計算ソフトです。具体的にはExcel。統計計算するマクロは拾ってきましたけど。それだけのお膳立てがあればできちゃいます。

これ、第一に、ちょっと面白いでしょう? ウェブから引っ張り上げてきた「みんなの感覚」みたいな統計データを「自分の感覚」と照合してみて、合ってるの合ってないのって論評しあうだけでも、ちょっと楽しくなりませんか?

第二に、もしかすると、役に立つかもしれない。関西方面に住んでいる人が、関東に引っ越すことになったとして、今住んでいるところに近い感じの街って、東京近辺だとどの辺なんだろう、って思ったとしましょう。これ、そこら辺の人に聞いてみても、不動産屋に相談してみても、ウェブ上の「質問箱」みたいなサイトに投げかけてみても、ずばり答えてくれる人って、そんなにいないんじゃないかと思います。

けど、ウェブにすでに上がっている雑多な情報の海から、必要なところをうまく釣り上げれば、たちどころに答えが現れるのではないかと。

そうすると、第三に、これは商売になるんじゃないか、って考えちゃいますね。このシステムを導入した不動産屋は、お客様のかゆいところに手が届く情報を提供することができて、繁盛するんじゃなかろうか、とか。

駅名を例に挙げたのは、感覚と照合しやすいんじゃないかと思ったからであって、対象は何でもOKなのです。クラシック音楽の作曲家でも、ラーメン屋でも、映画のタイトルでも、ゆるキャラでも。工夫次第で、いろんな商売の尻押しをしてくれる強力な助っ人になる可能性があります。

それだけでは終わらないかもしれません。駅間の類似性の抽出なんて例は、いくらの価値もない、些細なことかもしれませんが、もしかすると、この小さな一事が、情報の大海とわれわれ人間との関わり合い方の近未来像を示唆しているのかもしれません。




●「集合知」の次に来るものは、「巨大知」とマイニング技術

順を追ってお話しようと思ってましたが、近未来像のところを先にちょこっとだけ言っちゃいます。

「集合知(collective intelligence)」という言葉があります。この言葉、もはや、いろんな意味に使われちゃってます。集団の意思決定のメカニズムのことであったり、ウェブのような知識の大海のことであったり、ウィキペディアのように、与えられた場に対して、みんなで寄ってたかって知識を提供しあう現象のことであったり。

ここでは、上記最後の意味で使いたいと思います。その意味の他の例としては、オープンソースソフトウェアも挙げられます。ソフトウェアのソースプログラムを公開しておくと、人々が自発的にソースに手を加えて、機能を拡張していくということが起きます。あたかも、ソフトウェア自身が勝手に成長したかのごとくみえます。

ウィキペディアもオープンソースも、成長の過程においては間違いやバグが入り込むこともあります。けど、いずれは誰かが気がついて修正し、たいていの場合、正確で有益な知的産物へと完成度を高めていきます。『「みんなの意見」は案外正しい』という本が出ていますね[1]。

さて、この意味の集合知は、場が与えられれば知が集まる、という現象のことです。ウェブ全体というのも広い意味ではこのくくりで解釈することも可能なのかもしれませんが、実際問題、ウェブに上がっている情報は、そんなに立派なものばかりではありませんね。雨が降ってきたとか、うどん食ったとか、花が咲いたとか、タレントの何某はかわいいとかかわいくないとか。集合知というよりは、集合愚のイメージに近いかも。

ほとんどの情報が石ころみたいなものであったとしても、中には光るものが埋もれています。間違いなく。けど、それらはまとまってなくて、どっかにバラバラに散在していて、何らかの手を使って掘り出さないと出てきません。この玉石混交な情報のごった煮原始スープみたいなものを、集合知と区別して、何と呼びましょうか。

「巨大知(organic intelligence)」という用語があります。2010年ごろから出てきました。価値ある情報がどこかに一極集中したりしない巨大な情報プールというイメージは求めているものに近いのですが、この用語は、それに加えて、センサーの捉えた大量のデータが自動的にウェブにアップされることで、さらに巨大化するぞ、という方向性も含意しています。

唱えているのは楽天株式会社の楽天技術研究所です。「サードリアリティ」というビジョンを策定しており、その中で巨大知についても述べています。『ウェブ大変化 パワーシフトの始まり』[2]という本に説明されています。著者は上記研究所の所長である森正弥氏です。ちょいと拾い読みしてみましょう。

 情報は爆発している。大量に氾濫する情報をいかに処理し、いかに意味ある
 ものを分析・抽出するかが肝要だ。多種多様の情報の中から必要な情報を的
 確に検索・解析するための技術が必要であり、大量なデータを効率的かつ高
 速に処理する基盤等が求められる。

 多種多様かつ巨大、そして刻一刻と更新され、ブラッシュアップされていく
 データや情報や知識を、高速に検索する技術やそこから適した情報を推薦す
 る技術、そして意味・関係性をマイニング(解析)していく技術と高度に融
 合させ、価値を次々と生み出すことが、今後当たり前になる。これは「知」
 という概念に対する大きな変革である。

●Googleへ行ってひたすら検索をかけまくる

さて、先ほど示した上野さんたちの立ち位置のマップも、一種のデータマイニングの産物と言えます。「マイニング(mining)」、もともとの意味は「採掘」ですな。地中から価値ある鉱物を掘り出すこと。では、どうやって掘り出したか、解説しましょう。

......と行きたいところですが、詳細は今の時点では伏せさせておいてください。ホントに商売になるかもしれないという下心がありまして。けど、そんなにすごい秘法ってわけでもなく、やったことは、Google でひたすら検索をかけて、ヒット件数を拾い出すという、割かし泥臭い作業です。これ、手作業でやりました。アホか、ってぐらいの回数、検索してます。一回の検索リクエストのことを「クエリ(query)」と言います。全部で何クエリぐらい発行したか。それも聞かないでおいていただけると。

けど、おおよそのところはここ[3]に書いてあります。Google の学術記事検索によると、この論文を引用している記事は676件あると言っています。オリジナリティ、価値、貢献度ともに非常に高い論文と言えましょう。この論文の肝は、「正規化グーグル距離(normalized Google distance)」という概念を提唱しているところにあります。

ふたつの単語またはフレーズがある時、それらの間の意味的な距離を、Google検索のヒット件数に基づいて算出しよう、というアイデアです。そのふたつの単語またはフレーズをx,yとしましょう。xを単独で検索して返ってきたヒット件数をf(x)としましょう。yについても同様にf(y)としましょう。

検索窓にxとyとを両方入れると、AND検索となり、両方とも含むページが抽出されるのですが、このヒット件数をf(x, y)としましょう。

さらに、Googleがインデックスしているウェブページの総数を N としましょう。4つの数値f(x), f(y), f(x, y), Nを使って、xとyの「正規化グーグル距離」NGD(x, y) を算出する式が示されています。

この式を編み出す下敷きになっている概念は、コルモゴロフ複雑性(Kolmogorov complexity)というものです。けど、それについての導入と詳細については教科書[4]を参照してください、と言っています。日本語のウィキペディアの「コルモゴロフ複雑性」の項目でも、そこそこ説明されています。

さて、2語の組み合わせについて、総当たりでひたすら検索をかけてヒット件数を拾い出すと、縦横に配列された、ヒット件数の表が出来上がるわけです。あとは、クラスタリングという統計処理にかけると、近いものどうしのかたまりに分類することができます。

クラスター(cluster)とは、ぶどうのような果実の房のことであり、粒々がいくつか集まってかたまりをなしている状態を表しています。駅の例では、上野さんと渋谷さんと新宿さんと池袋さんの4人がひとつのクラスタをなしており、新橋さんと市ヶ谷さんと五反田さんと飯田橋さんの4人がまた別のクラスタをなしています。

この論文では、階層的(hierarchical)クラスタリングが採用されています。その用途だったら、スペクトラル(spectral)クラスタリングが適しているよと提案する論文が北海道大学から出ています[5]。分類したいクラスタの総数kをあらかじめ決めておきます。2語の組み合わせの総当たりで検索をかけて得られたヒット件数の表に対して、ちょいと加工を加えると、「グラフ・ラプラシアン(graph Laplacian)行列」という形式に変換することができます。

この行列を固有値分解し、固有値のうち小さいほうからk個に対応する固有ベクトルを求めます。k個のn次元ベクトルの行と列を入れ替えてn個のk次元ベクトルとみなし、これをクラスタリングします。そのクラスタリングには、割とポピュラーなk-means法が使えます。

つまり、最初はn個の要素どうしの距離しか分かっていなかったのが、ラプラシアン行列の固有値分解という操作を経ることで、k次元ベクトル空間のn個の点として割りつけることができたというわけです。

って、私はいちおう読んで、アルゴリズムとしてはそうなんだと理解したわけですが、どうしてそれでうまくいくのか、ってところが飲み込めていません。なので、ちょっと神秘的な魔術のように見えていたりもします。そのあたりのことはチュートリアル[6]に解説されているようなので、後でじっくりと読んでみます。

実験では、日本語の経済用語20語とコンピュータ用語10語を与え、2クラスタに分類してみています。すると、「環境」が意図に反してコンピュータ用語側に落ちてしまった以外はちゃんとクラスタリングできていた、とあります。

いや、「ソフトウェアの動作環境」みたいにコンピュータ用語としてもよく使いますよ「環境」って言葉。外れたことをもって、この手法の信頼性がますます確たるものになったように感じられます。筆者より賢いグーグル先生。

この論文では、他にも面白いことをいろいろ言っています。NGDを算出するにはGoogleのインデックスしたページの総数Nが必要になるのですが、Googleはそれを公表していません。「の」で検索して返ってきたヒット件数をもってNとすればいいのではないかと提案しています。やってみたら、約百億ですな。ちなみに「e」では約250億。

NGDは「遠さ」の指標ですが、ラプラシアン行列では「近さ」の指標を用いる必要があります。その変換には、ガウシアン関数を使うのがいいと言っています。いろいろ親切です。

さて、伏せる伏せると言っておきながら、これで全部言っちゃったも同然です。なので、詳しく知りたい方は、上記2本の論文を読んでみてくださいませ。

●おいおい、出遅れてないかい、日本

先ほど、正規化グーグル距離(NGD)を提唱する論文は、676件の文献から引用されていて、非常に価値が高いと言いました。では、日本で書かれた文献からの引用数はどうでしょう。私の探し方が下手なんでしょうか。特許がたったの3件、論文がたったの4件しか出てきませんでした。

探し方のせいだったら、別にいいんです。けど、もし、この論文を発見している日本人がまだ非常に少ないのだとしたら......めちゃめちゃヤバいですよぉ! 巨大知からデータマイニングするという広範で重要な学術分野が丸ごとスコッと抜け落ちてるってことですからねぇ。

3件の公開特許は、いずれも日本電信電話株式会社(NTT)から出願されています。特許は出願すると、約 一年半後に公開されます。放っておくと、自動的に取り下げとみなされてしまうので、出願から3年以内に審査請求する必要があります。特許庁の審査官による審査の結果、要件を満たすと判定されれば特許が成立して登録となります。

NTTの3件はいずれも2010年に出願されていて、2012年に公開されています。まだ特許として成立はしていません。発明の名称はいずれも「情報検索装置、情報検索方法及び情報検索プログラム」で、発明者3人の氏名も共通しています。

1件目は、複数の映像から一本の要約映像を自動的に生成しようというもので、元の映像を適当な区間に分割しておき、各区間から抽出された特徴量をある種の評価関数に渡すことで評価値を算出し、それを最大化するように区間映像の選定と順序づけを行うというものです。

2件目は、モバイル端末がパソコンと違ってキー入力装置が非常に小さいために文字列の入力が不便であることに鑑みてなされた発明であり、キーワード入力を必要しない操作性のよい映像検索を可能にすることを目的としています。データベースに格納された映像について、関連度の高いものどうしが近くに配置されるよう、平面上に散りばめて表示しておき、ユーザはこの平面を移動することにより目的の映像を見つけて選択することができるというものです。

3件目は、近年のオンラインコンテンツの爆発的増加に伴い、少数のキーワードのみで検索をかけたのではなかなか目的のコンテンツにたどり着けなくなっていることに鑑みてなされた発明で、長いクエリの途中まで入力した時点で、続きの予測文字列を表示することで、ユーザのクエリ入力の負荷を軽減しようというものです。

論文4件のうち1件は、日本大学文理学部の学生の卒論です[7]。GoogleとYahoo!の性能を比較して、Googleの勝ち、と言っています。けど、そこで定義している勝ち負けの判定基準は、堅牢性に疑問が残ります。その基準の裏をかいて勝つことができるインチキ検索エンジン、簡単に作れちゃいますよぉ。2語組み合わせのヒット件数を極端に高く返しておけばいいだけですな。

2件目は、早稲田大学の修士課程の学生による修士論文です[8]。内容をちゃんと理解したわけではないのですが、NGDから類似度の指標に変換するのに、単純に1から引いちゃってるとこが、不満です。NGDって、Nが大きければめったに1を超えることはないんですが、理論的には0からプラス無限大までの値をとりえます。ガウス関数を用いる方法が[5]に書いてあるのだから、それを使えばいいんじゃないかと。

3件目は、やはり早稲田大学から出されています[9]。Googleが返してくるヒット件数の信頼性について考察しています。NGDを提唱している元の論文でも、Googleがちゃんとしたヒット件数を返していないと構想が骨抜きになってしまうという懸念が述べられていますけど、そこを掘り下げています。

研究課題としては割と小粒な感じがしないでもないですが、実用面からとても大事な注意点を指摘しています。時系列で追うと、ヒット件数がガタっと窪むところがあって、油断がならないですな。ううむ。

4件目は、東京大学の博士課程の学生による博士論文です[10]。6月に発表されたばかりです。この論文、ホレボレするくらい、すばらしくよく書けてます。このジャンルの先行研究を広く深く、よーく勉強しているなぁ、って感心させられたというのがひとつ。人類と情報との関わり合い方の未来像に関して、独特のビジョンを持っているなぁ、とスケールの壮大さを感じられたというのがひとつ。

元のNGDの論文で、NGD自体は文字列と文字列との距離を求める一手法ではあるけれど、実際に遠い近いを計測しうる対象としてはそれに限らず、音楽にでも画像にでも応用が利く、と述べられています。馬場氏の論文は、そこを掘り下げて、言葉と実世界とのつながりをテーマにしています。楽天の提唱する「サードリアリティ」に通じるものを感じます。

本筋以外にも、これは重要だと思えることがいろいろ書いてあります。Googleのインデックスしたページの総数をリアルタイムで推定しているサイトの紹介とか。余談ですが、"アンカー語群"でググると、この論文1件しか出てきません。しばらく経つと、この文章がヒットするようになるでしょうけど。

●国家プロジェクトでひとつよろしく

巨大知からデータマイニングする上で、一番重要な鍵を握っているのはGoogleです。完全に頼りきりです。もしも、Googleが公益に資する検索エンジンなのは見せかけの姿であって、本当は世界征服をたくらむ悪の権化だったとしたら、......って、SFチックな陰謀論を唱えるわけではありませんが。やっぱり心配な点がいくつかあります。高い、不正確、独り占めされてる。

まず、値段がべら高いです。え? タダじゃないの? 確かに、Googleのウェブサイトへ行って、検索窓にキーボードから文字列を打ち込んで検索する分にはタダです。けど、データマイニングに使おうと思ったら、手作業じゃやってられないくらいの数のクエリを発行しないとなりません。どうしてもプログラムでガンガンぶん回さないとなりません。そのためのAPIが用意されています。

けど、それはタダじゃないんです。1,000クエリ5ドル。高っ! 小原庄助さんは朝寝朝酒朝湯が大好きで、それで身上つぶしたそうだけど、こっちはGoogle道楽で身上つぶしかねない。あ〜もっともだぁ、もっともだぁ。

それで返されるヒット件数が正確ならまだしも、これがけっこう信用まかりならんのです。
「"魑魅"」:約1,420,000件
「"魍魎"」:約1,560,000件
「"魑魅" "魍魎"」:約41,700件
「"魑魅魍魎"」:約1,900,000件

おかしいですよね? 「"魑魅" "魍魎"」のヒット件数がやけに少なすぎます。これでは、魑魅と魍魎との関連性はかなり薄いと判定されてしまいます。しかも、「"魑魅魍魎"」のヒット件数が、「"魑魅"」や「"魍魎"」よりも増えてるって、理屈に合いません。さらに、「"魑魅" "魍魎"」のヒット件数が「"魑魅魍魎"」よりも少ないっていうのも理屈に合いません。「金襴緞子」についても、同様のことが起きます。「悪戦苦闘」では割とまともです。

まじめに検索をかけてヒット件数を勘定していては処理時間がかかりすぎるので、適当にちょろまかして、なんらかの方法で算出した推測値を返しているのでしょう。でも、それがよく外れます。われわれは、巨大知から情報を抽出しているつもりになっているけど、その実、Googleの推測値算出のノウハウを漁ってるだけだった、ってことになります。巨大知まで手が届いていないというか。払ったお金と出てきた情報の価値のバランスの悪さがなんともかんとも......。

まともに検索かけてちゃんと勘定するプログラムは、Googleの内部では持ってるはずだけど、それによる結果を外部の人は誰も見ることができません。独り占めです。

いま、ここに巨大なゴミの山があったとしましょう。その中には、価値のあるものが埋もれている可能性があります。道具がなければ、こつこつと漁るしかありません。けど、いまここに、金(きん)やらプラチナやらダイヤモンドやら一万円札を引き付ける磁石のようなものを持っている人が一人だけいたとしましょう。明らかに、ゲームはその人の独り勝ちですね。根こそぎ持っていかれます。

大量に氾濫する情報から意味のあるものを抽出する技術が今後の価値創出のキーとなる、というビジョンが示されている中、その道具がGoogleに独占されている現状というのは、不安になりませんか? てか、まずいっしょ。けど、Googleに対抗できるものを構築するとなると、国家プロジェクトぐらいの規模でないとできないでしょう。

日本政府さんよ、ポンと一兆円ぐらい(かかるかどうか分かりませんが)投じて、作りませんか、検索エンジン。さしあたってインデックスするのは日本語サイト限定でもいいですから。ひとつ、よろしく。

●人類補完計画

われわれは、今後、データマイニング技術により巨大知から抽出される情報の恩恵を得るようになります。それは、われわれの生活の利便性がちょっと向上するといった程度の影響にとどまってはいません。われわれと知との関わり方が、根本からひっくり返ります。そして、われわれ自身が変容していきます。

今まで、知というものは、主として私たちの脳の中に蓄積されていました。勉強するとは、授業や講義を聞いたり教科書や参考書を読んだりすることで、外部の知を脳内に詰め込む作業でした。テストを受けるとは、それを外部に書き出すことによって、いかにたくさん正確に詰め込んであったかを示す作業です。

実生活においては、脳内に詰め込みきれなかった知識をハードディスクやクラウドに預けておくことができます。あるいは、管理しきれないスケジュールを、スケジューラソフトが支援してくれます。けど、それらはあくまでも脳の拡張であり、補助的な位置づけでした。

でも、近未来においては、これが逆転します。人類がみんなで共有する巨大な知のプールがそこにあって、それが知的存在たる人類そのものの姿とも言えます。個々の人々は知の巨大プールにぶら下がっています。24時間365日、常につながっています。

人々の記憶の大半は巨大知側に預けられ、頭の中はいつもほぼ空っぽでいい。パソコンの内蔵ディスクは、本体が壊れるとアクセスできなくなっちゃうので、ローカルなハードディスクにデータを置いておくよりは、クラウドに預けちゃったほうが、便利で安心です。それと同じこと。人の記憶は死ぬと失われちゃいますけど、巨大知の側になんでもかんでも預けておけば、ずっと残ります。

勉強するとは、巨大知へのアクセスに慣れること。どんなアクションをとると、どんな知が引っ張り出せるか、それが分かっていればいい。情報検索のコツを体得したところで、それで英語がしゃべれるようになるわけでもないし、数学の問題が解けるようになるわけでもありません。けど、それでいいのです。巨大知の中から必要な知を取り出す手段さえ体得してれば、知っているのと同じことです。人類の中に、誰か、英語がしゃべれる人がいれば、自分がしゃべれるのと同じことなのです。

四六時中巨大知とつながっているのに、テストの時間だけ切り離して、脳内の記憶で勝負しろ、なんて無茶は言いません。つながりっぱなしでいいのです。出題された問題を検索窓に放り込んで、答えが見つかったらコピペすればOKです。答えがどこにも書いてないようなオリジナリティの高い問題を出されたら、掲示板みたいなところに質問を投げれば、きっと誰かが考えて答えてくれます。いつかあったようなカンニング事件、あれはそのうちカンニングでも何でもなくなり、通常の受験風景になります。

それじゃ意味ないですか? 意味ないですね。そのうち、テストなんてもの自体、廃止になっちゃうかもしれません。巨大知の巨大さに比べれば、一人ひとりの脳内に納まってる知識の量なんて、たかが知れたもの。それの多い少ないを競ったってしょうがないのです。巨大知は誰に対しても平等に開かれているので、知識の量はみんな同じ。テストなんて、意味がなくなります。

人々は巨大知からうんとたくさん恩恵を受けて、各自はほんのちょっとだけ独自の知見を付け加えることができさえすれば、それでバランスがとれてます。どうしても能力を比べたいなら、独自の知見をたくさん加えた人が偉い、ぐらいでしょうか。そこでがんばりたいって人はがんばればいいけど、そうでもない普通の人は、頭の中は常にからっぽでもだいじょうぶです。ものを覚えなくてもいいし、ものを考えなくてもいい。

ある日、A男さんとB子さんに同じ内容のメールが届きます。差出人はコンピュータ。「A男様、B子様、膨大なデータを分析した結果、あなたがたお二人は相性がぴったりであることが判明しました。もしよろしければ、結婚をご検討されてみてはいかがでしょうか」。なんか説得力ありますね。二人は結婚します。けど、すぐに別れちゃいます。コンピュータ、めげずに「こんな人と結婚した人は、こんな人とも結婚しています」。

参考文献

[1]ジェームズ・スロウィッキー(著)小高尚子(訳)
  『「みんなの意見」は案外正しい』、角川書店(2006/1/31)

[2]森正弥『ウェブ大変化 パワーシフトの始まり』、近代セールス社
  (2010年)

[3]Rudi L. Cilibrasi and Paul M. B. Vitanyi,
  "The Google Similarity Distance",
  IEEE Transactions on Knowledge and Data Engineering,
  Vol. 19, pp. 370-383, 2007.
  < http://arxiv.org/pdf/cs/0412098.pdf >

[4]M. Li, P. M. B. Vitanyi. An Introduction to Kolmogorov
  Complexity and Its Applications, 2nd Ed.,
  Springer-Verlag, New York, 1997.

[5]Jan Poland and Thomas Zeugmann,
  Clustering the Google Distance with Eigenvectors and
  Semidefinite Programming
  < http://www-alg.ist.hokudai.ac.jp/%7Ethomas/publications/dag_c2c_pz.pdf >

[6]Ulrike von Luxburg, A Tutorial on Spectral Clustering,
  Statistics and Computing, 17 (4), 2007.
  < http://www.kyb.mpg.de/fileadmin/user_upload/files/publications/attachments/Luxburg07_tutorial_4488%5b0%5d.pdf >

[7]木下孝史、日本語キーワードの関連度に基づく検索エンジン
  「Google」「Yahoo!」の性能比較、卒業研究報告書(平成19年度)
  < http://www.tani.cs.chs.nihon-u.ac.jp/g-2008/kinoshita/material/last_resume-1.pdf >

[8]井上聖久、単語間類似度を用いた UML クラス図の理解性評価と
  向上支援に関する研究、2011 年度修士論文
  < http://www.washi.cs.waseda.ac.jp/papers/2012/submission/t5110b019.pdf >

[9]佐藤亘、打田研二、山名早人
  検索エンジンのヒット数の信頼性に対する評価、
  DEIM Forum 2011
  < http://db-event.jpn.org/deim2011/proceedings/pdf/f6-1.pdf >

[10]馬場雪乃、ソーシャルタギングからのことばが指し示す実世界対象の
  表現獲得、博士論文 2012年6月
  < http://yukino.moo.jp/archives/dissertation/phd-dissertation.pdf >

【GrowHair】GrowHair@yahoo.co.jp
セーラー服仙人カメコ。アイデンティティ拡散。

渋谷の駅ナカの「どん兵衛屋」でどん兵衛を食べてきました。
< http://www.donbei.jp/ >
「人類は麺類」の日清食品さん、いろいろ攻めてますね。カップヌードルミュージアムとか。
< http://www.cupnoodles-museum.jp/ >
「値段のないラーメン屋」とか。
< http://getnews.jp/archives/240685 >

コンビニで売ってるどん兵衛は一個168円。駅ナカのどん兵衛はお湯を注いでくれて砂時計を添えてくれて、一杯たったの200円。10月中は、ウェブサイトからクーポン券を印刷して持っていくと、300円以上のお買い上げで100円引きとなります。2杯食えと。

天ぷらそばの関西版と関東版を食べ比べてみました。カップの外見はほぼ一緒ですが、蓋と側面にそれぞれ小さく(W)あるいは(E)と印刷してあって、区別がつきます。

中身は、見かけも味もぜんぜん違わないじゃない、と最初思ったのですが、麺を食べてから汁だけ残ると、色が違います。関西のほうが薄い。関西は香りがよろしく、関東は味がガツっときます。原材料をみると、関西で昆布エキスが使われているのに対し、関東は野菜エキスと魚介調味油と酸味料が使われています。アレルギー物質の表示で、関東ではサバが使われているのが分かります。

総合点、僅差ながら関西版のほうが、美味かったかなぁ。こうなると、北海道版が気になる。私の晩飯は、当分の間、カップ麺2杯かな。エルディシュ氏によると「数学者とはコーヒーを定理に変換する機械である」そうですが、私はカップ麺をコラムに......いやいや、それはちょっと......。