《国家プロジェクトでひとつよろしく》
■映画と夜と音楽と...[563]
40年後の名画座の前で......
十河 進
■Otaku ワールドへようこそ![162]
ウェブという名の大海に釣り糸を垂れてみる
GrowHair
■映画と夜と音楽と...[563]
40年後の名画座の前で......
十河 進
■Otaku ワールドへようこそ![162]
ウェブという名の大海に釣り糸を垂れてみる
GrowHair
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
■映画と夜と音楽と...[563]
40年後の名画座の前で......
十河 進
< https://bn.dgcr.com/archives/20121019140200.html
>
───────────────────────────────────
〈暗黒街の弾痕/復讐は俺に任せろ/赤い家〉
●年配の観客たちが熱心にスクリーンを見つめていた
上映が始まって、すでに30分近くが過ぎていた。「途中からは、入れませんよね」と念を押すと、受付の若い女性が「いいえ、どこからでも見られます。入替えなしですから...」と言う。受付横の階段を昇ると、奥と手前にドアがあった。手前のドアを開けて、静かに身を滑り込ませる。
土曜日の昼下がりである。それにしても、驚くほど観客がいた。一番後ろの通路の壁際に立ち目が暗闇になれるのを待っていると、黒々としていた人々の姿が次第にはっきり見えてくる。スクリーンが明るいシーンになり、館内の様子が明確にわかった。端っこの椅子はすべて埋まっていた。
中央の列は横に10席ほど、左右の列に4席ずつ並んでいる。それが10列ほどある(後で調べたら142席だという)。空席もあるが、映画を見ている人の前を横切らないと座れない。僕はドアの横に立ち、壁にもたれて立ち見をすることにした。フリッツ・ラング監督の「暗黒街の弾痕」(1937年)は90分ほどだ。一時間足らずで上映は終わる。
「暗黒街の弾痕」は、以前にも見ていた。ボニーとクライドは1935年5月23日に警官隊に射殺されたのだが、2年後に彼らをモデルにして作られた映画である。ユダヤ系であるフリッツ・ラング監督は、ナチス・ドイツを逃れてフランスに亡命しハリウッドに渡って数年目のことである。
ボニーとクライドというと、僕の世代はアーサー・ペン監督の「俺たちに明日はない」(1967年)を思い出す。あのせつなくも悲しいギャング映画を思うと、「暗黒街の弾痕」のどこがボニーとクライドなんだよと言いたくなるけれど、シルヴィア・シドニーとヘンリー・フォンダの夫婦がお尋ね者になり、強盗をくり返す後半を見ると確かにボニーとクライドだ。
そんなことを考えながら壁にもたれて立っていると、前から5列目の中央の席の端から人が立ち上がり、バタバタと大きな音を立てて階段を降り最前列に移動した。老女のような背中と動きだった。一瞬、その席に向かおうかと思ったが、階段を降りるときに、どうしても後ろの人の視界をさえぎることになる。自分がそれをやられたらイヤだなと思って諦めた。
その数分後、ひとりの若い男がドアを開けて入ってきた。壁際に僕が立っているのを見てギョッとしたようだったが、そのまま館内に入ってきて見渡すと身を屈めもせずスタスタと階段を降り、中央のど真ん中の席をめざし、坐っている数人の観客の前を「すいません」という感じで分け入った。呆れるより、凄いなあと思った。僕が気を遣いすぎているのだろうか。
ボニーとクライドと同じようにエディ(ヘンリー・フォンダ)とジョー(シルヴィア・シドニー)が警官隊に射殺されて映画は終わり、館内が明るくなった。人々が立ち上がる。後ろの端の席が空いたので、そこに腰を降ろした。近くの席を立ち上がった年配の男性が連れに「やっぱり、いい映画だね」と言い、友人らしい連れが「フリッツ・ラングはいいね。やっぱり、力のある監督だね」と答えた。
ふたりとも70歳は過ぎているように見えた。見渡すと、観客の平均年齢はかなり高い。僕だって年寄りだ。「暗黒街の弾痕」の日本公開は1937年、昭和12年のことである。いくら何でも、その公開を見ている年齢ではないだろうが、昔、映画青年だった時代に見たのだろうか。何となく、そんな想像をさせるふたりの会話だった。
●現在、都内で気になる三つの映画館がある
今、都内で気になる映画館が三つある。京橋のフィルムセンターは古い作品を定期的に上映し、映画研究を志す人のメッカになっているが、アカデミックすぎて僕は昔から敬遠してきた。ところが、最近、フィルムセンター的なプログラムを街の映画館が上映しているのだ。
ひとつは、ラピュタ阿佐ヶ谷。この夏には朝一回限りの上映だったが、「酒井和歌子特集」をやっていた。僕は「俺たちの荒野」(1969年)が見たくて仕方なかったのだが、いけるとしたら休日しかない。その日は都合が悪く、涙を呑んだ。今は、「娯楽の達人・監督井上梅次の職人芸」と題して30作以上を特集している。朝一番の女優特集は「新珠三千代」である。
もうひとつは、神保町シアターだ。神保町には昔から岩波ホールがあり、僕も何度かいったけれど、アカデミックすぎるのと上映が始まると後ろのドアをロックするのがイヤでほとんどいかなくなった。映画の見方を強要されている感じがするのだ。その神保町の新しい名画座が神保町シアターだ。小学館の系列らしい。日本の女優特集が多く、10月末までは「太知喜和子特集」を上映している。
シネマヴェール渋谷には、今回、初めて入った。それどころか、ビルの三階にあるユーロスペースにさえ、僕は入ったことがなかったのだ。今年の5月、どうしても見たかったアキ・カウリスマキの「ル・アーブルの靴みがき」(2011年)を見るために渋谷までたどり着いたが、前夜のアルコール摂取過多による体調不良で断念した記憶が甦った。
なぜ、僕がシネマヴェール渋谷にきたかというと、9月の初めに支配人の内藤さんという方から招待券を送っていただいたからだった。添えられた手紙には、「フィルム・ノワールの世界」という特集上映が始まるとあった。同封のパンフレットの表紙は、グレン・フォードとグロリア・グレアムである。「復讐は俺に任せろ」(1953年)のスチールを使っている。
自分の身代わりになって妻を爆殺された警部(グレン・フォード)が、ギャングたちを追い詰めていく物語だ。原作はウィリアム・P・マッギヴァーン。ギャング役を若きリー・マーヴィンが演じている。発作的に人を殺すタイプで、コーヒーメーカーを手に取り情婦(グロリア・グレアム)に煮えたぎったコーヒーを浴びせる。
最初、頭の弱い情婦役で出てきたグロリア・グレアムは、この後、顔に包帯を巻いたままヒロインになり警部に協力する。スチールに写っているグレン・フォードの脚にすがりつくシーンはないが、大きく胸の開いたドレスを身に着けているようにセクシーさで売った女優だ。ハンフリー・ボガート主演「孤独な場所で」(1950年)では、知的な雰囲気を見せていた。
ところで、なぜ僕がフィルム・ノワール好きなのを知っているのだろう。それに、招待券は自宅に郵送されてきた。よく見るとパンフレットの隅に「協賛・深夜+1」とある。ああ、冒険小説協会の会員リストで住所がわかったんだな、と納得した。確かに、フィルム・ノワール特集なら僕は喜んで出かける。それに、18作品のうち、僕は8作しか見ていなかった。
平日、会社が終わってすぐに渋谷に向かえば、2本立てを見られそうな時間だった。何度か平日の夜にいこうと思ったが、仕事をしていると何だかんだと雑用がある。ミーハー的ファンになってしまったジェニファー・ローレンスの新作「ハンガー・ゲーム」(2012年)を優先して見にいったりしたので、結局、10月初旬まで延びてしまったのだ。
本当は9月下旬の土曜日、映画評論家の滝本誠さんと柳下毅一郎さんのトークショーがあるときにいきたかったのだが、例によって前夜のアルコール摂取過多により、終日ベッドにいるはめになったのだった。年齢を重ね、僕は映画よりアルコール摂取を優先する人間に成り下がったのである。それに、昔ほど「見逃したら、今度はいつチャンスがあるかわからない」という切迫感はない。
●ジュリー・ロンドンがデビュー間もない頃に出た映画
「暗黒街の弾痕」が終わり、「赤い家」(1947年)が始まる前、僕はロビーに出て受付の女性に「支配人の内藤さんはいらっしゃいますか?」と尋ねた。面識はなかったが、招待券のお礼を言いたかったのだ。しかし、見付からず僕は名刺を渡し「次の休憩時間にまた...」と言って席に戻った。
「赤い家」は、エドワード・G・ロビンソンの主演である。監督はデルマー・デイビス。出演者の名前にジュリー・ロンドンを見付け、僕は期待した。歌手ジュリー・ロンドンは好きだが、女優としての彼女は「女はそれを我慢できない」(1956年)以外に見ていない。それに、あれは歌手のジュリー・ロンドン自身を演じたのだし、現実の人間ではなく幻だった。
「赤い家」は、ジュリー・ロンドン19歳のときの出演作だ。まだデビューして間のない頃である。しかし、最初からセクシーさで売り出したのだとわかる使われ方だった。町のハイスクールに通う男女3人が登場する。ハンサムな青年ネイト(ロン・マカリスター)とその恋人ティビー(ジュリー・ロンドン)、ネイトに心を寄せるメグ(アレン・ロバーツ)である。
映画は中西部の田舎町の農場から始まり、デルマー・デイビスの後年の名作「スペンサーの山」(1963年)のようだった。「スペンサーの山」は家族愛の物語だったが、「赤い家」はどうなのだろう。パンフレットには「怪奇とサスペンスを融合した異色のフィルム・ノワール」とあった。
スクールバスの中で、ティビーがネイトに日曜に川で泳ごうと誘っている。「水着は?」とティビーが訊き、ネイトが「着ていくよ」と言うと、ティビーが「ダメ。川で着替えるの」と意味深な視線を見せる。その横で顔を暗くするメグがいる。この3人を見た瞬間、僕は理解した。派手でセクシーなティビーにネイトは愛想を尽かし、やがて内気で清楚なメグと結ばれるのであろうと......。
メグはネイトと近付きたい気持ちから、片足が義足の養父ピーター(エドワード・G・ロビンソン)にネイトを農場の手伝いに雇ってほしいと言う。その夜、ネイトが手伝いを終えて帰るとき、「森を抜けて近道をする」のをピーターは異常なほど反対し、「赤い家の呪いが...」とか「あの悲鳴が...」と口にする。それを振り切って森に入ったネイトは、異様な悲鳴を聞く。
そのとき、後ろのドアが開いて男がひとり入ってきた。端っこに坐った僕の横には席が3つ空いていた。数列前は端っこからすべて空いているのに、なぜかその男は「入れさせてください」と僕の横に立ち、僕が脚を引っ込めると僕の視界をさえぎって奥の椅子に座った。さっき自分が気を遣ってやらなかったことを、中年男が平気でやっている。名画座にくるからといって、マナーがいいわけではないのだ。
何となく気をそがれてしらけたが、「赤い家」はそれからどんどんミステリアスな雰囲気を盛り上げてくれた。メグとネイトとティビーが赤い家を探して森に入り、それを知ったピーターがメグに異常な反応をする。エドワード・G・ロビンソンは元々が怖い顔だから、異常性を発揮し始めると映画全体が引き締まっていく。ゾクゾクするサスペンスが漂い始める。
「謎解き」という意味では、現在の物語の方がもっと複雑になっている。途中から結末は読めるし、観客に理解しやすいようにきちんと説明もされる。エドワード・G・ロビンソンが抱える過去も推測できる。おまけに、ネイトとティビーの関係も予想通りに進んでいく。派手好きで男好きのするティビーは、真面目なネイトと合わない。ハイスクールの生徒なのに、ジュリー・ロンドンは色っぽ過ぎる。
●40年前の自分が甦ってきた渋谷円山町の映画ビル
「赤い家」が終わり、僕は再びロビーに出た。名刺を渡しておいた受付の女性がやってくる。「支配人は出かけてしまったのですが...」と、「館主です」と男性を紹介してくれた。事前に調べておいたので、内藤支配人のご主人だとわかった。「招待券をわざわざお送りいただいて......」とモゴモゴ言うと、「......さんのご関係ですか?」と訊かれる。「たぶん、『深夜+1』の関係ですね」と答え、改めて挨拶した。
それから、階段でゆっくり降りた。三階がユーロスペースだ。ロビーの造りは、ほぼシネマヴェーラ渋谷と同じ。受付に若い女性がふたり座っており、その向かいの壁際の椅子に外国人の青年が腰を降ろし話をしていた。アジア系の男性だ。中東に近い地域の人のように見えた。頬を髭がおおっている。
二階も同じような造りだった。さらに一階に降りる。まったく知らなかったが、映画美学校という学校が入っている。その試写室もあるらしい。ビル全体が映画一色に染められている。学生らしい若者たちがたむろしている。留学生だろうか、外国人の若者の姿も目に付く。ビルを出ると、一階に併設されたカフェのオープンスペースがある。
映画美学校は、アテネ・フランセ文化センターとユーロスペースが共同で創設した映画学校だという。昔からアテネ・フランセや日仏学院では、なかなか見られない映画が上映された。40年前、大学生の頃に僕もよく通ったものだった。もっとも、フランス語の作品に英語の字幕での上映ということもあり、内容がよくわからなかった作品もあった。
新宿の紀伊国屋ホールでも、ときどき特集上映があった。ジャン・リュック・ゴダールの「中国女」(1967年)「ウィークエンド」(1967年)「東風」(1969年)は、そこで見たと思う。あの頃、僕は貪欲にどんな映画でも見た。一度見逃したら二度と見られないかもしれないという思いで、集中して見たものだ。あの頃の僕が今を生きていたら、間違いなくこのビルに通っているだろう。そう思ったとき、オープンスペースの椅子に腰かける20歳の僕が見えた。
しかし、一歩道に出ると、そこはホテル街で有名な円山町だった。両隣はホテルであり、向かいの路地の奥にもホテルのネオンが輝いている。Bunkamuraへ向かう坂をゆっくり降りながら、映画が三度の飯より好きで、文字通り昼飯を抜いて名画座に通っていた、ガリガリに痩せた20歳の自分はもう二度と戻らないのだと、実感していた。あまりに......、あまりに長い時間が過ぎ去ったのだ。
【そごう・すすむ】sogo@mbf.nifty.com < http://twitter.com/sogo1951
>
息子が愛知県に転勤になり、家から出ていった。早く独立してほしいのだが、30でも実家にいるのは最近では珍しくもないらしい。息子は20歳頃から5、6年はひとり暮らしをしていたので心配はしていないが、何となく淋しくはある。
●長編ミステリ三作の配信開始→Appストア「グリフォン書店」
→以下でPC版が出ました。楽天コボ版、キンドル版も予定しています
< http://forkn.jp/book/3701/
> 黄色い玩具の鳥
< http://forkn.jp/book/3702/
> 愚者の夜・賢者の朝
< http://forkn.jp/book/3707/
> 太陽が溶けてゆく海
●第25回日本冒険小説協会特別賞「最優秀映画コラム賞」受賞
既刊三巻発売中
「映画がなければ生きていけない1999-2002」2,000円+税(水曜社)
「映画がなければ生きていけない2003-2006」2,000円+税(水曜社)
「映画がなければ生きていけない2007-2009」2,000円+税(水曜社)
→電子書籍版「映画がなければ生きていけない」シリーズもアップ!!
「1999年版 天地創造編」100円+税
「2000年版 暗中模索編」から「2009年版 酔眼朦朧編」まで 各350円+税
※書籍版も電子書籍版もhonto.jpで購入できます
< http://honto.jp/netstore/search_10%E5%8D%81%E6%B2%B3%E9%80%B2.html?srchf=1
>
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
■Otaku ワールドへようこそ![162]
ウェブという名の大海に釣り糸を垂れてみる
GrowHair
< https://bn.dgcr.com/archives/20121019140100.html
>
───────────────────────────────────
上野さんと渋谷さんと新宿さんと池袋さんの4人がごしゃっと固まって立っています。だいぶ距離を置いて原宿さんが立っています。「ワタシは仲間じゃないんだからねっ。一緒にしないでよねっ」。
先の4人を挟んで原宿さんと反対側に、やはり相当の距離を置いて新大久保さんが立っています。「あれぇ〜、みんなとは近いんじゃないかと思ってたんだけどなぁ」。
さて、上記の6人のラインとはまた別の方角に、新橋さんと市ヶ谷さんと五反田さんがごしゃっと固まって立っています。その向こうには飯田橋さんもいます。あ、反対側のぽかっと空いたエリアに一人ぽつねんと立っているのは、なんと、秋葉原さんではありませんか。「あれっ? まわりに誰もいませんね」。
それを平面上にプロットしてみたのが図-1です。
< http://www.geocities.jp/layerphotos/FigDGCR121019/FigDGCR121019.html
>
地理的な位置関係ではなくて、街の醸し出す雰囲気の近い遠い、言い換えると似てる似てないを表しているのですが。いかがでしょ? みなさんの感覚と合っていますか? 実は、これ、私の個人的な感覚で配置してみた、ってわけでもないのです。
図-1をよくよく見ると、X軸とY軸が引かれていて、目盛が打ってありますね。つまり、上野さんたちみんなが立っている位置が数値データで得られているということです。では、そのデータはどっからどうやって引っ張ってきたのでしょうか。それは、情報の大海から釣り上げてきたのです。
情報の大海とは、ウェブサイトです。日本語ページだけでも、百億ページぐらいあるんじゃないかと言われています。そこから魚を一本釣りしてくるための釣り竿は検索エンジンです。具体的にはGoogle。"上野"で検索をかけると、その文字列を含むページがわさっと釣れるわけですな。
釣れた魚に味付けして缶詰にする工場は、統計計算ソフトです。具体的にはExcel。統計計算するマクロは拾ってきましたけど。それだけのお膳立てがあればできちゃいます。
これ、第一に、ちょっと面白いでしょう? ウェブから引っ張り上げてきた「みんなの感覚」みたいな統計データを「自分の感覚」と照合してみて、合ってるの合ってないのって論評しあうだけでも、ちょっと楽しくなりませんか?
第二に、もしかすると、役に立つかもしれない。関西方面に住んでいる人が、関東に引っ越すことになったとして、今住んでいるところに近い感じの街って、東京近辺だとどの辺なんだろう、って思ったとしましょう。これ、そこら辺の人に聞いてみても、不動産屋に相談してみても、ウェブ上の「質問箱」みたいなサイトに投げかけてみても、ずばり答えてくれる人って、そんなにいないんじゃないかと思います。
けど、ウェブにすでに上がっている雑多な情報の海から、必要なところをうまく釣り上げれば、たちどころに答えが現れるのではないかと。
そうすると、第三に、これは商売になるんじゃないか、って考えちゃいますね。このシステムを導入した不動産屋は、お客様のかゆいところに手が届く情報を提供することができて、繁盛するんじゃなかろうか、とか。
駅名を例に挙げたのは、感覚と照合しやすいんじゃないかと思ったからであって、対象は何でもOKなのです。クラシック音楽の作曲家でも、ラーメン屋でも、映画のタイトルでも、ゆるキャラでも。工夫次第で、いろんな商売の尻押しをしてくれる強力な助っ人になる可能性があります。
それだけでは終わらないかもしれません。駅間の類似性の抽出なんて例は、いくらの価値もない、些細なことかもしれませんが、もしかすると、この小さな一事が、情報の大海とわれわれ人間との関わり合い方の近未来像を示唆しているのかもしれません。
●「集合知」の次に来るものは、「巨大知」とマイニング技術
順を追ってお話しようと思ってましたが、近未来像のところを先にちょこっとだけ言っちゃいます。
「集合知(collective intelligence)」という言葉があります。この言葉、もはや、いろんな意味に使われちゃってます。集団の意思決定のメカニズムのことであったり、ウェブのような知識の大海のことであったり、ウィキペディアのように、与えられた場に対して、みんなで寄ってたかって知識を提供しあう現象のことであったり。
ここでは、上記最後の意味で使いたいと思います。その意味の他の例としては、オープンソースソフトウェアも挙げられます。ソフトウェアのソースプログラムを公開しておくと、人々が自発的にソースに手を加えて、機能を拡張していくということが起きます。あたかも、ソフトウェア自身が勝手に成長したかのごとくみえます。
ウィキペディアもオープンソースも、成長の過程においては間違いやバグが入り込むこともあります。けど、いずれは誰かが気がついて修正し、たいていの場合、正確で有益な知的産物へと完成度を高めていきます。『「みんなの意見」は案外正しい』という本が出ていますね[1]。
さて、この意味の集合知は、場が与えられれば知が集まる、という現象のことです。ウェブ全体というのも広い意味ではこのくくりで解釈することも可能なのかもしれませんが、実際問題、ウェブに上がっている情報は、そんなに立派なものばかりではありませんね。雨が降ってきたとか、うどん食ったとか、花が咲いたとか、タレントの何某はかわいいとかかわいくないとか。集合知というよりは、集合愚のイメージに近いかも。
ほとんどの情報が石ころみたいなものであったとしても、中には光るものが埋もれています。間違いなく。けど、それらはまとまってなくて、どっかにバラバラに散在していて、何らかの手を使って掘り出さないと出てきません。この玉石混交な情報のごった煮原始スープみたいなものを、集合知と区別して、何と呼びましょうか。
「巨大知(organic intelligence)」という用語があります。2010年ごろから出てきました。価値ある情報がどこかに一極集中したりしない巨大な情報プールというイメージは求めているものに近いのですが、この用語は、それに加えて、センサーの捉えた大量のデータが自動的にウェブにアップされることで、さらに巨大化するぞ、という方向性も含意しています。
唱えているのは楽天株式会社の楽天技術研究所です。「サードリアリティ」というビジョンを策定しており、その中で巨大知についても述べています。『ウェブ大変化 パワーシフトの始まり』[2]という本に説明されています。著者は上記研究所の所長である森正弥氏です。ちょいと拾い読みしてみましょう。
情報は爆発している。大量に氾濫する情報をいかに処理し、いかに意味ある
ものを分析・抽出するかが肝要だ。多種多様の情報の中から必要な情報を的
確に検索・解析するための技術が必要であり、大量なデータを効率的かつ高
速に処理する基盤等が求められる。
多種多様かつ巨大、そして刻一刻と更新され、ブラッシュアップされていく
データや情報や知識を、高速に検索する技術やそこから適した情報を推薦す
る技術、そして意味・関係性をマイニング(解析)していく技術と高度に融
合させ、価値を次々と生み出すことが、今後当たり前になる。これは「知」
という概念に対する大きな変革である。
●Googleへ行ってひたすら検索をかけまくる
さて、先ほど示した上野さんたちの立ち位置のマップも、一種のデータマイニングの産物と言えます。「マイニング(mining)」、もともとの意味は「採掘」ですな。地中から価値ある鉱物を掘り出すこと。では、どうやって掘り出したか、解説しましょう。
......と行きたいところですが、詳細は今の時点では伏せさせておいてください。ホントに商売になるかもしれないという下心がありまして。けど、そんなにすごい秘法ってわけでもなく、やったことは、Google でひたすら検索をかけて、ヒット件数を拾い出すという、割かし泥臭い作業です。これ、手作業でやりました。アホか、ってぐらいの回数、検索してます。一回の検索リクエストのことを「クエリ(query)」と言います。全部で何クエリぐらい発行したか。それも聞かないでおいていただけると。
けど、おおよそのところはここ[3]に書いてあります。Google の学術記事検索によると、この論文を引用している記事は676件あると言っています。オリジナリティ、価値、貢献度ともに非常に高い論文と言えましょう。この論文の肝は、「正規化グーグル距離(normalized Google distance)」という概念を提唱しているところにあります。
ふたつの単語またはフレーズがある時、それらの間の意味的な距離を、Google検索のヒット件数に基づいて算出しよう、というアイデアです。そのふたつの単語またはフレーズをx,yとしましょう。xを単独で検索して返ってきたヒット件数をf(x)としましょう。yについても同様にf(y)としましょう。
検索窓にxとyとを両方入れると、AND検索となり、両方とも含むページが抽出されるのですが、このヒット件数をf(x, y)としましょう。
さらに、Googleがインデックスしているウェブページの総数を N としましょう。4つの数値f(x), f(y), f(x, y), Nを使って、xとyの「正規化グーグル距離」NGD(x, y) を算出する式が示されています。
この式を編み出す下敷きになっている概念は、コルモゴロフ複雑性(Kolmogorov complexity)というものです。けど、それについての導入と詳細については教科書[4]を参照してください、と言っています。日本語のウィキペディアの「コルモゴロフ複雑性」の項目でも、そこそこ説明されています。
さて、2語の組み合わせについて、総当たりでひたすら検索をかけてヒット件数を拾い出すと、縦横に配列された、ヒット件数の表が出来上がるわけです。あとは、クラスタリングという統計処理にかけると、近いものどうしのかたまりに分類することができます。
クラスター(cluster)とは、ぶどうのような果実の房のことであり、粒々がいくつか集まってかたまりをなしている状態を表しています。駅の例では、上野さんと渋谷さんと新宿さんと池袋さんの4人がひとつのクラスタをなしており、新橋さんと市ヶ谷さんと五反田さんと飯田橋さんの4人がまた別のクラスタをなしています。
この論文では、階層的(hierarchical)クラスタリングが採用されています。その用途だったら、スペクトラル(spectral)クラスタリングが適しているよと提案する論文が北海道大学から出ています[5]。分類したいクラスタの総数kをあらかじめ決めておきます。2語の組み合わせの総当たりで検索をかけて得られたヒット件数の表に対して、ちょいと加工を加えると、「グラフ・ラプラシアン(graph Laplacian)行列」という形式に変換することができます。
この行列を固有値分解し、固有値のうち小さいほうからk個に対応する固有ベクトルを求めます。k個のn次元ベクトルの行と列を入れ替えてn個のk次元ベクトルとみなし、これをクラスタリングします。そのクラスタリングには、割とポピュラーなk-means法が使えます。
つまり、最初はn個の要素どうしの距離しか分かっていなかったのが、ラプラシアン行列の固有値分解という操作を経ることで、k次元ベクトル空間のn個の点として割りつけることができたというわけです。
って、私はいちおう読んで、アルゴリズムとしてはそうなんだと理解したわけですが、どうしてそれでうまくいくのか、ってところが飲み込めていません。なので、ちょっと神秘的な魔術のように見えていたりもします。そのあたりのことはチュートリアル[6]に解説されているようなので、後でじっくりと読んでみます。
実験では、日本語の経済用語20語とコンピュータ用語10語を与え、2クラスタに分類してみています。すると、「環境」が意図に反してコンピュータ用語側に落ちてしまった以外はちゃんとクラスタリングできていた、とあります。
いや、「ソフトウェアの動作環境」みたいにコンピュータ用語としてもよく使いますよ「環境」って言葉。外れたことをもって、この手法の信頼性がますます確たるものになったように感じられます。筆者より賢いグーグル先生。
この論文では、他にも面白いことをいろいろ言っています。NGDを算出するにはGoogleのインデックスしたページの総数Nが必要になるのですが、Googleはそれを公表していません。「の」で検索して返ってきたヒット件数をもってNとすればいいのではないかと提案しています。やってみたら、約百億ですな。ちなみに「e」では約250億。
NGDは「遠さ」の指標ですが、ラプラシアン行列では「近さ」の指標を用いる必要があります。その変換には、ガウシアン関数を使うのがいいと言っています。いろいろ親切です。
さて、伏せる伏せると言っておきながら、これで全部言っちゃったも同然です。なので、詳しく知りたい方は、上記2本の論文を読んでみてくださいませ。
●おいおい、出遅れてないかい、日本
先ほど、正規化グーグル距離(NGD)を提唱する論文は、676件の文献から引用されていて、非常に価値が高いと言いました。では、日本で書かれた文献からの引用数はどうでしょう。私の探し方が下手なんでしょうか。特許がたったの3件、論文がたったの4件しか出てきませんでした。
探し方のせいだったら、別にいいんです。けど、もし、この論文を発見している日本人がまだ非常に少ないのだとしたら......めちゃめちゃヤバいですよぉ! 巨大知からデータマイニングするという広範で重要な学術分野が丸ごとスコッと抜け落ちてるってことですからねぇ。
3件の公開特許は、いずれも日本電信電話株式会社(NTT)から出願されています。特許は出願すると、約 一年半後に公開されます。放っておくと、自動的に取り下げとみなされてしまうので、出願から3年以内に審査請求する必要があります。特許庁の審査官による審査の結果、要件を満たすと判定されれば特許が成立して登録となります。
NTTの3件はいずれも2010年に出願されていて、2012年に公開されています。まだ特許として成立はしていません。発明の名称はいずれも「情報検索装置、情報検索方法及び情報検索プログラム」で、発明者3人の氏名も共通しています。
1件目は、複数の映像から一本の要約映像を自動的に生成しようというもので、元の映像を適当な区間に分割しておき、各区間から抽出された特徴量をある種の評価関数に渡すことで評価値を算出し、それを最大化するように区間映像の選定と順序づけを行うというものです。
2件目は、モバイル端末がパソコンと違ってキー入力装置が非常に小さいために文字列の入力が不便であることに鑑みてなされた発明であり、キーワード入力を必要しない操作性のよい映像検索を可能にすることを目的としています。データベースに格納された映像について、関連度の高いものどうしが近くに配置されるよう、平面上に散りばめて表示しておき、ユーザはこの平面を移動することにより目的の映像を見つけて選択することができるというものです。
3件目は、近年のオンラインコンテンツの爆発的増加に伴い、少数のキーワードのみで検索をかけたのではなかなか目的のコンテンツにたどり着けなくなっていることに鑑みてなされた発明で、長いクエリの途中まで入力した時点で、続きの予測文字列を表示することで、ユーザのクエリ入力の負荷を軽減しようというものです。
論文4件のうち1件は、日本大学文理学部の学生の卒論です[7]。GoogleとYahoo!の性能を比較して、Googleの勝ち、と言っています。けど、そこで定義している勝ち負けの判定基準は、堅牢性に疑問が残ります。その基準の裏をかいて勝つことができるインチキ検索エンジン、簡単に作れちゃいますよぉ。2語組み合わせのヒット件数を極端に高く返しておけばいいだけですな。
2件目は、早稲田大学の修士課程の学生による修士論文です[8]。内容をちゃんと理解したわけではないのですが、NGDから類似度の指標に変換するのに、単純に1から引いちゃってるとこが、不満です。NGDって、Nが大きければめったに1を超えることはないんですが、理論的には0からプラス無限大までの値をとりえます。ガウス関数を用いる方法が[5]に書いてあるのだから、それを使えばいいんじゃないかと。
3件目は、やはり早稲田大学から出されています[9]。Googleが返してくるヒット件数の信頼性について考察しています。NGDを提唱している元の論文でも、Googleがちゃんとしたヒット件数を返していないと構想が骨抜きになってしまうという懸念が述べられていますけど、そこを掘り下げています。
研究課題としては割と小粒な感じがしないでもないですが、実用面からとても大事な注意点を指摘しています。時系列で追うと、ヒット件数がガタっと窪むところがあって、油断がならないですな。ううむ。
4件目は、東京大学の博士課程の学生による博士論文です[10]。6月に発表されたばかりです。この論文、ホレボレするくらい、すばらしくよく書けてます。このジャンルの先行研究を広く深く、よーく勉強しているなぁ、って感心させられたというのがひとつ。人類と情報との関わり合い方の未来像に関して、独特のビジョンを持っているなぁ、とスケールの壮大さを感じられたというのがひとつ。
元のNGDの論文で、NGD自体は文字列と文字列との距離を求める一手法ではあるけれど、実際に遠い近いを計測しうる対象としてはそれに限らず、音楽にでも画像にでも応用が利く、と述べられています。馬場氏の論文は、そこを掘り下げて、言葉と実世界とのつながりをテーマにしています。楽天の提唱する「サードリアリティ」に通じるものを感じます。
本筋以外にも、これは重要だと思えることがいろいろ書いてあります。Googleのインデックスしたページの総数をリアルタイムで推定しているサイトの紹介とか。余談ですが、"アンカー語群"でググると、この論文1件しか出てきません。しばらく経つと、この文章がヒットするようになるでしょうけど。
●国家プロジェクトでひとつよろしく
巨大知からデータマイニングする上で、一番重要な鍵を握っているのはGoogleです。完全に頼りきりです。もしも、Googleが公益に資する検索エンジンなのは見せかけの姿であって、本当は世界征服をたくらむ悪の権化だったとしたら、......って、SFチックな陰謀論を唱えるわけではありませんが。やっぱり心配な点がいくつかあります。高い、不正確、独り占めされてる。
まず、値段がべら高いです。え? タダじゃないの? 確かに、Googleのウェブサイトへ行って、検索窓にキーボードから文字列を打ち込んで検索する分にはタダです。けど、データマイニングに使おうと思ったら、手作業じゃやってられないくらいの数のクエリを発行しないとなりません。どうしてもプログラムでガンガンぶん回さないとなりません。そのためのAPIが用意されています。
けど、それはタダじゃないんです。1,000クエリ5ドル。高っ! 小原庄助さんは朝寝朝酒朝湯が大好きで、それで身上つぶしたそうだけど、こっちはGoogle道楽で身上つぶしかねない。あ〜もっともだぁ、もっともだぁ。
それで返されるヒット件数が正確ならまだしも、これがけっこう信用まかりならんのです。
「"魑魅"」:約1,420,000件
「"魍魎"」:約1,560,000件
「"魑魅" "魍魎"」:約41,700件
「"魑魅魍魎"」:約1,900,000件
おかしいですよね? 「"魑魅" "魍魎"」のヒット件数がやけに少なすぎます。これでは、魑魅と魍魎との関連性はかなり薄いと判定されてしまいます。しかも、「"魑魅魍魎"」のヒット件数が、「"魑魅"」や「"魍魎"」よりも増えてるって、理屈に合いません。さらに、「"魑魅" "魍魎"」のヒット件数が「"魑魅魍魎"」よりも少ないっていうのも理屈に合いません。「金襴緞子」についても、同様のことが起きます。「悪戦苦闘」では割とまともです。
まじめに検索をかけてヒット件数を勘定していては処理時間がかかりすぎるので、適当にちょろまかして、なんらかの方法で算出した推測値を返しているのでしょう。でも、それがよく外れます。われわれは、巨大知から情報を抽出しているつもりになっているけど、その実、Googleの推測値算出のノウハウを漁ってるだけだった、ってことになります。巨大知まで手が届いていないというか。払ったお金と出てきた情報の価値のバランスの悪さがなんともかんとも......。
まともに検索かけてちゃんと勘定するプログラムは、Googleの内部では持ってるはずだけど、それによる結果を外部の人は誰も見ることができません。独り占めです。
いま、ここに巨大なゴミの山があったとしましょう。その中には、価値のあるものが埋もれている可能性があります。道具がなければ、こつこつと漁るしかありません。けど、いまここに、金(きん)やらプラチナやらダイヤモンドやら一万円札を引き付ける磁石のようなものを持っている人が一人だけいたとしましょう。明らかに、ゲームはその人の独り勝ちですね。根こそぎ持っていかれます。
大量に氾濫する情報から意味のあるものを抽出する技術が今後の価値創出のキーとなる、というビジョンが示されている中、その道具がGoogleに独占されている現状というのは、不安になりませんか? てか、まずいっしょ。けど、Googleに対抗できるものを構築するとなると、国家プロジェクトぐらいの規模でないとできないでしょう。
日本政府さんよ、ポンと一兆円ぐらい(かかるかどうか分かりませんが)投じて、作りませんか、検索エンジン。さしあたってインデックスするのは日本語サイト限定でもいいですから。ひとつ、よろしく。
●人類補完計画
われわれは、今後、データマイニング技術により巨大知から抽出される情報の恩恵を得るようになります。それは、われわれの生活の利便性がちょっと向上するといった程度の影響にとどまってはいません。われわれと知との関わり方が、根本からひっくり返ります。そして、われわれ自身が変容していきます。
今まで、知というものは、主として私たちの脳の中に蓄積されていました。勉強するとは、授業や講義を聞いたり教科書や参考書を読んだりすることで、外部の知を脳内に詰め込む作業でした。テストを受けるとは、それを外部に書き出すことによって、いかにたくさん正確に詰め込んであったかを示す作業です。
実生活においては、脳内に詰め込みきれなかった知識をハードディスクやクラウドに預けておくことができます。あるいは、管理しきれないスケジュールを、スケジューラソフトが支援してくれます。けど、それらはあくまでも脳の拡張であり、補助的な位置づけでした。
でも、近未来においては、これが逆転します。人類がみんなで共有する巨大な知のプールがそこにあって、それが知的存在たる人類そのものの姿とも言えます。個々の人々は知の巨大プールにぶら下がっています。24時間365日、常につながっています。
人々の記憶の大半は巨大知側に預けられ、頭の中はいつもほぼ空っぽでいい。パソコンの内蔵ディスクは、本体が壊れるとアクセスできなくなっちゃうので、ローカルなハードディスクにデータを置いておくよりは、クラウドに預けちゃったほうが、便利で安心です。それと同じこと。人の記憶は死ぬと失われちゃいますけど、巨大知の側になんでもかんでも預けておけば、ずっと残ります。
勉強するとは、巨大知へのアクセスに慣れること。どんなアクションをとると、どんな知が引っ張り出せるか、それが分かっていればいい。情報検索のコツを体得したところで、それで英語がしゃべれるようになるわけでもないし、数学の問題が解けるようになるわけでもありません。けど、それでいいのです。巨大知の中から必要な知を取り出す手段さえ体得してれば、知っているのと同じことです。人類の中に、誰か、英語がしゃべれる人がいれば、自分がしゃべれるのと同じことなのです。
四六時中巨大知とつながっているのに、テストの時間だけ切り離して、脳内の記憶で勝負しろ、なんて無茶は言いません。つながりっぱなしでいいのです。出題された問題を検索窓に放り込んで、答えが見つかったらコピペすればOKです。答えがどこにも書いてないようなオリジナリティの高い問題を出されたら、掲示板みたいなところに質問を投げれば、きっと誰かが考えて答えてくれます。いつかあったようなカンニング事件、あれはそのうちカンニングでも何でもなくなり、通常の受験風景になります。
それじゃ意味ないですか? 意味ないですね。そのうち、テストなんてもの自体、廃止になっちゃうかもしれません。巨大知の巨大さに比べれば、一人ひとりの脳内に納まってる知識の量なんて、たかが知れたもの。それの多い少ないを競ったってしょうがないのです。巨大知は誰に対しても平等に開かれているので、知識の量はみんな同じ。テストなんて、意味がなくなります。
人々は巨大知からうんとたくさん恩恵を受けて、各自はほんのちょっとだけ独自の知見を付け加えることができさえすれば、それでバランスがとれてます。どうしても能力を比べたいなら、独自の知見をたくさん加えた人が偉い、ぐらいでしょうか。そこでがんばりたいって人はがんばればいいけど、そうでもない普通の人は、頭の中は常にからっぽでもだいじょうぶです。ものを覚えなくてもいいし、ものを考えなくてもいい。
ある日、A男さんとB子さんに同じ内容のメールが届きます。差出人はコンピュータ。「A男様、B子様、膨大なデータを分析した結果、あなたがたお二人は相性がぴったりであることが判明しました。もしよろしければ、結婚をご検討されてみてはいかがでしょうか」。なんか説得力ありますね。二人は結婚します。けど、すぐに別れちゃいます。コンピュータ、めげずに「こんな人と結婚した人は、こんな人とも結婚しています」。
参考文献
[1]ジェームズ・スロウィッキー(著)小高尚子(訳)
『「みんなの意見」は案外正しい』、角川書店(2006/1/31)
[2]森正弥『ウェブ大変化 パワーシフトの始まり』、近代セールス社
(2010年)
[3]Rudi L. Cilibrasi and Paul M. B. Vitanyi,
"The Google Similarity Distance",
IEEE Transactions on Knowledge and Data Engineering,
Vol. 19, pp. 370-383, 2007.
< http://arxiv.org/pdf/cs/0412098.pdf
>
[4]M. Li, P. M. B. Vitanyi. An Introduction to Kolmogorov
Complexity and Its Applications, 2nd Ed.,
Springer-Verlag, New York, 1997.
[5]Jan Poland and Thomas Zeugmann,
Clustering the Google Distance with Eigenvectors and
Semidefinite Programming
< http://www-alg.ist.hokudai.ac.jp/%7Ethomas/publications/dag_c2c_pz.pdf
>
[6]Ulrike von Luxburg, A Tutorial on Spectral Clustering,
Statistics and Computing, 17 (4), 2007.
< http://www.kyb.mpg.de/fileadmin/user_upload/files/publications/attachments/Luxburg07_tutorial_4488%5b0%5d.pdf
>
[7]木下孝史、日本語キーワードの関連度に基づく検索エンジン
「Google」「Yahoo!」の性能比較、卒業研究報告書(平成19年度)
< http://www.tani.cs.chs.nihon-u.ac.jp/g-2008/kinoshita/material/last_resume-1.pdf
>
[8]井上聖久、単語間類似度を用いた UML クラス図の理解性評価と
向上支援に関する研究、2011 年度修士論文
< http://www.washi.cs.waseda.ac.jp/papers/2012/submission/t5110b019.pdf
>
[9]佐藤亘、打田研二、山名早人
検索エンジンのヒット数の信頼性に対する評価、
DEIM Forum 2011
< http://db-event.jpn.org/deim2011/proceedings/pdf/f6-1.pdf
>
[10]馬場雪乃、ソーシャルタギングからのことばが指し示す実世界対象の
表現獲得、博士論文 2012年6月
< http://yukino.moo.jp/archives/dissertation/phd-dissertation.pdf
>
【GrowHair】GrowHair@yahoo.co.jp
セーラー服仙人カメコ。アイデンティティ拡散。
渋谷の駅ナカの「どん兵衛屋」でどん兵衛を食べてきました。
< http://www.donbei.jp/
>
「人類は麺類」の日清食品さん、いろいろ攻めてますね。カップヌードルミュージアムとか。
< http://www.cupnoodles-museum.jp/
>
「値段のないラーメン屋」とか。
< http://getnews.jp/archives/240685
>
コンビニで売ってるどん兵衛は一個168円。駅ナカのどん兵衛はお湯を注いでくれて砂時計を添えてくれて、一杯たったの200円。10月中は、ウェブサイトからクーポン券を印刷して持っていくと、300円以上のお買い上げで100円引きとなります。2杯食えと。
天ぷらそばの関西版と関東版を食べ比べてみました。カップの外見はほぼ一緒ですが、蓋と側面にそれぞれ小さく(W)あるいは(E)と印刷してあって、区別がつきます。
中身は、見かけも味もぜんぜん違わないじゃない、と最初思ったのですが、麺を食べてから汁だけ残ると、色が違います。関西のほうが薄い。関西は香りがよろしく、関東は味がガツっときます。原材料をみると、関西で昆布エキスが使われているのに対し、関東は野菜エキスと魚介調味油と酸味料が使われています。アレルギー物質の表示で、関東ではサバが使われているのが分かります。
総合点、僅差ながら関西版のほうが、美味かったかなぁ。こうなると、北海道版が気になる。私の晩飯は、当分の間、カップ麺2杯かな。エルディシュ氏によると「数学者とはコーヒーを定理に変換する機械である」そうですが、私はカップ麺をコラムに......いやいや、それはちょっと......。
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
編集後記(10/19)
●うおー、GrowHairさん、原稿の提出先を間違えたんじゃないのか。と思うくらい難解でした。原稿整理していてサッパリ意味がわからないのって屈辱。彼によれば、行列とか固有値とかいうのは高校レベルの知識があれば理解できるだろうと。説明を省略したところもあるのでウィキペディアで読んでネ、わりとちゃんと書かれているから、って読んだけどますますわからなくなった。
小中学校の算数、数学はよくできた方だが、高校一年の数学で躓いて以来、今に至るまで倒れたまんまだから当然だ。高校では二年、三年に進級する際に数学の追試を受けたが、男生徒は二人だけで(女生徒は多数)、二回とも同じ人物だった。もう一人の数学馬鹿は先日死んだ。
小5の孫娘が算数の宿題で相談にきたら、かっこよく解き方を教えようと、新聞の連載算数教室をスクラップしているが、つるかめ算、方陣算、数の性質、論理的思考、図形などなど、解き方を読んでもよくわからない。なんで昔は楽々理解できたんだ。いまの算数は昔より難しくなったのか。(柴田)
●GrowHairさんの面白い〜! 計算は全部理解してないけど、考え方は興味深いです。日本政府頑張れっていうのにも。最新情報が検索できる『FreshEye』が好きだった〜。記憶に関してだけは、最近使わないと単語が出てこないから極力......あっ、他のことに頭を使うようになるってことか。
いるなぁ。途中から入ってくるのにタイミングをはからない人、腰をかがめない人。アイドルグループが出演する舞台を観た時に、そのアイドルが出てくる直前に堂々と最前列中央に入ってきて、次の出演まで時間があると出ていく女性がいたわ。で、また途中入場。
腰はかがめないわ、盛った髪型だわで、近辺の人たちに同情したよ。大抵の舞台では、遅れた人は区切りのつくタイミングまでは着席させない。オープニングでお客さんの心をつかまないといけないから。で、以前にも後記に書いたけれど、その人はお腹を下しているのだと思うことにした。不思議と許せるようになるからお試しあれ。
蛍嬢(客席案内係)の開演前の客席での注意事項説明は、携帯電話の電源を切ること(マナーモード不可・アラームでも起動させない)、カメラ・ビデオでの撮影禁止、テープレコーダー類での録音禁止、観劇中の飲食禁止。このあたりは普通。
気の利いた劇場だと、観劇中のおしゃべり禁止、背もたれに背中をつけての観劇(身を乗り出すと危険な席への注意はもちろん、傾斜のある客席だと、前屈みになると後ろの人が舞台を見えなくなるから)、ビニール袋で音をたてないように配慮願い(劇場で配られるチラシ類は音のしないビニール袋に入ってる。コンビニやスーパーの袋はカシャカシャ音がする)なども注意事項に含まれる。
新幹線の指定席や自由席で肘掛けに肘をかけられるのは、競合しない両端だけ。劇場でも同じく、肘かけは区切りでしかないので、両端以外は肘をかけてはならない。加えて、演者らが通路に出てくる可能性がある場合は(座席と舞台の間に数段の階段が出ている時は)、両端も肘はかけられない。区切り線を越えて足を広げない。荷物も区切り線内に。大きな荷物はコインロッカーへ入れる。(続く)(hammer.mule)
< http://www.wowow.co.jp/pg_info/detail/100893/
>
キーファー・サザーランド主演の海外ドラマ『Touch』まだ見てないけど