訳すのは「私」ブログ

書いたもの、訳したもの、いただいたものなど(ときどき記事)

「「遠読」以後――デジタルヒューマニティーズと文学研究」

共訳書ホイト・ロング『数の値打ち――グローバル情報化時代に日本文学を読む』(フィルムアート社)刊行直前ということで、

『UP』2017年2月号に掲載した「「遠読」以後――デジタルヒューマニティーズと文学研究」という文章を公開します。

 

「遠読」以後――デジタルヒューマニティーズと文学研究

 

一、「遠読」の誕生


 昨年、共訳書フランコモレッティ『遠読――<世界文学システム>への挑戦』(みすず書房)を刊行した。「遠読」とは聞きなれない言葉だろうが、モレッティの造語distant readingの訳語として考案されたものだ。文学研究において金科玉条とされてきた「精読 close reading」に対するあてこすりとして誕生したこの概念は、悪名高い論文「世界文学への試論」のなかで二〇〇〇年に提唱されると、モレッティ自身「なかばジョークのつもり」だったと告白したにもかかわらず、響きのインパクトもあって人口に膾炙するようになった。


 モレッティ自身、コロンビア大学から移籍したスタンフォード大学で、文学の実験室――「リテラリー・ラボ」として設立された研究機関に参加、新しいアプローチの研究にいそしむようになった。その成果の一部は『遠読』にもおさめられている。その成否については実際にお読みいただくしかないが、「遠読」は提唱者であるモレッティ自身の手をはなれて、デジタルヒューマニティーズ界隈でも一種の鍵言葉として流通するようになった。

 

二、DHの席巻


 現在、デジタルヒューマニティーズ(以降DH)はわが国でも注目を集め、多くの分野で流行語になっていると言ってよい。しかし、少なくとも文学研究に限った場合、研究者のあいだでもそのイメージはかなり限定されているのではないか。

 

 おそらく、現状日本で想像されているのは、資料のデジタル化にともなうアクセスの利便性向上や、電子テクストからなる拡大したコーパスを利用した研究などだろうか。技術の進歩はもちろん、研究の発展に大いに寄与することだろう。


 しかし、こうした流れは、いままですすめられてきたデータベース化や電子化から大きく外れることはないとも言える。利便性はさらに推し進められるだろうが、「文学研究」そのものの性質を劇的に変えてしまうとは言いがたい。畢竟、内容についての吟味や情報交換も専門家で盛んにされているとは言えない現状がある。現在、日本では、少なくともある程度の規模の文学研究系の学会で、本格的にDHを用いた研究発表や論文投稿はほとんどおこなわれていないのではないか。よくも悪くも、対岸の火事として傍観しているのではないか。


 他方で、北米のDHの受けとめ方は、様々な点で上記のような日本での認識と大きな差があると言わざるをえない。現に、米国の学会に参加してみると、DHの波をひしひしと感じることができる。著者が比較的よく顔をだすアメリ比較文学会といったスラヴ・東欧・ユーラシア学会のような年次大会でも、DH関連のパネルを見ないことはない。手元にある調査によると、文学系としては全米最大(そしておそらく世界最大)規模の学会MLA(米国現代語学文学協会)におけるDH関連のパネルは、二〇一〇年の二七、二〇一一年の四四、二〇一二年の五七と増加しているという。DHについて一〇〇本以上の発表がおこなわれている計算になる 。


 もちろん、著名な学会誌や学術誌にもDH的なアプローチを用いた論文が掲載されるし、デューク大学の刊行するdifferencesのようにDHの特集を組み、その是非や功罪について議論することもあれば(二〇一四年二五巻一号)、DH専門のオンライン・ジャーナルもすでに何誌か創刊されている。

 

三、「遠読」から「マクロアナリシス」へ


 すでに米国では、DHは文学研究の分野でも「徘徊する一匹の妖怪」たりえているわけだが、日本との差は単に量的な次元に留まらない。質的な面でも、デジタルアーカイヴにとどまらない多様なアプローチの研究がおこなわれるようになっている。その多くが人間が到底扱いきれないような膨大なテクストと、プログラムによる処理の組みあわせからなっている。


 なかでも目につくものに「単純ベイズ分類器」を用いたテクスト分析がある。単純ベイズ分類器とは、スパムメールをふりわるプログラムにも使われているもので、テクスト内の単語を抽出し、傾向や頻度からその種類を確立で分類するものだ。スパムメールの場合なら、広告に関連するような単語がテクスト内に多ければ、確率的に判断してそのようにふりわけてくれるわけだ。興味深いのは、これをコンピュータ上で動かした場合、人間がある程度の方向性を与えてやることで、自動的な学習がおこなえる点だ。スパムメールの場合、最初にそれぞれのサンプルを一定数与えてやることで、自動的にテクストを分析し、スパムメールに含まれる確率の高い単語、低い単語を学習できるわけだ。こういった単純ベイズ分類器の確度がいかに高いかは、毎日膨大なメールを処理している人間なら誰しも知っているだろう。もちろん稀にまちがえることもあるが、そのときは手動で「迷惑メールではない」を選んでもどしてやることで、さらにプログラムはあやまちから学ぶのだ。


 さて、これが文学研究に組み合わされるとどうなるか。実例をあげてみよう。シカゴ大学リテラリー・ラボのホイト・ロングとリチャード・ジーン・ソウによる論文「文学パターン認識――精読と機械学習のはざまのモダニズム」(二〇一六)は、「ハイク」の分析に「単純ベイズ分類器」を用いている。英米圏では二〇世紀初頭、ジャポニズムの影響もあり、ハイクが詩壇で流行していた。かのエズラ・パウンドが、日本の俳句の翻訳からイマジズム運動を起こしたのは有名な事実である。しかしハイクといっても、日本の俳句と異なり、外国語のハイクは五・七・五でもなければ、季語もない定義が難しいものでもある。著者は一九一〇年代~二〇年代の文芸誌から、ハイク以外のさまざまな流派に属する一九〇〇の短詩を収集し、分類器にかけた。するとアルゴリズムはcoldやsnowなど、ハイクに多く含まれる単語を認識し、約九十パーセントの正確さでハイクをハイクと認識できたというのだ。


 それだけではない。もちろんそれなりの数のまちがい(ハイクをそうではないと誤認したり、ハイクでないものをハイクと誤認したり)が出てくるわけだが、そういった「過ち」からさえ学ぶことができる。つまり、ハイクではないが、ハイクに影響された詩や東洋趣味の詩をアルゴリズムは選びだすことができるのだ。論文の著者は単純ベイズ分類器は「文体の「繊細な」読者」だということがわかったとしている。


 こういったアプローチが興味深いのは、専門家が長い訓練をへて「精読」のすえに達する判断レベルに、プログラムがごく短期間に達し、さらに専門家がなかなか言語化できないその基準を可視化するだけでなく、むしろ「ハイクとはなにか」という問いについて思いもつかなかった洞察をもたらすことさえあるからだ。つまり、コンピュータプログラムは文学研究者のすることをなぞるだけでなく、その認識を変革しうる。


 マシュー・ジョッカーズのモノグラフ『マクロアナリシス――デジタル・メソッドと文学史』(二〇一三)は、まさにそのような方法を全面的におしすすめたものだ。ジョッカーズはその方法を、「遠読」のかわりに「マクロアナリシス」と名づけた。ジョッカーズは大量のテクスト群を統計やNSCと呼ばれるアルゴリズムで処理することで、数々の発見をおこなっている。たとえばアルゴリズムに十九世紀英国の小説を読みこませ、「教養小説」「ゴシック」「工業小説」などのジャンルを分類させると、たとえば「煽情小説」で八十八パーセントの確率で仕分けることができたという。当然ながら、ジャンルによってはうまくいかないものもあるわけだが、そこからジャンル間の近さや、そもそも文学における「ジャンル」という概念は一体なんなのかといったことについて、さまざまな洞察をえることができる。


 コンピュータが識別できるのはジャンルにとどまらない。ジョッカーズはディケンズやオースティンなどの四十七人の作家の作品を読みとらせ、ランダムなサンプルを与えたところ、九十三パーセントの確率で正しい作家名をあてられたという。さらにそのジェンダーをあてさせたところ、こちらは八十パーセントの正解率だった。文学研究者で、自分が専門とする時代・地域の小説の作者ふせたまま、ランダムに読んで、はたしてこれ以上の正解率をえることができるかと聞かれて、自信をもって回答できるほうが少ないのではないか。こちらの結果も――まちがいをふくめて――作家固有の文体とはなにかといった議論や、文体にジェンダーはあるのか(実際に男性作家が多く使う単語、女性作家が多く使う単語の一覧があげられている)といった議論に貢献するだろう。


 もちろん、文体の定量的な分析は、文学研究でも以前からおこなわれていた。コーパスを用いた研究がそうだが、多くの場合、作家単位であり、このように多数の作家・作品を「いっしょくたにして」大規模に分析するという発想にはいたらなかった。その意味で、「マクロアナリシス」は新たなアプローチたりえていると言える。またモレッティが「遠読」に収録した論文群を発表したときには、論点先取の誤謬を犯している、つまり自分の仮説や通念の追認をおこなっているにすぎないと批判されたが、ジョッカーズの分析は明らかにその域を脱しているように見える(アメリカにおけるアイルランド系移民文学を統計処理で論じた章では、専門家の定説をくつがえす結果をえている)。


 こういったアプローチは、そもそも「遠読」が少数の文学正典【カノン】の「精読」への反発からはじまったように、部数も読み手も書き手もかぎられた純文学よりはむしろ大衆小説のほうに適しているだろう。ジョッカーズとジョディ・アーチャーの共著『ベストセラー・コード――大ヒット小説の解剖学』(二〇一六)は、文字通りどの小説が「ベストセラー」になるかを判断するためのアルゴリズム「ベストセラーメーター」を開発したという内容だ(俗っぽそうと思われるかもしれないが、著者がスタンフォード・リテラリー・ラボで執筆した歴とした博士論文を元にしている)。二八〇〇種類以上の小説の特徴(文体からプロットまで)を入力したプログラムに膨大な小説を機械学習させることで、どの小説がベストセラーか、そうでないかを予測させる。たとえば基準のひとつとして、『マクロアナリシス』では扱われていない、小説のプロットラインの分析がある。これはプログラムによって自動的に人間の感情に関する語彙を検出し、それがポジティブかネガティブか、どちらが多いかでパターンを検出し、それがほかのベストセラーとどこまで一致するかを分析している。「ベストセラー」の基準に選ばれたのは、『ニューヨークタイムズ』の「週刊ベストセラー」だが、任意の小説がリスト入りしたかどうかを、最終的に八〇パーセントの確率で正しくあてることができるようになったという。「なにがベストセラーになるかはわからない」とは編集者の常套句だが(著者アーチャーはペンギンブックスの元編集者である)、この「ベストセラーメーター」にかければ、手元にある原稿がヒットするかどうかわかってしまうというわけだ。まさに出版関係者にとって夢のプログラムである。

 

四、精読を擁護する遠読


 DH系の研究にはいくつか傾向があって、上記にあげたものがすべてではないが、すでにモレッティ個人がおこなってきた「遠読」から短期間で大きな進展があったことがわかるだろう。たとえばモレッティが『遠読』におさめた論文「ネットワーク理論、プロット分析」で扱ったネットワーク図は、『ハムレット』のキャラクター同士の結びつきがせいぜいだった。それにくらべてホイト・ロング――日本文学研究者でもある――は、一九三二年から三九年までの日本の文芸誌に掲載された翻訳詩を網羅的に調査し、コンピュータを用いてそのネットワーク図を描いている 。こうしたヴィジュアル化によって当時の文学潮流が視覚的に理解できるというが、もはやモレッティの素朴な人物相関図とは千里の隔たりがある。


 こういった新しい動きを反射的に忌避する専門家も一部にはいる。モレッティは二〇〇〇年の「世界文学への試論」の中で、こう書いている――「本当にしなくてはならないのは、悪魔とのちょっとした取引なのだ。テクストをいかに読めばいいかはわかっている、さあ、いかにテクストを読まない【傍点二字】か学ぼうではないか」。少なくとも当時は「テクストを読まない」ことは、「悪魔とのとりひき」にたとえられるほどの行為だったのだ。しかし、状況はもはやそうも言っていられなくなっている。


 現在、国立大学の「文系学部廃止」をめぐる議論などに代表されるように、文学部や文学研究への風当たりは相当に強い。そうでなくとも、「大学で文学を教える意義はなにか」という問題について、多くの教員が自問自答し、試行錯誤をしているだろう。文学の価値や読書の意義を啓蒙するイヴェントや運動も頻繁におこなわれている。これらはざっくり言って、教養主義にかわる、新たな文学の翼賛的イデオロギーをさがす(作りだそうとする)動きだと言える。


 もちろん、運動の意義を否定するつもりはない。しかし、結局のところ、こうしたイヴェントや啓蒙活動だけでは、文学をもともと読む人には支持されても、最初から読まない人をふり向かせることはできないのではないか。催し物では素朴な直観にもとづく意見――「文学作品は人の心を豊かにする」「政治家や官僚は文学作品を読むべきだ」なども、耳にすることがある。こういった発言は、特に根拠がなく提示される場合、かえって反発をまねきかねず(日本文学振興会の「炎上」事件は記憶に新しい)、既得権益を守ろうとしているとしかとられない可能性すらあるだろう。


たとえば、大学での文学教育で教えられる「精読」だが、それが普通の読書とどうちがうのか。その効用はなんなのか。ナタリー・フィリップスとスティーブン・ラックマンはミシガン大学の文学認識ラボで、ジェイン・オースティンの小説を素材にしてこの問いに挑んでいる 。最新のfMRI(機能的磁気共鳴映像装置、ちなみに、使われている技術は日本のものだ)を用いて、小説を楽しんで読書している場合と、細部に気を配りつつ読んでいる場合(≒精読)で脳の状態がどう違うのかを検証している。研究が完成すれば、認知トレーニングとしての文学教育の意義を科学的に説くことも可能になる。


 もちろん、これと同じことを日本でやれと言われても非常に難しいのが現実だ。スタンフォード大学シカゴ大学のようなリテラリー・ラボでは、テクストを扱う専門のエンジニアやプログラマーとの共同研究が可能になっている。Google Booksへの参加すら、出版業界の反発で見送られ、Ngram viewerも未対応になっている日本の現状では、かなりのハードルがあると言わざるをえない。しかし、そもそも文学研究は歴史的に、歴史学社会学などの周辺諸学のアプローチを援用し、発展してきた経緯がある。「遠読」からはじまった革新が、結果的に「精読」を擁護することすらあるだろう。「文学」や「文学部」を守ろうとするあまり、「文系」であることに固執したり、学問的に保守的になる必要はないのである。

 

 Mark Sample “Digital Humanities Sessions at the 2012 MLA Conference in Seattle” http://www.samplereality.com/2011/10/04/digital-humanities-sessions-at-the-2012-mla-conference-in-seattle/[2016年9月22日閲覧]
  Hoyt Long, “Fog and Steel: Mapping Communities of Literary Translation in an Information Age,” Journal of Japanese Studies, 41:2 2015. pp. 281-316.
  Natalie Phillips and Stephen Rachman “Literature, Neuroscience, and Digital Humanities” Patrik Svensson, David Theo Goldberg ed., Between Humanities and the Digital. Cambridge: MIT P, 2015