JAT  
Search JAT Search tips
Updated 2004-10-08
計算文学のすすめ-Thomas Mannの「魔の山」を考える
by Yoshihisa Hanamura

0 はじめに

 Thomas Mann(1875-1955)の「魔の山」(Der Zauberberg)は、1924年、Fischer Verlagから出版され、評論、翻訳、テキスト言語学、映画といった主に文系の分野で研究がなされてきた。しかし、ここでは、この作品を計算文学というシナジーの領域で処理しようと思う。出発点は、「計算文学入門」の中で説明したThomas Mannのイロニーとファジー推論の整合性の良さである。それをベースにスイスのダボスにあるサナトリウムの患者について表形式のデータを作成し、その一部を平易なラフ集合の概念に基づいて分析していく。「計算文学入門」は、記号論理を用いてThomas Mann のイロニーを分析しているが、 Zadeh自身がシステム系のファジー理論を言語系にアレンジしたように、本稿では、ラフ集合を言語系にアレンジしながらデータを処理していく。

1 「計算文学入門」の概要

 本書は、タイトルにもあるように計算文学の入門編という位置づけである。計算文学は、人文科学と情報科学によるシナジー効果を探るための研究分野の一つと言える。しかし、闇雲に勉強したところで、マージなどできるはずがない。まず、スタートラインに立つために、ポイントとなる組み合わせを探る必要がある。周知のように、人間とコンピュータの間にロジックを立てることは標準となっており、「Thomas Mannはファジーネス」といった組み合わせを見つけることができれば、仮に既に亡くなってしまった作家の分析をコンピュータ上で行う場合でも、結合や比較といった単体的な処理ではなく、マージのための方向性を規定することができる。無論、言語系のロジックは、システム系と仕組みが異なるため緩衝材が必要となる。

 Thomas MannのイロニーとZadehのファジー理論は、それぞれ次のように定義されている。

 Baumgart(1964:22)によるThomas Mannの「イロニー」の定義。”Als die Bedingung seines Prosas hält Thomas Mann immer die Distanz zur Wirklichkeit, einmal um sie so genau wie möglich zu betrachten, einmal sie zu kritisieren, das heißt ironisch. …Die kritische Distanz könnte zu einer ironischen Distanz werden. Tatsächlich ist der kritischen Prägnanz eine Art Grenze gesetzt, die aus der Beschaffenheit des sprachlichen Medium selbst dem Bedürfnis nach einer restlos präzisierten Begriffssprache entgegenwirkt.” 「Thomas Mannは、散文の条件として常に現実から距離をとる。一つには、現実をできるだけ正確に考察するために、また一つには、それを批判するために、つまり、イロニー的に。・・・この批判的な距離は、イロニー的な距離となるだろう。実際、批判的な表現上の簡潔さには、余すところなく正確に規定された概念言語の要求に対して、言語媒体そのものの特徴から反対の行動をとるある種の制限が設けられている。」

 Yager et al(1987: 23)によるZadehの「ファジー理論」の定義。”There is an incompatibility between precision and complexity. As the complexity of a system increases, our ability to make precise and yet non-trivial assertions about its behavior diminishes. For example, it is very difficult to prove a theorem about the behavior of an economic system that is of relevance to real-world economics.”「正確さと複雑さは、両立が困難である。システムの複雑さが増すと、その振舞いについて正確ではっきりとした主張はできなくなってくる。例えば、現実の経済と関連したシステムの振舞いを推測することは、大変に難しい。」

双方の定義間にあるギャップを埋めるために、言語系とシステム系の論理をつなぐ緩衝材として論理文法を使用する(詳細については、「計算文学入門」の第2章「論理文法の基礎」を参照すること)。論理文法は、小史を兼ねてHPSG(Head Driven Phrase Structure Grammar)、Montague Grammar、DRT(Discourse Representation Theory)、直感主義の論理などを経てファジー理論へと進んで行く。その際、Richard Montague による言語分析(PTQ)とThomas Mannの「魔の山」をマージすることにより、何か異質のもの(ここではファジー推論[1])を引き出せるかどうかがポイントとなる。つまり、Thomas Mannのイロニーを形式論によって記述する場合、ファジー推論を選択することが現状ではベストであるという結論を探っていく。

 「魔の山」からの分析は、上述したイロニー的な距離が問題となる。特に、主人公のHans CastorpとChaucha夫人との距離、さらに、ダボスの療養所に勤務する医者のDr. Krokowski(Behrens顧問官の助手)を仲介としたHans Castorpと甥のJoachim Ziemßen との距離が問題となっている。距離を測定するために、ファジー化、ファジー推論および脱ファジー化という技法が使われる。また、推論の基礎をなす記憶についても言及がある(詳細については、「計算文学入門」の第3章「やさしい曖昧な数学」を参照すること)。

2 ラフ集合 [2]

 津本(2001)に基づき平易なラフ集合の考え方を紹介する。津本論文は、データベース(DB)の中にある集合体の近似的な表現とそれに必要な最小限の属性集合(縮約と呼ばれる)の求め方を議論している。

2.1 近似

 「魔の山」の登場人物が患っている病気の症状(表1)について考えてみる。

表1 登場人物の病気の症状[3]
No. (名前またはニックネーム) 年代 性別 病名 症状 喫煙 クラス
(療養所の滞在期間)
1.
Claudia Chauchat
20-29 持病 軽い
(慢性)
しない 中位[4]
2.
Hans Castorp
20-29 持病 軽い
(慢性)
する 長い
3.
Joachim Ziemßen
20-29 発熱 重い
(慢性)
しない 長い
4.
爪を噛む青年
10-19 発熱 重い
(慢性)
しない 長い
5.
Barbara Hujus
20-29 持病 重い
(急性)
しない 短い
6.
Tou-les-deuxの長男
10-19 チフス 重い
(急性)
しない 短い

 この表は、1から6までのレコードを持っている。そして、内容は、属性の集合{年代、性別、病名、症状、喫煙}と所属クラス(サナトリウムの滞在期間)である。それぞれ属性には、値の集合がある。例えば、病名に関して大きく分類すると、{持病、発熱、チフス}がそれに当たる。

周知のように、ラフ集合は、各属性がデータの集合{1,2,3,4,5,6}の分割を与えるところに原点がある。[病名=持病]、[病名=発熱]、[病名=チフス]を満たすデータの部分集合は、{1,2,5}、{3,4}、{6}である。表1は、他の属性についても同様の分割を与えている。次に、レコードのラベル付けを考える。ここでは、クラスをそのラベルと仮定する。[クラス=中位]に注目すると、これを満たすデータは、{1}である。これらをまとめると、表2となる。

表2 分割の例
病名による分割 クラスによる分割
持病 {1,2,5} 短い {5,6}
発熱 {3,4} 中位 {1}
チフス {6} 長い {2,3,4,}

病名による分割とクラスによる分割から何が言えるだろうか。一番簡単なことは、[病名=チフス]を満たす分割が、[クラス=短い]を満たす分割の部分集合となっていることである。古典論理によれば、こうした関係は、次のように表記される。

(1)[病名=チフス]⇒[クラス=短い]

ラフ集合では、[病名=チフス]を満たす分割を[クラス=短い]の下近似と呼ぶ。[病名=チフス]を満たせば、クラスは短いが確定するからである。 次に、[クラス=短い]のすべてをカバーする分割について考えてみよう。上述の例では、[病名=持病]を満たす集合と[病名=チフス]を満たす集合の和集合が{1,2,5,6}となり、[クラス=短い]を部分集合とすることができる。これらの集合間の関係は、古典論理を用いると、次のように表すことができる。ラフ集合では、これらの病名に関するデータの分割をそれぞれのクラスの上近似と呼ぶ。

(2)[クラス=短い]⇒[病名=持病]∨[病名=チフス]

  この結果、[クラス=短い]の下近似は、[病名=チフス]を満たす集合、上近似は、[病名=持病]または[病名=チフス]を満たす集合で与えられる。これらの関係は、表3にまとめられる。

表3 病名よる上近似と下近似
クラス 分割 上近似 下近似
短い {5,6} {6} {1,2,5,6}
中位 {1} {} {1,2,5}
長い {2,3,4} {} {1,2,3,4,5}

ラフ集合は、近似の質をcard(下近似)/card(上近似)により定義する。例えば、[クラス=短い]の場合、近似の質は、1/4 =0.25である。一方、症状であれば、表4のような近似が得られる。

表4 症状よる上近似と下近似
クラス 分割 上近似 下近似
短い {5,6} {6} {1,2,5,6}
中位 {1} {} {1,2,5}
長い {2,3,4} {} {1,2,3,4,5}

この表から分かるように、例えば、[クラス=短い]の場合、近似の質は、2/2 =1.0である。

ラフ集合では、各属性がデータ集合の分割を構成し、その分割によってクラスや決定属性といったデータのラベルと属性との関係について、近似とその質が測定されていく。その際、ラベルを上近似と下近似で押さえるということが、ラフ集合の特徴として上げられる。

2.2 縮約

データからパターンを抽出する際、最も簡単なルールを求めたい。ラフ集合の場合は、下近似の部分集合がルールを与えることから、属性の集合を満たす集合により下近似の部分集合を与え、属性数が最小のものを求めることによりルールが生成される。

前節は、属性が一つの場合を扱ったが、実際に下近似を生成するには、複数の[属性=値]の連言による分割を考える必要がある。例えば、症状と喫煙の連言を考えてみよう。{{1},{2},{3,4},{5,6}}という分割が生成され、クラスの分割に一致した下近似と上近似が求められる。

必要最小限の属性のみを抽出することは、簡略化と呼ばれる。また、ラベルの下近似を与える最小限の属性集合は、縮約と呼ばれる。{症状と喫煙}は、縮約の一例となる。最小限の[属性=値]の対を持つ規則は、必要最小限の属性数を持つ縮約から求めることができる。例えば、表1の場合、{症状と喫煙}という縮約から、以下のルールを求めることができる。

(3)[症状=重い(慢性)]⇒[クラス=長い]、[症状=重い(急性)]⇒[クラス=短い]、[症状=軽い]∧[喫煙=しない]⇒[クラス=中位]、[症状=軽い]∧[喫煙=する]⇒[クラス=長い]

 次に、[クラス=中位]を満たす集合{1}について考えてみよう。この{1}が、他のクラスを満たす集合{2},{3,4},{5,6}から特定できるような属性の集合を求める。レコード1と属性年代により特定できないレコードの集合を[1]年代と表記すると、属性年代、性別、病名、症状、喫煙に対して、以下のことが定義できる。

(4)
[1]年代=[1,2,3]
[1]性別=[1,5] [1]病名=[1,2,5] [1]症状=[1,2]
[1]喫煙=[1,3,4,5,6]

{1}の部分集合となるものは存在しないので、一つの属性だけで[クラス=中位]を分類することができる情報はない。そこで、これらの属性間の連言を考えてみる。[年代=20-29]∧[性別=女]を満たす集合は、[1]年代∩[1]性別として表記される。この場合、縮約の候補は、以下のようになる。

(5)
[1]性別∩[1]症状=[1]
[1]症状∩[1]喫煙=[1]

{性別,症状}、{症状,喫煙}あたりが候補となりそうだ。{2},{3,4},{5,6}についてもこの方法を適用すると、{症状,喫煙}が縮約となることがわかる。ここまでが、属整数2の縮約である。

次に、属性が3つある縮約を求めてみよう。これまでの議論からわかるように、この縮約は、属整数3となる候補のうち{性別,症状}を包含する属性の集合から生成される。この場合は、{1}ではなく{2},{3,4},{5,6}に関して計算しなければならない。例えば、

(6)
[2]性別∩[2]症状=[2]
[3]性別∩[3]症状=[3,4]
[4]性別∩[4]症状=[3,4]
[5]性別∩[5]症状=[5]
[6]性別∩[6]症状=[6]

となるので、3番目のレコードに着目すれば、

(7)
[3]性別∩[3]症状∩[3]年代=[3]
[3]性別∩[3]症状∩[3]病名=[3,4]
[3]性別∩[3]症状∩[3]喫煙=[3,4]

が得られる。{性別,症状、喫煙}は、{症状,喫煙}を部分集合として含むので、{性別,症状、年代}、{性別,症状、病名}が縮約となる。同様にして、4番目のレコードに着目すれば、

(8)
[4]性別∩[4]症状∩[4]
年代=[4] [4]性別∩[4]症状∩[4]病名=[3,4]
[4]性別∩[4]症状∩[4]喫煙=[3,4]

が得られ、3番目のレコードと同じ結果となる。以上のことから 表1のクラスに関する縮約は、{症状,喫煙}、{性別,症状,年代}、{性別,症状、病名}となる。 ここまで述べてきた計算方法は、一つずつ属性を追加していくことにより縮約にたどりつくボトムアップ型であるが、ラフ集合にはこれとは別に、決定ルールから出発するトップダウン型の計算方法がある。例えば、1番目のレコードは、次のような形式によって記述される。

(8)[年代=20-29]∧[性別=女]∧[病名=持病]∧[症状=軽い]∧[喫煙=しない]⇒[クラス=中位]

これらの属性のうち何が削除されると矛盾が生じるだろうか。例えば、症状と喫煙を削除すると、次のような二つの決定ルールが生成される。

(9)a [年代=20-29]∧[性別=女]∧[病名=持病]⇒[クラス=中位]
(9)b [年代=20-29]∧[性別=女]∧[病名=持病]⇒[クラス=短い]

ラフ集合では、このことを矛盾が発生したと言う。つまり、{症状,喫煙}は、ルールの記述になくてはならない属性の集合を与えている。この手続きを残りの{2,3,4,5,6}に関しても適用すると、最終的に、{症状,喫煙}、{性別,症状,年代}、{性別,症状、病名}が表1の分類に不可欠な属性の集合となり、これらが縮約となる。

3. まとめ

おわかりのように、ラフ集合は、表形式のデータからどのような知識を抽出できるのかを問題とする。例えば、近似の観点から見ると、対象となる概念の肯定的な側面と否定的な側面を持つ知識を抽出することに特徴がある。一方、縮約の立場から見ると、概念の肯定的な側面を表現する最小限の属性集合を求めることに特徴がある。 現在作成しているThomas Mannのイロニーに関するDBは、まだ不十分であるが、1.「計算文学入門」の中でも示した通り、彼のイロニー自体が物事を肯定的にも否定的にも考察することから、ラフ集合によるアプローチは面白いと考えられる。また、ラフ集合の考え方を基とするテキストマイニングについては、Thomas Mannのイロニーが読み取れるような文章を抽出しながら話を進めれば、計算文学において価値のある基礎研究となるであろう(次回予定)。

4. 問題点

参考文献

花村 嘉英 (2004): 計算文学入門-Thomas Mannのイロニーはファジー推論と言えるのか? 新風舎(出版予定)
林 俊克 (2002): Excelで学ぶテキストマイニング入門、オーム社
Pawlak, Zdzisław (1991): Rough Sets, Kluwer Academic Publishers
津本 周作 (2001): ラフ集合論の現状と課題、日本ファジー学会誌552-561
Mann, Thomas (1974): Der Zauberberg, Fischer Verlag.

脚注 

  1. 例えば、電気冷蔵庫に内蔵されたマイクロコンピュータは、消費電力を調節するためにファジー推論を使用している。
    戻る
  2. 詳細については、Pawlak(1991)を参照すること。Pawlak(1991)は、第1部でラフ集合の基礎的な概念を説明し、第2部でその適用例を紹介している。
    戻る
  3. この表は、現在作成している「魔の山」のDBから抽出されたデータである。
    戻る
  4. Chauchat夫人は、サナトリウムの滞在が3度目となるが、それぞれ期間が短いため中位とした。
    戻る

JAT Translation Topics