「文書群に対する物語構造の動的分解・再構成フレームワーク」*1

 現在この記事を書きながら、検索のトップにこのページが来てしまうことを恐れているが、やはり面白いものは紹介しなければもったいないと思うので紹介する。なお、原典はhttp://www.jstage.jst.go.jp/article/tjsai/21/5/21_428/_article/-char/ja/のPDFをご覧いただきたい。

 まず、この論文の概要を説明しようと思う。ウェブでも議事録でも小説でもいいのだが、とにかく長いひとまとまりの文書があったとする。この文書を要素ごとに分割して、分割した要素を再接続できないだろうか、というのが論文の中心課題である。文書を再構築して新たな文脈を見つけたいのである。分割するときには意味のまとまりごとに分割する必要があるし、再接続するときには意味が通るように接続する必要がある。これは表面的には単なる文書処理に見えるが、この論文は語用論の重要な問題に挑戦している。

 では、どのように文書を分割し再接続するのか。この論文では「語の出現依存度」と「語の吸引力」という単語に対する二つの指標を用いて解決を試みている。「語の出現依存度」というのは、ある単語Aと単語Bがどれくらい仲がいいかを示している。また、「語の吸引力」というのは、ある単語Aがどれだけ話題の中心にあるかということを示している。つまり、この論文の著者は文脈を解析するには単語同士の関係を調べるのが効率的な方法であると考えていると思われる。

 文書の分割の具体的な方法を簡単に説明する。この論文では二種類の方法を用いている。一つは「語の吸引力」である。「語の吸引力」は要するにどれだけその単語が話題の中心にあるかを示しており、同じ話題が続いているときには話題の中心の単語は変わらない。逆に、話題が移った場合には話題の中心となる単語が変わるため、「語の吸引力」を用いると「話題の転換点」が分かることになる。この話題の転換点で文書を分割する。もう一つは「語の出現依存度」を用いる方法であり、これは要するに単語と単語がどれくらい仲良しであるかという指標なので、「単語の仲良しグループ」を作ることができるということが直感的に分かるのではないかと思う。この「仲良しグループ」を形成している単語を手がかりに文書を分割する。

 文の再接続に関しては、「トピック(の)遷移」という概念を用いている。脈絡のある文章というのは話題の中心にある単語が次の段落でも話題の中心にあったり、中心の周辺にあったりすることが多いということが直感的に分かることと思う。この論文ではその直感を『羅生門』『蜘蛛の糸』の二つの文章を用いて実証している。この知見を用いて、トピックの移り変わりが自然になるような複数の候補をユーザに提示することにより、文の再接続を行う。最後は結局人の手が入るのであるが、一から人間が再構成するよりはずっと楽である。また、人間だけでは気づかなかったような文脈を発見することもできる。

 この論文の美しいところは、首尾一貫して単語同士の関係で文脈の再構築をおこなっているところにある。文脈といえば一昔前の考え方では「物理的な意味」を考えなければ機械には扱うことが不可能だという雰囲気があったが、この論文では見事にその雰囲気に一石を投じている。この論文を読んでいると、文脈は物理的な意味にあるのではなく、むしろ単語の連鎖から浮かび上がってくるのではないかとさえ思えてくる。文脈は単語にひそんでいる。