かならずよんで ね!

チョムスキー言語学と自然言語処理

Introductio to the Chomsky's Syntactic Theory for dummy

 私は「赤いリンゴ5個」と書かれているメモを渡す—— Ludwig Josef Johann Wittgenstein

池田光穂

ノーム・チョムスキーAvram Noam Chomsky, 1928- )は、世界的に知られている言語学理論家そして平和理論家。

言語の構造についての2つのモデルがあった。1)言 語をひとつのマルコフ過程とみる考え方でこれは「伝達理論的モデル」という、 2)「構成素分析にもとづく句構造」のモデル(→句構造文法)である。

「文法は意味論とは別個の独立した研究と考える方が よい。特に文法性と いう考えは有意味性ということと同一視することはできない(またそれは 統計的近似値[order of approximation] という考えとは格別何らの関係 もない)。このように独立した形式的な研究をすすめる場合、文を左から右 へ作り出していく有限状態の[finite state] Markov process として言語を 考えるような単純な方法には賛成できないことがわかった。また句構造や 変形構造のようなかなり抽象的な言語レベルが自然言語の記述には必要で あることもわかった」(p.90)

「句構造による直接の記述は基本的な核文(すなわち 複雑な動詞句や名詞句を含まない単文、平叙文、能動文)だけに限定し、核文以外はすべてこ れらの基本文(もっと適確には、それらの基になっている連鎖)から変形に よって派生するようにすれば、英語の記述がきわめて簡潔になり、英語の 形態的構造に関して新たに重要な理解が得られる。逆に文法的文を他の文 法的文にかえる一連の変形を発見できれば、個々の文の構成分析がちがえ、 それらの変形を受けた場合の行動がどのようにかわるかを研究するこ とによって、それらの文の構成素構造を決定することができる」(p.90)

「したがって文法は三つの部分より成る構造をもつも のと考えられる。文 法には句構造を再構する一連のルールと、morphemes の連鎖をphonemes の連鎖にかえる一連のmorphophonemic のルールとがある。それらの二 つのルール群をつなぐものとして一連の変形ルールがあり、そのルールが 句構造を有する連鎖をmorphophonemic rules の適用される新しい連鎖 にかえる。句構造とmorphophonemic とのルールはtransformational rules とはちがって単純なものである。一つの連鎖に一つの変形を適用す るためには、その連鎖の派生の歴史についてある程度知らねばならない; しかし変形以外のルールを適用するためには、そのルールが適用される連 鎖の形を知るだけで十分である」(p.91)

「しかし意味の体系的考察は文法構造を決定する上に 役立たないように思われる。さ りとて、「辞書的意味」に対して「構造的意味」を考えることは賛成できな い。また言語の中に用いられている文法的装置に直接意味をつけられるほ ど用法が一貫しているかどうかは疑わしい。それでも、文法構造と意味と の潤には重要な関連がたくあんあることもきわめて当然である。言いかえ るなら、文法的装置はきわめて組織的に用いられていることがわかる。こ れらの相関関係を調べることは、文論と意味論の問題やその接点を考察す る一般言語理論の主題の一部となろう」(pp.91-92)

——ノーム・チョムスキー『文法の構造』勇康雄訳、 pp.90-92, 研究社出版 , 1963年

1. 序文

2. 文法の独立性

3. 単純な言語理論

4. 句構造(→「句構造文法Phrase structure grammar)」)

5. 句構造的記述の限界

6. 言語理論の目標

7. 英語における変形の例

8. 言語理論のもつ説明力

9. 文論と意味論

チョムスキー言語理論のキーワードをあげてみる と……(ページ数は『増補版チョムスキー理論辞典』研究社、2016)

学部初学年むけの言語学入門だが、酒井優子教授の次 の授業「言語学が世界を一つにする」は、チョムスキー理論の入門としては非常に分かりやすくできている——酒井教授から引用承諾いただきました。


■チョムスキー理論の展開

1)拡大標準理論:初期〜1970年代

2)GB理論(一般化束縛Generalized Binding):1980年代

3)極小主義=ミニマリスト・プログラム:90年 代〜現在

●デカルト派言語学

デカルト言語学という言葉は、ノーム・チョムスキー による言語学の著書 『デカルト言語学』(1966年)の出版を機に作られたものである。1966年に出版されたノーム・チョムスキーの言語学に関する著書『デカルト言語学: 合理主義思想史の一断面』(日本経済新聞出版社)をきっかけに生まれた言葉。Cartesian」とは、17世紀の著名な哲学者であるルネ・デカルト (René Descartes)の形容詞である。しかし、チョムスキーはデカルトの著作にとどまることなく、合理主義思想に関心を持つ他の著者を調査している。特 に、普遍文法に関するチョムスキー自身のアイデアの一部を予見する書物である『ポルト・ロワイヤル文法』(1660年)を取り上げている(→「デカルト派言語学の検証」)。

●自然言語処理

自然言語処理(しぜんげんごしょり、英語: natural language processing、略称:NLP)は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語学の一分野であ る。「計算言語学」(computational linguistics)との類似もあるが、自然言語処理は工学的な視点からの言語処理をさすのに対して、計算言語学は言語学的視点を重視する手法をさす 事が多い[1]。データベース内の情報を自然言語に変換したり、自然言語の文章をより形式的な(コンピュータが理解しやすい)表現に変換するといった処理 が含まれる。応用例としては予測変換、IMEなどの文字変換が挙げられる。

自然言語の理解をコンピュータにさせることは、自然言語理解とされてい る。自然言語理解と、自然言語処理の差は、意味を扱うか、扱わないかという説もあったが、最近は数理的な言語解析手法(統計や確率など)が広められた為、 パーサ(統語解析器)などが一段と精度や速度が上がり、その意味合いは違ってきている。もともと自然言語の意味論的側面を全く無視して達成できることは非 常に限られている。このため、自然言語処理には形態素解析と構文解析、文脈解析、意味解析などをSyntaxなど表層的な観点から解析をする学問である が、自然言語理解は、意味をどのように理解するかという個々人の理解と推論部分が主な研究の課題になってきており、両者の境界は意思や意図が含まれるかど うかになってきている。

自然言語処理の基礎技術にはさまざまなものがある。自然言語処理はその 性格上、扱う言語によって大きく処理の異なる部分がある。現在のところ、日本語を処理する基礎技術としては以下のものが主に研究されている。

形態素解析
構文解析
語義の曖昧性解消
照応解析

現状発達している言語AI技術は、多次元のベクトルから、単語や文書の 意味の近さを、その相互関係から推定しているもので、「AIの言語理解」は「人間の言語理解」は根本的に別物である[2]。

「自然言語理解は、AI完全問題と言われることがある。なぜなら、自然言語理解には世界全体についての知識とそれを操作する能力が必要と思われるためであ る。「理解; understanding」の定義は、自然言語処理の大きな課題のひとつでもある。

人間とコンピュータの間のインタラクションのインタフェース(ヒューマンマシンインタフェース)として、自然言語がもし使えたら非常に魅力的である、と いったこともあり、コンピュータの登場初期(1960年頃)には自然言語処理にある種の過剰な期待もあった。SHRDLUなどの初期のシステムが、世界を 限定することで非常にうまくいったことにより、すぐに行き過ぎた楽観主義に陥ったが、現実を相手にする曖昧さや複雑さがわかると、楽観的な見方や過剰な期 待は基本的には無くなったが、何が簡単で何が難しいのか、といったようなことはなかなか共有されなかった。

やがて、21世紀に入ってしばらく後に「音声認識による便利なシステム」がいくつか実用化・実運用され多くの人が利用したことで、何が簡単で、どういう事 に使うのは難しいのかが理解されるようになりつつある模様である。

2019年、GPT-2、BERTなど、ディープラーニングを応用した手法で大きなブレークスルーがあった。

自然言語処理(理解)における課題をいくつかの例を用いて示す。

次の2つの文、
We gave the monkeys the bananas because they were hungry.(猿が腹を空かせていたので、バナナを与えた。)
We gave the monkeys the bananas because they were over-ripe.(バナナは熟れ過ぎていたので、猿に与えた。)

は、品詞としては全く同じ順序の並びである。しかし、they が指すものは異なっていて、前者では猿、後者ではバナナとなっている。この例文の場合、theyの指す内容は英語の文型の性質によって決定することができ る。すなわち、「they(主語)= hungry(補語)」の関係が成り立ち、補語には主語の性質を示すものがくるので、hungryなのはthe monkeys、したがって、「they = the monkeys」と決まる。後者も同様に、over-ripeというのはthe bananasの性質だから、「they = the bananas」となる。つまり、これらの文章を区別し正しく理解するためには、意味、すなわち、猿の性質(猿は動物で空腹になる)とバナナの性質(バナ ナは果物で成熟する)といったことを知っていて解釈できなければならない。

単語の文字列を解釈する方法は様々である。例えば、
Time flies like an arrow.(光陰矢の如し)

という文字列は以下のように様々に解釈できる。
典型的には、比喩として、「時間が矢のように素早く過ぎる」と解釈する。
「空を飛ぶ昆虫の速度を矢の速度を測るように測定せよ」つまり (You should) time flies as you would (time) an arrow. と解釈する。
「矢が空を飛ぶ昆虫の速度を測るように、あなたが空を飛ぶ昆虫の速度を測定せよ」つまり Time flies in the same way that an arrow would (time them). と解釈する。
「矢のように空を飛ぶ昆虫の速度を測定せよ」つまり Time those flies that are like arrows と解釈する。
「"time-flies"(時バエ)という種類の昆虫は1つの矢を好む」この解釈には集合的な解釈と個別的解釈がありうる。
「TIMEという雑誌は、投げると直線的な軌跡を描く」
英語では特に語形変化による語彙の区別をする機能が弱いため、このような問題が大きくなる。

また、英語も含めて、形容詞と名詞の修飾関係の曖昧さもある。例えば、"pretty little girls' school"(かわいい小さな少女の学校)という文字列があるとする。

その学校は小さいだろうか?
少女たちが小さいのだろうか?
少女たちがかわいいのだろうか?
学校がかわいいのだろうか?
他にも次のような課題がある。


形態素解析
中国語、日本語、タイ語といった言語は単語のわかち書きをしない。そのため、単語の区切りを特定するのにテキストの解析が必要となり、それは非常に複雑な 作業となる。

音声における形態素解析
音声言語において、文字を表す音は前後の音と混じっているのが普通である。従って音声から文字を切り出すのは、非常に難しい作業となる。さらに、音声言語 では単語と単語の区切りも(音としてのみ見れば)定かではなく、文脈や文法や意味といった情報を考慮しないと単語を切り出せない。

語義の曖昧性
多くの単語は複数の意味を持つ。従って、特定の文脈においてもっともふさわしい意味を選択する必要がある。

構文の曖昧性
自然言語の構文(構文規則)は曖昧である。1つの文に対応する複数の構文木が存在することも多い。もっとも適切な解釈(構文木)を選択するには、意味的情 報や文脈情報を必要とする。

不完全な入力や間違った入力
主語の省略や代名詞の対応などの問題(照応解析)。音声におけるアクセントのばらつき。構文上の誤りのある文の解析。光学文字認識における誤りの認識な ど。

言語行為
文章は文字通りに解釈できない場合がある。例えば "Can you pass the salt?"(塩をとってもらえますか?)という問いに対する答えは、塩を相手に渡すことである。これに "Yes" とだけ答えて何もしないのはよい答えとは言えないが、"No" はむしろありうる答えで、"I'm afraid that I can't see it" はさらによい(塩がどこにあるかわからないとき)。

統計的自然言語処理
統計的自然言語処理は、確率論的あるいは統計学的手法を使って、上述の困難さに何らかの解決策を与えようとするものである。長い文になればなるほど、従来 型の自然言語処理では解釈の可能性の組合せが指数関数的に増大していき、処理が困難となる。そのような場合に統計的自然言語処理が効果を発揮する。コーパ ス言語学やマルコフ連鎖といった手法が使われる。統計的自然言語処理の起源は、人工知能の中でもデータからの学習を研究する分野である機械学習やデータマ イニングといった分野である。



自然言語処理の応用技術として、以下のような技術が研究・実用化されて いる。また、言語学への応用も考えられている。

自動要約生成
情報抽出
情報検索、検索エンジン、概念検索
機械翻訳、翻訳ソフト
固有表現抽出
自然言語生成
光学文字認識
質問応答システム
音声認識
音声合成
校正、スペルチェッカ
かな漢字変換


https://bit.ly/3BPAQ03.

リンク

文献

その他の情報


Copyleft, CC, Mitzub'ixi Quq Chi'j, 1996-2099