はじめによんでください

聴覚のチーズケーキとしての音楽

Music as Auditory Cheesecake

池田光穂

☆ 「それが音楽の基本的なデザインなのだ。しかし、もし音楽が生存に何のメリットも与えないとしたら、音楽はどこから来て、なぜ機能するのだろうか?私は、音 楽は聴覚的チーズケーキであり、私たちの精神的能力の少なくとも6つの敏感な部分をくすぐるように作られた絶妙なお菓子だと考えている。標準的な曲は、そ れらすべてを一度にくすぐるが、私たちは、そのうちの1つまたは複数を省いた様々な種類の音楽ではないものに、その材料を見ることができる」——スティーブン・ピンカー(Pinker 1997:407)

「音楽は、無視されなかった場合でさえ、人間 の言語能力の副産物にすぎないとして片づけられて きた。言語学者にしてダーウィン主義者のスティーヴン・ピンカーは、さまざまな意味で非常にすぐ れた野心的な著書『心の仕組み』(1997)の660ページ中、音楽については1ページしか 割いていない。それどころか、音楽が人間の知性の主要部分であるという考えを完全に捨て去ってい る。ピンカーにとって音楽は、進化した他の性向から派生したものであり、人間が娯楽のために生み だしたものでしかない。「生物学的な因果関係だけを考えると、音楽は無益だ。(中略)言語とはま ったく異なり、(中略)テクノロジーであって適応ではない」。/ 学究人生を音楽の研究に捧げる人たちにすれば、音楽がたんなる聴覚のチーズケーキで、「ポロロ ンと音をだすこと」にすぎないというピンカーの言い草は、当然、癪に障るものだった。もっとも雄 弁に反応したのは、ケンブリッジを拠点にする音楽学者イアン・クロスだ。クロスは、人間活動とし ての音楽の価値を擁護したいという個人的な動機からだと認めつつ、音楽は人間の生態に深く根ざし ているだけでなく、子どもの認知発達にとっても重要だと主張した。 」ミズン『歌うネアンデルタール』 邦訳、2006:16-17.
・ピンカーの「チーズケーキ」の箇所は、ミズンは指摘しておらず、「ポ ロロ ンと音をだすこと」についてはPinker (1997:528)- How the mind works / Steven Pinker.New York : W.W. Norton , c1997の引用箇所を指摘している。
How the mind works / Steven Pinker.London : Allen Lane, Penguin Press , 1998, c1997

So that is the basic design of music. But if music confers no survival advantage, where does it come from and why does it work? I suspect that music is auditory cheesecake, an exquisite confection crafted to tickle the sensitive spots of at least six of our mental faculties. A standard piece tickles them all at once, but we can see the ingredients in various kinds of not-quite-music that leave one or more of them out.

1. Language. We can put words to music, and we wince when a lazy lyricist aligns an accented syllable with an unaccented note or vice versa. That suggests that music borrows some of its mental machinery from language—in particular, from prosody, the contours of sound that span many syllables. The metrical structure of strong and weak beats, the intonation contour of rising and falling pitch, and the hierarchical grouping of phrases within phrases all work in similar ways in language and in music. The parallel may account for the gut feeling that a musical piece conveys a complex message, that it makes assertions by introducing topics and commenting on them, and that it emphasizes some portions and whispers others as asides. Music has been called “heightened speech,” and it can literally grade into speech. Some singers slip into “talking on pitch” instead of carrying the melody, like Bob Dylan, Lou Reed, and Rex Harrison in My Fair Lady. They sound halfway between animated raconteurs and tone-deaf singers. Rap music, ringing oratory from preachers, and poetry are other intermediate forms.

2. Auditory scene analysis. Just as the eye receives a jumbled mosaic of patches and must segregate surfaces from their backdrops, the ear receives a jumbled cacophony of frequencies and must segregate the streams of sound that come from different sources—the soloist in an orchestra, a voice in a noisy room, an animal call in a chirpy forest, a howling wind among rustling leaves. Auditory perception is inverse acoustics: the input is a sound wave, the output a specification of the soundmakers in the world that gave rise to it. The psychologist Albert Bregman has worked out the principles of auditory scene analysis and has shown how the brain strings together the notes of a melody as if it were a stream of sound coming from a single soundmaker.

One of the brain’s tricks as it identifies the soundmakers in the world is to pay attention to harmonic relations. The inner ear dissects a blare into its component frequencies, and the brain glues some of the components back together and perceives them as a complex tone. Components that stand in harmonic relations—a component at one frequency, another component at twice that frequency, yet another component at three times the frequency, and so on—are grouped together and perceived as a single tone rather than as separate tones. Presumably the brain glues them together to make our perception of sound reflect reality. Simultaneous sounds in harmonic relations, the brain guesses, are probably the overtones of a single sound coming from one soundmaker in the world. That is a good guess because many resonators, such as plucked strings, struck hollow bodies, and calling animals, emit sounds composed of many harmonic overtones.

What does this have to do with melody? Tonal melodies are sometimes said to be “serialized overtones.” Building a melody is like slicing a complex harmonic sound into its overtones and laying them end to end in a particular order. Perhaps melodies are pleasing to the ear for the same reason that symmetrical, regular, parallel, repetitive doodles are pleasing to the eye. They exaggerate the experience of being in an environment that contains strong, clear, analyzable signals from interesting, potent objects. A visual environment that cannot be seen clearly or that is composed of homogeneous sludge looks like a featureless sea of brown or gray. An auditory environment that cannot be heard clearly or that is composed of homogeneous noise sounds like a featureless stream of radio static. When we hear harmonically related tones, our auditory system is satistied that it has successfully carved the auditory world into parts that belong to important objects in the world, namely, resonating soundmakers like people, animals, and hollow objects.

Continuing this line of thought, we might observe that the more stable notes in a scale correspond to the lower and typically louder overtones emanating from a single soundmaker, and can confidently be grouped with the soundmakers fundamental frequency, the reference note. The less stable notes correspond to the higher and typically weaker overtones, and though they may have come from the same soundmaker as the reference note, the assignment is less secure. Similarly, notes separated by a major interval are sure to have come from a single resonator, but notes separated by a minor interval might be very high overtones (and hence weak and uncertain ones), or they might come from a sound-maker with a complicated shape and material that does not give out a nice clear tone, or they might not come from a single soundmaker at all. Perhaps the ambiguity of the source of a minor interval gives the auditory system a sense of unsettledness that is translated as sadness elsewhere in the brain. Wind chimes, church bells, train whistles, claxton horns, and warbling sirens can evoke an emotional response with just two harmonically related tones. Recall that a few jumps among tones are the heart of a melody; all the rest is layer upon layer of ornamentation.

3. Emotional calls. Darwin noticed that the calls of many birds and primates are composed of discrete notes in harmonic relations. He speculated that they evolved because they were easy to reproduce time after time. (Had he lived a century later, he would have said that digital representations are more repeatable than analog ones.) He suggested, not too plausibly, that human music grew out of our ancestors’ mating calls. But his suggestion may make sense if it is broadened to include all emotional calls. Whimpering, whining, crying, weeping, moaning, growling, cooing, laughing, yelping, baying, cheering, and other ejaculations have acoustic signatures. Perhaps melodies evoke strong emotions because their skeletons resemble digitized templates of our species’ emotional calls. When people try to describe passages of music in words, they use these emotional calls as metaphors. Soul musicians mix their singing with growls, cries, moans, and whimpers, and singers of torch songs and country-and-western music use catches, cracks, hesitations, and other emotional tics. Ersatz emotion is a common goal of art and recreation; I will discuss the reasons in a following section.

4. Habitat selection. We pay attention to features of the visual world that signal safe, unsafe, or changing habitats, such as distant views, greenery, gathering clouds, and sunsets (see Chapter 6). Perhaps we also pay attention to features of the auditory world that signal safe, unsafe, or changing habitats. Thunder, wind, rushing water, birdsong, growls, footsteps, heartbeats, and snapping twigs all have emotional effects, presumably because they are thrown off by attention-worthy events in the world. Perhaps some of the stripped-down figures and rhythms at the heart of a melody are simplified templates of evocative environmental sounds. In the device called tone painting, composers intentionally try to evoke environmental sounds like thunder or birdsong in a melody.

Perhaps a pure example of the emotional tug of music may be found in cinematic soundtracks. Many movies and television shows literally orchestrate the viewers’ emotions from beginning to end with quasi-musical arrangements. They have no real rhythm, melody, or grouping, but can yank the moviegoer from feeling to feeling: the climactic rising scales of silent films, the lugubrious strings in the mushy scenes of old black-and-white movies (the source of the sarcastic violin-bowing gesture that means “You are trying to manipulate my sympathy”), the ominous two-note motif from Jaws, the suspenseful cymbal and drumbeats in the Mission Impossible television series, the furious cacophony during fights and chase scenes. It’s not clear whether this pseudo-music distills the contours of environmental sounds, speech, emotional cries, or some combination, but it is undeniably effective.

5. Motor control. Rhythm is the universal component of music, and in many idioms it is the primary or only component. People dance, nod, shake, swing, stride, clap, and snap to music, and that is a strong hint that music taps into the system of motor control. Repetitive actions like walking, running, chopping, scraping, and digging have an optimal rhythm (usually an optimal pattern of rhythms within rhythms), which is determined by the impedances of the body and of the tools or surfaces it is working with. A good example is pushing a child on a swing. A constant rhythmic pattern is an optimal way to time these motions, and we get moderate pleasure from being able to stick to it, which athletes call getting in a groove or feeling the flow. Music and dance may be a concentrated dose of that stimulus to pleasure. Muscle control also embraces sequences of tension and release (for example, in leaping or striking), actions carried out with urgency, enthusiasm, or lassitude, and erect or slumping body postures that reflect confidence, submission, or depression. Several psychologically oriented music theorists, including Jackendoff, Manfred Clynes, and David Epstein, believe that music recreates the motivational and emotional components of movement.

6. Something else. Something that explains how the whole is more than the sum of the parts. Something that explains why watching a slide go in and out of focus or dragging a filing cabinet up a flight of stairs does not hale souls out of men’s bodies. Perhaps a resonance in the brain between neurons firing in synchrony with a soundwave and a natural oscillation in the emotion circuits? An unused counterpart in the right hemisphere of the speech areas in the left? Some kind of spandrel or crawl crawl space or short-circuit or coupling that came along as an accident of the way that auditory, emotional, language, and motor circuits are packed together in the brain? This analysis of music is speculative, but it nicely complements the discussions of the mental faculties in the rest of the book. I chose them as topics because they show the clearest signs of being adaptations. I chose music because it shows the clearest signs of not being one.
Pinker (1997:407-409)※ただし引用はペンギン版
それが音楽の基本的なデザインなのだ。しかし、もし音楽が生存に何のメリットも与えないとしたら、音楽はどこから来て、なぜ機能するのだろうか?私は、音 楽は聴覚的チーズケーキであり、私たちの精神的能力の少なくとも6つの敏感な部分をくすぐるように作られた絶妙なお菓子だと考えている。標準的な曲は、そ れらすべてを一度にくすぐるが、私たちは、そのうちの1つまたは複数を省いた様々な種類の音楽ではないものに、その材料を見ることができる。

1. 言語。怠惰な作詞家がアクセントのある音節をアクセントのない音符に合わせたり、その逆をしたりすると、私たちはうろたえる。このことは、音楽が言語か ら、特に韻律、つまり多くの音節にまたがる音の輪郭から、その精神的機械の一部を借りていることを示唆している。強拍と弱拍の計量構造、ピッチの上昇と下 降のイントネーションの輪郭、フレーズの中のフレーズの階層的なグループ分けはすべて、言語と音楽で同じように機能する。音楽が複雑なメッセージを伝え、 トピックを導入し、それについてコメントすることで主張し、ある部分を強調し、他の部分を余談としてささやくと直感的に感じるのは、このような平行関係が あるからかもしれない。音楽は "高められたスピーチ "と呼ばれ、文字どおりスピーチのグレードを上げることができる。ボブ・ディランやルー・リード、『マイ・フェア・レディ』のレックス・ハリスンのよう に、メロディを運ぶのではなく「音程で話す」ようになる歌手もいる。そのような歌い手は、アニメのような語り手と音痴な歌手の中間のように聞こえる。ラッ プ・ミュージック、説教者の鳴り響くような弁舌、そして詩は、他の中間的な形態である。
2. 聴覚による情景分析。目がごちゃごちゃしたモザイク状のパッチを受け取り、その背景から表面を分離しなければならないのと同じように、耳はごちゃごちゃし た周波数の不協和音を受け取り、異なる音源(オーケストラのソリスト、騒がしい部屋の声、さえずる森の中の動物の鳴き声、ざわめく葉の間の風の遠吠え)か ら来る音の流れを分離しなければならない。入力は音波であり、出力はその音波を発生させた世界の音の作り手の特定である。心理学者のアルバート・ブレグマ ンは、聴覚的情景分析の原理を解明し、脳がメロディーの音符を、あたかも1つのサウンドメーカーから発せられる音の流れのようにつなぎ合わせていることを 示した。

脳が世界のサウンドメーカーを識別する際のトリックのひとつは、ハーモニーの関係に注意を払うことである。内耳は鳴り響く音を構成する周波数に分解し、脳 はその一部をつなぎ合わせて複雑な音色として認識する。ある周波数の成分、その2倍の周波数の別の成分、さらにその3倍の周波数の別の成分といったよう に、調和関係にある成分はグループ化され、別々の音としてではなく、一つの音として知覚される。おそらく脳は、音の知覚に現実を反映させるために、それら をつなぎ合わせているのだろう。脳は、調和関係にある同時の音は、おそらく世界の1つの発音体から発せられた1つの音の倍音であると推測している。弦を弾 く音、空洞を叩く音、動物の鳴き声など、多くの共鳴器は多くの倍音からなる音を発するからだ。

これが旋律とどのような関係があるのだろうか。調性旋律は "倍音の直列化 "と言われることがある。メロディーを作るということは、複雑な和声を倍音に切り分け、特定の順序で端から端まで並べるようなものだ。おそらくメロディー が耳に心地よいのは、左右対称で規則的、平行で反復的な落書きが目に心地よいのと同じ理由だろう。メロディーは、興味深く、強力な対象からの、強く、明確 で、分析可能な信号を含む環境にいるという経験を誇張する。はっきりと見えない、あるいは均質な汚泥で構成された視覚環境は、茶色や灰色の特徴のない海の ように見える。はっきり聞こえない、あるいは均質なノイズで構成された聴覚環境は、特徴のないラジオのスタティック・ストリームのように聞こえる。私たち がハーモニーに関連した音を聴くとき、聴覚システムは、聴覚の世界を、世界の重要な対象、すなわち人間や動物、空洞のある物体など、共鳴する発音体に属す る部分にうまく切り分けられたと満足する。

この考え方を続けると、音階の中で安定性の高い音は、1つのサウンドメイカーから発せられる低音で通常より大きな倍音に対応し、サウンドメイカーの基本周 波数、つまり基準音と自信を持ってグループ分けできることがわかる。安定性の低い音は、高音で一般的に弱い倍音に対応し、基準音と同じサウンドメーカーか ら発せられた音かもしれませんが、その割り当てはあまり確実ではありません。同様に、長音程で区切られた音は、1つの共鳴器から出た音であることは確かで すが、短音程で区切られた音は、非常に高い倍音(つまり弱く不確かな倍音)かもしれませんし、複雑な形や材質の共鳴器から出た音で、きれいな澄んだ音色を 出さないかもしれませんし、1つの共鳴器から出た音ではないかもしれません。おそらく、マイナー・インターバルの発生源が曖昧であることが、聴覚系に落ち 着かない感覚を与え、それが脳の別の場所で悲しみとして変換されるのだろう。ウインドチャイム、教会の鐘、列車の警笛、クラクストンホーン、鳴り響くサイ レンなどは、たった2つの和声的に関連した音で感情的な反応を呼び起こすことができる。音と音の間のわずかなジャンプがメロディの中心であり、それ以外は 何層にも重なった装飾であることを思い出してほしい。

3. 感情的な鳴き声 ダーウィンは、多くの鳥類や霊長類の鳴き声が、調和関係にある個別の音で構成されていることに気づいた。ダーウィンは、鳴き声は何度でも再現しやすいこと から進化したのだと推測した。(もし彼が100年後に生きていたら、デジタル表現はアナログ表現よりも再現性が高いと言っていただろう)。彼は、人間の音 楽は祖先の交尾の鳴き声から生まれたと、あまり信憑性は高くないが示唆した。しかし、彼の提案は、すべての感情的な呼び声を含むように広げれば、理にか なっているかもしれない。泣き声、むせび声、泣き声、うめき声、うなり声、クーイング、笑い声、雄叫び、吠え声、歓声、その他の射精には音響的特徴があ る。おそらくメロディーが強い感情を呼び起こすのは、その骨格がデジタル化された私たちの種の感情の叫びのテンプレートに似ているからだろう。人は音楽の 一節を言葉で表現しようとするとき、このような感情の叫びをメタファーとして使う。ソウル・ミュージシャンは、うなり声、叫び声、うめき声、うめき声を混 ぜて歌うし、トーチ・ソングやカントリー&ウェスタン・ミュージックの歌手は、キャッチ、ひび割れ、ためらい、その他の感情的なチックを使う。偽りの感情 は、芸術とレクリエーションの共通の目標である。

4. 生息地の選択。私たちは、遠くの景色、緑、集まってくる雲、夕日など、安全、安全でない、あるいは変化する生息地を知らせる視覚世界の特徴に注意を払う (第6章参照)。おそらく私たちは、安全、危険、または生息地の変化を知らせる聴覚世界の特徴にも注意を払うだろう。雷、風、水のせせらぎ、鳥のさえず り、うなり声、足音、心臓の鼓動、小枝の折れる音はすべて感情的な効果をもたらすが、それはおそらく、世界の注目すべき出来事によって引き起こされるから だろう。おそらく、メロディーの中心にある削ぎ落とされた数字やリズムのいくつかは、喚起的な環境音を単純化したテンプレートなのだろう。トーンペイン ティングと呼ばれる手法では、作曲家が意図的に雷や鳥のさえずりのような環境音をメロディーの中に呼び起こそうとする。

音楽が感情に訴える純粋な例は、映画のサウンドトラックにあるかもしれない。多くの映画やテレビ番組は、最初から最後まで、視聴者の感情を擬似的な音楽ア レンジで文字通りオーケストレーションしている。リズムもメロディーもグループ分けもないが、映画ファンを感情から感情へと引っ張ることができる: サイレント映画のクライマックスで盛り上がる音階、古いモノクロ映画のムズムズするシーンで使われる重苦しい弦楽器(「私の同情を操作しようとしている」 という意味の、皮肉たっぷりのバイオリンでお辞儀をするジェスチャーの元ネタ)、『ジョーズ』の不吉な2音符のモチーフ、テレビシリーズ『ミッション・イ ンポッシブル』のサスペンスフルなシンバルとドラムのビート、戦いや追跡シーンの激しい不協和音。この擬似音楽が、環境音の輪郭を抽出したものなのか、話 し声なのか、感情の叫びなのか、あるいはその組み合わせなのかは定かではないが、紛れもなく効果的である。

5. 運動制御。リズムは音楽の普遍的な要素であり、多くのイディオムでは、リズムが主要または唯一の要素である。人は音楽に合わせて踊ったり、うなずいたり、 揺れたり、歩いたり、拍手したり、スナップしたりする。歩く、走る、刻む、擦る、掘るなどの反復動作には最適なリズムがあり(通常はリズムの中に最適なリ ズムのパターンがある)、それは身体と作業する道具や表面のインピーダンスによって決まる。良い例は、ブランコで子供を押すことである。一定のリズムパ ターンは、このような動作のタイミングを合わせる最適な方法であり、私たちはそれにこだわることで適度な快感を得ることができる。音楽やダンスは、その快 楽への刺激を凝縮したものなのかもしれない。また、筋肉のコントロールには、緊張と解放の連続(例えば、跳躍や打撃など)、緊急性、熱意、倦怠感を伴う動 作、自信、服従、抑うつを反映する直立姿勢やうつむき姿勢なども含まれる。ジャッケンドフ、マンフレッド・クラインズ、デイヴィッド・エプスタインなど、 心理学志向の音楽理論家の何人かは、音楽は動きの動機づけや感情の要素を再現すると考えている。

6. 他の何か。全体が部分の総和以上であることを説明する何か。スライドのピントが合ったり合わなかったりするのを見たり、ファイリング・キャビネットを引き ずって階段を上ったりしても、なぜ人の体から魂が湧き上がらないのかを説明する何か。おそらく、音波に同期して発火するニューロンと、感情回路の自然な振 動との間で、脳内で共鳴が起きているのだろう。左の言語野の右半球における未使用の対応物?聴覚回路、感情回路、言語回路、運動回路が脳の中で偶然に組み 合わされた、ある種のスパンドレル、クロールスペース、ショートサーキット、カップリング?音楽に関するこの分析は推測の域を出ないが、本書の残りの部分 にある精神能力に関する議論をうまく補完している。私がこれらのトピックを選んだのは、それらが適応であることの最も明確な兆候を示しているからである。 音楽を選んだのは、音楽がそうでないことの最も明確な兆候を示しているからである。


リ ンク

文 献

そ の他の情報


Copyleft, CC, Mitzub'ixi Quq Chi'j, 1996-2099

Mitzub'ixi Quq Chi'j