はじめによんでください

音響心理学

Psychoacoustics

池田光穂

☆ 音響心理学は、人間の聴覚系による音の知覚を科学的に研究する心理物理学(そのためPsychoacousticsは、心理音響学とも訳せる)の一分野で ある。騒音、音声、音楽など、音に関連する心理的反応を研究する科学の一分野である。音響心理学は、心理学、音響学、電子工学、物理学、生物学、生理学、 コンピュータサイエンスを含む学際的な分野である[1]。

Psychoacoustics is the branch of psychophysics involving the scientific study of the perception of sound by the human auditory system. It is the branch of science studying the psychological responses associated with sound including noise, speech, and music. Psychoacoustics is an interdisciplinary field including psychology, acoustics, electronic engineering, physics, biology, physiology, and computer science.[1]
音響心理学は、人間の聴覚系による音の知覚を科学的に研究する心理物理 学の一分野である。騒音、音声、音楽など、音に関連する心理的反応を研究する科学の一分野である。音響心理学は、心理学、音響学、電子工学、物理学、生物 学、生理学、コンピュータサイエンスを含む学際的な分野である[1]。
Background
Hearing is not a purely mechanical phenomenon of wave propagation, but is also a sensory and perceptual event. When a person hears something, that something arrives at the ear as a mechanical sound wave traveling through the air, but within the ear it is transformed into neural action potentials. These nerve pulses then travel to the brain where they are perceived. Hence, in many problems in acoustics, such as for audio processing, it is advantageous to take into account not just the mechanics of the environment, but also the fact that both the ear and the brain are involved in a person's listening experience.[citation needed]

The inner ear, for example, does significant signal processing in converting sound waveforms into neural stimuli, this processing renders certain differences between waveforms imperceptible.[2] Data compression techniques, such as MP3, make use of this fact.[3] In addition, the ear has a nonlinear response to sounds of different intensity levels; this nonlinear response is called loudness. Telephone networks and audio noise reduction systems make use of this fact by nonlinearly compressing data samples before transmission and then expanding them for playback.[4] Another effect of the ear's nonlinear response is that sounds that are close in frequency produce phantom beat notes, or intermodulation distortion products.[5]
背景
聴覚は、純粋に機械的な波動伝播現象ではなく、感覚的・知覚的な事象でもある。人が何かを聞くとき、その何かは空気中を伝わる機械的な音波として耳に届く が、耳の中では神経活動電位に変換される。この神経パルスが脳に伝わり、そこで知覚される。したがって、音声処理など音響学の多くの問題では、環境の力学 だけでなく、耳と脳の両方が人のリスニング体験に関与しているという事実を考慮に入れることが有利である[要出典]。

例えば、内耳は音の波形を神経刺激に変換する際に重要な信号処理を行うが、この処理によって波形間のある種の違いが知覚できなくなる[2]。MP3などの データ圧縮技術はこの事実を利用している[3]。さらに、耳は異なる強度レベルの音に対して非線形反応を示す。電話網やオーディオノイズ低減システムは、 送信前にデータサンプルを非線形に圧縮し、再生時に拡張することで、この事実を利用している[4]。耳の非線形応答のもう1つの効果は、周波数が近い音が 幻のビート音、つまり相互変調歪み生成物を生成することである[5]。
Limits of perception

An equal-loudness contour. Note peak sensitivity around 2–4 kHz, in the middle of the voice frequency band.
The human ear can nominally hear sounds in the range 20 to 20000 Hz. The upper limit tends to decrease with age; most adults are unable to hear above 16000 Hz. The lowest frequency that has been identified as a musical tone is 12 Hz under ideal laboratory conditions.[6] Tones between 4 and 16 Hz can be perceived via the body's sense of touch.

Human perception of audio signal time separation has been measured to be less than 10 microseconds. This does not mean that frequencies above 100 kHz are audible, but that time discrimination is not directly coupled with frequency range.[7][8]

Frequency resolution of the ear is about 3.6 Hz within the octave of 1000–2000 Hz That is, changes in pitch larger than 3.6 Hz can be perceived in a clinical setting.[6] However, even smaller pitch differences can be perceived through other means. For example, the interference of two pitches can often be heard as a repetitive variation in the volume of the tone. This amplitude modulation occurs with a frequency equal to the difference in frequencies of the two tones and is known as beating.

The semitone scale used in Western musical notation is not a linear frequency scale but logarithmic. Other scales have been derived directly from experiments on human hearing perception, such as the mel scale and Bark scale (these are used in studying perception, but not usually in musical composition), and these are approximately logarithmic in frequency at the high-frequency end, but nearly linear at the low-frequency end.

The intensity range of audible sounds is enormous. Human eardrums are sensitive to variations in sound pressure and can detect pressure changes from as small as a few micropascals (μPa) to greater than 100 kPa. For this reason, sound pressure level is also measured logarithmically, with all pressures referenced to 20 μPa (or 1.97385×10−10 atm). The lower limit of audibility is therefore defined as 0 dB, but the upper limit is not as clearly defined. The upper limit is more a question of the limit where the ear will be physically harmed or with the potential to cause noise-induced hearing loss.

A more rigorous exploration of the lower limits of audibility determines that the minimum threshold at which a sound can be heard is frequency dependent. By measuring this minimum intensity for testing tones of various frequencies, a frequency-dependent absolute threshold of hearing (ATH) curve may be derived. Typically, the ear shows a peak of sensitivity (i.e., its lowest ATH) between 1–5 kHz, though the threshold changes with age, with older ears showing decreased sensitivity above 2 kHz.[9]

The ATH is the lowest of the equal-loudness contours. Equal-loudness contours indicate the sound pressure level (dB SPL), over the range of audible frequencies, that are perceived as being of equal loudness. Equal-loudness contours were first measured by Fletcher and Munson at Bell Labs in 1933 using pure tones reproduced via headphones, and the data they collected are called Fletcher–Munson curves. Because subjective loudness was difficult to measure, the Fletcher–Munson curves were averaged over many subjects.

Robinson and Dadson refined the process in 1956 to obtain a new set of equal-loudness curves for a frontal sound source measured in an anechoic chamber. The Robinson-Dadson curves were standardized as ISO 226 in 1986. In 2003, ISO 226 was revised as equal-loudness contour using data collected from 12 international studies.


知覚の限界

等ラウドネスの輪郭。音声周波数帯域の中央、2~4kHzあたりに感度のピークがある。
人間の耳は公称20~20000Hzの音を聞き取ることができる。上限は年齢とともに下がる傾向にあり、成人のほとんどは16000Hz以上の音を聞き取 ることができない。理想的な実験室条件下で、音楽的な音色として確認されている最低周波数は12Hzである[6]。

オーディオ信号の時間分離に関する人間の知覚は、10マイクロ秒未満と測定されている。これは100kHz以上の周波数が聞き取れるという意味ではなく、 時間弁別が周波数範囲と直接結合していないという意味である[7][8]。

耳の周波数分解能は、1000~2000Hzのオクターブ内で約3.6Hzである。つまり、3.6Hzよりも大きなピッチの変化は、臨床の場で知覚するこ とができる。例えば、2つの音程の干渉は、しばしば音量の反復変化として聴こえる。この振幅変調は、2つの音の周波数の違いに等しい周波数で起こり、ビー ティングとして知られている。

西洋音楽の記譜法で使われる半音階は、直線的な周波数音階ではなく、対数的な音階である。メル・スケールやバーク・スケールなど、人間の聴覚に関する実験 から直接導き出された音階もあり(これらは知覚の研究に使われるが、作曲には通常使われない)、これらは高周波数端ではほぼ対数的な周波数であるが、低周 波数端ではほぼ直線的である。

可聴音の強度範囲は非常に広い。人間の鼓膜は音圧の変化に敏感で、数マイクロパスカル(μPa)の小さなものから100kPaを超えるものまでの圧力変化 を検出できる。このため、音圧レベルも対数的に測定され、すべての圧力は20μPa(または1.97385×10-10気圧)を基準とする。従って、可聴 下限は0dBと定義されるが、上限はそれほど明確には定義されない。上限はむしろ、耳が物理的に傷つく限界、あるいは騒音性難聴を引き起こす可能性のある 限界の問題である。

可聴域の下限をより厳密に調査した結果、音が聞こえる最小閾値は周波数に依存することが判明した。様々な周波数の試験音についてこの最小強度を測定するこ とで、周波数依存の絶対可聴閾値(ATH)曲線を導き出すことができる。一般的に、耳は1~5kHzの間で感度のピーク(すなわち、ATHの最低値)を示 すが、閾値は年齢によって変化し、高齢の耳では2kHz以上で感度が低下する[9]。

ATHは、等ラウドネス等高線の中で最も低いものである。等ラウドネス等高線は、可聴周波数範囲において、等しいラウドネスとして知覚される音圧レベル (dB SPL)を示す。等ラウドネスの等高線は、1933年にベル研究所のFletcherとMunsonによって、ヘッドフォンで再生される純音を用いて初め て測定された。主観的なラウドネスを測定するのは困難であったため、Fletcher-Munson曲線は多くの被験者で平均化された。

RobinsonとDadsonは1956年にこのプロセスを改良し、無響室で測定した正面音源の新しい等ラウドネス曲線を得た。Robinson- Dadson曲線は1986年にISO 226として標準化された。2003年、ISO 226は、12の国際的な研究から収集されたデータを用いて、等ラウドネス曲線として改訂された。

Sound localization
Main article: Sound localization
Sound localization is the process of determining the location of a sound source. The brain utilizes subtle differences in loudness, tone and timing between the two ears to allow us to localize sound sources.[10] Localization can be described in terms of three-dimensional position: the azimuth or horizontal angle, the zenith or vertical angle, and the distance (for static sounds) or velocity (for moving sounds).[11] Humans, as most four-legged animals, are adept at detecting direction in the horizontal, but less so in the vertical directions due to the ears being placed symmetrically. Some species of owls have their ears placed asymmetrically and can detect sound in all three planes, an adaption to hunt small mammals in the dark.[12]
サウンドローカライズ
主な記事 音の定位
音源定位とは、音源の位置を決定するプロセスのことである。定位は、方位角(水平方向の角度)、天頂角(垂直方向の角度)、距離(静止音の場合)または速 度(移動音の場合)という3次元的な位置で表すことができる。フクロウの一部の種は、耳が左右非対称に配置されており、暗闇で小型哺乳類を狩るための適応 である3つの平面すべてで音を感知することができる[12]。
Masking effects

This section does not cite any sources. Please help improve this section by adding citations to reliable sources. Unsourced material may be challenged and removed. (June 2016) (Learn how and when to remove this message)
Main article: Auditory masking

Audio masking graph
Suppose a listener can hear a given acoustical signal under silent conditions. When a signal is playing while another sound is being played (a masker), the signal has to be stronger for the listener to hear it. The masker does not need to have the frequency components of the original signal for masking to happen. A masked signal can be heard even though it is weaker than the masker. Masking happens when a signal and a masker are played together—for instance, when one person whispers while another person shouts—and the listener doesn't hear the weaker signal as it has been masked by the louder masker. Masking can also happen to a signal before a masker starts or after a masker stops. For example, a single sudden loud clap sound can make sounds inaudible that immediately precede or follow. The effects of backward masking is weaker than forward masking. The masking effect has been widely studied in psychoacoustical research. One can change the level of the masker and measure the threshold, then create a diagram of a psychophysical tuning curve that will reveal similar features. Masking effects are also used in lossy audio encoding, such as MP3.
Masking effects

This section does not cite any sources. Please help improve this section by adding citations to reliable sources. Unsourced material may be challenged and removed. (June 2016) (Learn how and when to remove this message)
Main article: Auditory masking

Audio masking graph
Suppose a listener can hear a given acoustical signal under silent conditions. When a signal is playing while another sound is being played (a masker), the signal has to be stronger for the listener to hear it. The masker does not need to have the frequency components of the original signal for masking to happen. A masked signal can be heard even though it is weaker than the masker. Masking happens when a signal and a masker are played together—for instance, when one person whispers while another person shouts—and the listener doesn't hear the weaker signal as it has been masked by the louder masker. Masking can also happen to a signal before a masker starts or after a masker stops. For example, a single sudden loud clap sound can make sounds inaudible that immediately precede or follow. The effects of backward masking is weaker than forward masking. The masking effect has been widely studied in psychoacoustical research. One can change the level of the masker and measure the threshold, then create a diagram of a psychophysical tuning curve that will reveal similar features. Masking effects are also used in lossy audio encoding, such as MP3.
Missing fundamental
Main article: Missing fundamental
When presented with a harmonic series of frequencies in the relationship 2f, 3f, 4f, 5f, etc. (where f is a specific frequency), humans tend to perceive that the pitch is f. An audible example can be found on YouTube.[13]
失われたファンダメンタル
主な記事 基音の欠落
2f、3f、4f、5fなど(fは特定の周波数)の関係にある周波数の調和系列を提示されると、人間はピッチがfであると認識する傾向がある。
Software

Perceptual audio coding uses psychoacoustics-based algorithms.
The psychoacoustic model provides for high quality lossy signal compression by describing which parts of a given digital audio signal can be removed (or aggressively compressed) safely—that is, without significant losses in the (consciously) perceived quality of the sound.

It can explain how a sharp clap of the hands might seem painfully loud in a quiet library but is hardly noticeable after a car backfires on a busy, urban street. This provides great benefit to the overall compression ratio, and psychoacoustic analysis routinely leads to compressed music files that are one-tenth to one-twelfth the size of high-quality masters, but with discernibly less proportional quality loss. Such compression is a feature of nearly all modern lossy audio compression formats. Some of these formats include Dolby Digital (AC-3), MP3, Opus, Ogg Vorbis, AAC, WMA, MPEG-1 Layer II (used for digital audio broadcasting in several countries), and ATRAC, the compression used in MiniDisc and some Walkman models.

Psychoacoustics is based heavily on human anatomy, especially the ear's limitations in perceiving sound as outlined previously. To summarize, these limitations are:

High-frequency limit
Absolute threshold of hearing
Temporal masking (forward masking, backward masking)
Simultaneous masking (also known as spectral masking)
A compression algorithm can assign a lower priority to sounds outside the range of human hearing. By carefully shifting bits away from the unimportant components and toward the important ones, the algorithm ensures that the sounds a listener is most likely to perceive are most accurately represented.


ソフトウェア

知覚的オーディオコーディングは、音響心理学に基づくアルゴリズムを使用する。
音響心理モデルは、与えられたデジタルオーディオ信号のどの部分を安全に除去(または積極的に圧縮)できるかを記述することによって、高品質の非可逆信号 圧縮を提供する。

つまり、(意識的に知覚される)音質が大きく損なわれることなく、安全に除去(または積極的に圧縮)できる部分を説明するのである。静かな図書館では、鋭 い手拍子が痛いほど大きく聞こえるかもしれないが、交通量の多い都会の路上で車がバックファイアした後では、ほとんど気にならないことを説明することがで きる。音響心理学的分析により、高音質マスターの10分の1から12分の1のサイズでありながら、音質の劣化が目に見えて少ない圧縮音楽ファイルが日常的 に作られている。このような圧縮は、ほとんどすべての現代の非可逆オーディオ圧縮フォーマットの特徴である。これらのフォーマットには、ドルビーデジタル (AC-3)、MP3、Opus、Ogg Vorbis、AAC、WMA、MPEG-1 Layer II(いくつかの国でデジタルオーディオ放送に使われている)、ATRAC(ミニディスクやウォークマンの一部モデルで使われている圧縮方式)などがあ る。

音響心理学は、人体解剖学、特に先に概説したような、音を知覚する際の耳の限界に大きく基づいている。要約すると、以下のような限界がある:

高周波数限界
聴覚の絶対閾値
時間的マスキング(前方マスキング、後方マスキング)
同時マスキング(スペクトルマスキングとも呼ばれる)
圧縮アルゴリズムは、人間の可聴域外の音に低い優先順位を割り当てることができる。ビットを重要でない成分から重要な成分へと注意深くシフトさせること で、アルゴリズムは、リスナーが最も知覚しやすい音が最も正確に表現されるようにする。

Music
Psychoacoustics includes topics and studies that are relevant to music psychology and music therapy. Theorists such as Benjamin Boretz consider some of the results of psychoacoustics to be meaningful only in a musical context.[14]

Irv Teibel's Environments series LPs (1969–79) are an early example of commercially available sounds released expressly for enhancing psychological abilities.[15]
音楽
音響心理学には、音楽心理学や音楽療法に関連するトピックや研究が含まれる。ベンジャミン・ボレッツのような理論家は、音響心理学の結果のいくつかは、音 楽的文脈においてのみ意味を持つと考えている[14]。

アーヴ・タイベルの『エンバイロメンツ』シリーズのLP(1969-79年)は、心理的能力を高めるために特別に発売された市販の音の初期の例である [15]。
Applied psychoacoustics

Psychoacoustic model
Psychoacoustics has long enjoyed a symbiotic relationship with computer science. Internet pioneers J. C. R. Licklider and Bob Taylor both completed graduate-level work in psychoacoustics, while BBN Technologies originally specialized in consulting on acoustics issues before it began building the first packet-switched network.

Licklider wrote a paper entitled "A duplex theory of pitch perception".[16]

Psychoacoustics is applied within many fields of software development, where developers map proven and experimental mathematical patterns in digital signal processing. Many audio compression codecs such as MP3 and Opus use a psychoacoustic model to increase compression ratios. The success of conventional audio systems for the reproduction of music in theatres and homes can be attributed to psychoacoustics[17] and psychoacoustic considerations gave rise to novel audio systems, such as psychoacoustic sound field synthesis.[18] Furthermore, scientists have experimented with limited success in creating new acoustic weapons, which emit frequencies that may impair, harm, or kill.[19] Psychoacoustics are also leveraged in sonification to make multiple independent data dimensions audible and easily interpretable.[20] This enables auditory guidance without the need for spatial audio and in sonification computer games[21] and other applications, such as drone flying and image-guided surgery.[22] It is also applied today within music, where musicians and artists continue to create new auditory experiences by masking unwanted frequencies of instruments, causing other frequencies to be enhanced. Yet another application is in the design of small or lower-quality loudspeakers, which can use the phenomenon of missing fundamentals to give the effect of bass notes at lower frequencies than the loudspeakers are physically able to produce (see references).

Automobile manufacturers engineer their engines and even doors to have a certain sound.[23]
応用音響心理学

音響心理モデル
音響心理学は長い間、コンピュータサイエンスと共生関係にあった。インターネットのパイオニアであるJ.C.R.リックライダーとボブ・テイラーはともに 音響心理学の修士課程を修了しており、BBNテクノロジーズは最初のパケット交換ネットワークの構築に着手する前は、音響問題のコンサルティングを専門と していた。

リックライダーは 「A duplex theory of pitch perception 」という論文を書いている[16]。

音響心理学はソフトウェア開発の多くの分野で応用されており、開発者はデジタル信号処理において、実績のある数学的パターンと実験的な数学的パターンを マッピングしている。MP3やOpusのような多くの音声圧縮コーデックは、圧縮率を高めるために音響心理モデルを使用している。劇場や家庭での音楽再生 のための従来のオーディオシステムの成功は、音響心理学に起因している[17]。音響心理学的考察は、音響心理学的音場合成のような新しいオーディオシス テムを生み出した[18]。 [19]。音響心理学は、複数の独立したデータ次元を可聴化し、容易に解釈できるようにするためのソニフィケーションにも活用されている[20]。これに より、空間音声を必要としない聴覚ガイダンスが可能になり、ソニフィケーションコンピュータゲーム[21]や、ドローン飛行や画像誘導手術などの他のアプ リケーションに応用されている[22]。さらに別の応用例として、小型または低品質のラウドスピーカーを設計する際に、ファンダメンタルが欠落する現象を 利用して、ラウドスピーカーが物理的に生成できる周波数よりも低い周波数の低音を出す効果がある(参考文献を参照)。

自動車メーカーは、エンジンやドアでさえも、ある音を出すように設計している[23]。
Related fields
Cognitive neuroscience of music
Music psychology
Psychoacoustic topics
A-weighting, a commonly used perceptual loudness transfer function
ABX test
Audiology
Auditory illusion
Auditory scene analysis incl. 3D-sound perception, localization
Binaural beats
Blind signal separation
Combination tone (also Tartini tone)
Deutsch's Scale illusion
Equivalent rectangular bandwidth (ERB)
Franssen effect
Glissando illusion
Hypersonic effect
Language processing
Levitin effect
Misophonia
Musical tuning
Noise health effects
Octave illusion
Pitch (music)
Precedence effect
Psycholinguistics
Rate-distortion theory
Sound localization
Sound of fingernails scraping chalkboard
Sound masking
Speech perception
Speech recognition
Timbre
Tritone paradox

関連分野
音楽の認知神経科学
音楽心理学
音響心理学
知覚ラウドネス伝達関数としてよく使われるA-weighting
ABXテスト
聴覚学
聴覚錯覚
聴覚情景分析(立体音知覚、定位など
バイノーラル・ビート
ブラインド信号分離
コンビネーション・トーン(タルティーニ・トーンもある)
ドイチュの音階錯聴
等価矩形帯域幅(ERB)
フランセン効果
グリッサンド錯聴
ハイパーソニック効果
言語処理
レヴィチン効果
失声症
音楽同調
騒音健康効果
オクターブ錯聴
ピッチ(音楽)
先行効果
心理言語学
レート歪み理論
音の定位
爪が黒板を擦る音
音のマスキング
音声知覚
音声認識
音色
トリトーンのパラドックス
https://en.wikipedia.org/wiki/Psychoacoustics

リ ンク

文 献

そ の他の情報


Copyleft, CC, Mitzub'ixi Quq Chi'j, 1996-2099

Mitzub'ixi Quq Chi'j