はじめによんでください

国際ハップマップ・プロジェクト

International HapMap Project


池田光穂

☆ 国際ハプロマップ・プロジェクト(International HapMap Project)は、ヒトゲノムのハプロタイプマップ(HapMap)を開発し、ヒトの遺伝的変異の共通パターンを記述することを目的とした組織である。 HapMapは、健康、病気、薬物や環境因子への反応に影響する遺伝的変異を見つけるために使用される。このプロジェクトで作成された情報は、研究のため に自由に利用できる。 インターナショナル・ハップマップ・プロジェクトは、カナダ、中国(香港を含む)、日本、ナイジェリア、英国、米国の学術センター、非営利の生物医学研究 グループ、民間企業の研究者の共同研究である。2002年10月27日から29日にかけて開催された会議で正式にスタートし、約3年の歳月がかかると予想 されていた。フェーズIで得られた全データは、2005年10月27日に公表された[1]。 フェーズIIのデータセットの分析は、2007年10月に公表された[2]。 フェーズIIIのデータセットは、2009年春に公表され、2010年9月に最終結果を示す出版物が公表された[3]。

The International HapMap Project was an organization that aimed to develop a haplotype map (HapMap) of the human genome, to describe the common patterns of human genetic variation. HapMap is used to find genetic variants affecting health, disease and responses to drugs and environmental factors. The information produced by the project is made freely available for research.

The International HapMap Project is a collaboration among researchers at academic centers, non-profit biomedical research groups and private companies in Canada, China (including Hong Kong), Japan, Nigeria, the United Kingdom, and the United States. It officially started with a meeting on October 27 to 29, 2002, and was expected to take about three years. It comprises two phases; the complete data obtained in Phase I were published on 27 October 2005.[1] The analysis of the Phase II dataset was published in October 2007.[2] The Phase III dataset was released in spring 2009 and the publication presenting the final results published in September 2010.[3]
国際ハプロマップ・プロジェクト(International HapMap Project)は、ヒトゲノムのハプロタイプマップ(HapMap)を開発し、ヒトの遺伝的変異の共通パターンを記述することを目的とした組織である。 HapMapは、健康、病気、薬物や環境因子への反応に影響する遺伝的変異を見つけるために使用される。このプロジェクトで作成された情報は、研究のため に自由に利用できる。

インターナショナル・ハップマップ・プロジェクトは、カナダ、中国(香港を含む)、日本、ナイジェリア、英国、米国の学術センター、非営利の生物医学研究 グループ、民間企業の研究者の共同研究である。2002年10月27日から29日にかけて開催された会議で正式にスタートし、約3年の歳月がかかると予想 されていた。フェーズIで得られた全データは、2005年10月27日に公表された[1]。 フェーズIIのデータセットの分析は、2007年10月に公表された[2]。 フェーズIIIのデータセットは、2009年春に公表され、2010年9月に最終結果を示す出版物が公表された[3]。
Background

Unlike with the rarer Mendelian diseases, combinations of different genes and the environment play a role in the development and progression of common diseases (such as diabetes, cancer, heart disease, stroke, depression, and asthma), or in the individual response to pharmacological agents.[4] To find the genetic factors involved in these diseases, one could in principle do a genome-wide association study: obtain the complete genetic sequence of several individuals, some with the disease and some without, and then search for differences between the two sets of genomes. At the time, this approach was not feasible because of the cost of full genome sequencing. The HapMap project proposed a shortcut.

Although any two unrelated people share about 99.5% of their DNA sequence, their genomes differ at specific nucleotide locations. Such sites are known as single nucleotide polymorphisms (SNPs), and each of the possible resulting gene forms is called an allele.[5] The HapMap project focuses only on common SNPs, those where each allele occurs in at least 1% of the population.

Each person has two copies of all chromosomes, except the sex chromosomes in males. For each SNP, the combination of alleles a person has is called a genotype. Genotyping refers to uncovering what genotype a person has at a particular site. The HapMap project chose a sample of 269 individuals and selected several million well-defined SNPs, genotyped the individuals for these SNPs, and published the results.[6]

The alleles of nearby SNPs on a single chromosome are correlated. Specifically, if the allele of one SNP for a given individual is known, the alleles of nearby SNPs can often be predicted, a process known as genotype imputation.[7] This is because each SNP arose in evolutionary history as a single point mutation, and was then passed down on the chromosome surrounded by other, earlier, point mutations. SNPs that are separated by a large distance on the chromosome are typically not very well correlated, because recombination occurs in each generation and mixes the allele sequences of the two chromosomes. A sequence of consecutive alleles on a particular chromosome is known as a haplotype.[8]

To find the genetic factors involved in a particular disease, one can proceed as follows. First a certain region of interest in the genome is identified, possibly from earlier inheritance studies. In this region one locates a set of tag SNPs from the HapMap data; these are SNPs that are very well correlated with all the other SNPs in the region. Using these, genotype imputation can be used to determine (impute) the other SNPs and thus the entire haplotype with high confidence. Next, one determines the genotype for these tag SNPs in several individuals, some with the disease and some without. By comparing the two groups, one determines the likely locations and haplotypes that are involved in the disease.


背景

まれなメンデル病とは異なり、一般的な疾患(糖尿病、がん、心臓病、脳卒中、うつ病、喘息など)の発症や進行には、さまざまな遺伝子と環境の組み合わせが 関与しており、また薬理学的薬剤に対する個人の反応にも関与している[4]。これらの疾患に関与する遺伝的要因を見つけるには、原理的にはゲノムワイド関 連研究を行うことができる。当時は、全ゲノム配列決定にはコストがかかるため、この方法は実現不可能であった。HapMapプロジェクトは近道を提案し た。

血縁関係のない2人のDNA配列は約99.5%共通しているが、そのゲノムは特定のヌクレオチド位置で異なっている。このような部位は一塩基多型 (SNP)と呼ばれ、その結果生じる可能性のある遺伝子の形はそれぞれ対立遺伝子と呼ばれる[5]。ハップマップ・プロジェクトでは、一般的なSNP、す なわち各対立遺伝子が集団の少なくとも1%に存在するSNPにのみ焦点を当てている。

人はそれぞれ、男性の性染色体を除くすべての染色体のコピーを2つ持っている。それぞれのSNPについて、その人が持つ対立遺伝子の組み合わせを遺伝子型 と呼ぶ。ジェノタイピングとは、ある人が特定の部位でどのような遺伝子型を持つかを明らかにすることである。HapMapプロジェクトは、269人のサン プルを選び、数百万個のよく定義されたSNPを選択し、これらのSNPについて個人をジェノタイピングし、結果を公表した[6]。

一つの染色体上の近傍のSNPの対立遺伝子は相関している。具体的には、ある個体のあるSNPの対立遺伝子がわかっていれば、その近くのSNPの対立遺伝 子を予測することができる。染色体上の距離が離れているSNPは、各世代で組換えが起こり、2つの染色体の対立遺伝子の配列が混ざり合うため、一般的にあ まり相関がない。特定の染色体上の連続した対立遺伝子の配列は、ハプロタイプとして知られている[8]。

特定の疾患に関与する遺伝的要因を見つけるには、次のように進めることができる。まず、ゲノム上のある領域を特定する。この領域では、HapMapデータ からタグSNPsのセットを見つける。これらのSNPを用いれば、遺伝子型のインピュテーションによって他のSNP、ひいてはハプロタイプ全体を高い信頼 性で決定(インピュテーション)することができる。次に、これらのタグSNPの遺伝子型を、病気を持つ個体と持たない個体で決定する。この2つのグループ を比較することにより、疾患に関与している可能性の高い位置とハプロタイプを決定する。

Samples used

Haplotypes are generally shared between populations, but their frequency can differ widely. Four populations were selected for inclusion in the HapMap: 30 adult-and-both-parents Yoruba trios from Ibadan, Nigeria (YRI), 30 trios of Utah residents of northern and western European ancestry (CEU), 44 unrelated Japanese individuals from Tokyo, Japan (JPT) and 45 unrelated Han Chinese individuals from Beijing, China (CHB). Although the haplotypes revealed from these populations should be useful for studying many other populations, parallel studies are currently examining the usefulness of including additional populations in the project.

All samples were collected through a community engagement process with appropriate informed consent. The community engagement process was designed to identify and attempt to respond to culturally specific concerns and give participating communities input into the informed consent and sample collection processes.[9]

In phase III, 11 global ancestry groups have been assembled: ASW (African ancestry in Southwest USA); CEU (Utah residents with Northern and Western European ancestry from the CEPH collection); CHB (Han Chinese in Beijing, China); CHD (Chinese in Metropolitan Denver, Colorado); GIH (Gujarati Indians in Houston, Texas); JPT (Japanese in Tokyo, Japan); LWK (Luhya in Webuye, Kenya); MEX (Mexican ancestry in Los Angeles, California); MKK (Maasai in Kinyawa, Kenya); TSI (Tuscans in Italy); YRI (Yoruba in Ibadan, Nigeria).[10]

Three combined panels have also been created, which allow better identification of SNPs in groups outside the nine homogenous samples: CEU+TSI (Combined panel of Utah residents with Northern and Western European ancestry from the CEPH collection and Tuscans in Italy); JPT+CHB (Combined panel of Japanese in Tokyo, Japan and Han Chinese in Beijing, China) and JPT+CHB+CHD (Combined panel of Japanese in Tokyo, Japan, Han Chinese in Beijing, China and Chinese in Metropolitan Denver, Colorado). CEU+TSI, for instance, is a better model of UK British individuals than is CEU alone.[10]
使用サンプル

ハプロタイプは一般的に集団間で共有されているが、その頻度は大きく異なることがある。HapMapに含めるために4つの集団が選ばれた: ナイジェリアのイバダンに住むヨルバ人30人(YRI)、ユタ州に住む北ヨーロッパと西ヨーロッパに祖先を持つ30人(CEU)、東京に住む血縁関係のな い日本人44人(JPT)、中国の北京に住む血縁関係のない漢民族45人(CHB)である。これらの集団から明らかにされたハプロタイプは、他の多くの集 団の研究にも役立つはずであるが、並行して現在、このプロジェクトに他の集団を含めることの有用性が検討されている。

すべてのサンプルは、適切なインフォームド・コンセントを得た上で、地域社会との関わりを通じて収集された。地域社会参加プロセスは、文化的に特異的な懸 念を特定し、それに対応しようとするものであり、参加する地域社会にインフォームド・コンセントとサンプル収集プロセスへの意見を与えるように設計された [9]。

第III相では、11の世界的な祖先グループが集められた: ASW(米国南西部に住むアフリカ系住民)、CEU(CEPHコレクションに含まれる北欧および西欧系住民)、CHB(中国北京に住む漢民族)、CHD (コロラド州デンバーのメトロポリタンに住む中国人); GIH(テキサス州ヒューストンに住むグジャラティ・インディアン);JPT(日本、東京に住む日本人);LWK(ケニア、ウェブイエに住むルヒヤ人); MEX(カリフォルニア州ロサンゼルスに住むメキシコ系);MKK(ケニア、キニャーワに住むマサイ人);TSI(イタリアに住むトスカーナ人);YRI (ナイジェリア、イバダンに住むヨルバ人)。 [10]

3つの複合パネルも作成され、9つの均質なサンプル以外のグループのSNPをよりよく同定できるようになった: CEU+TSI(CEPHコレクションの北欧と西欧の祖先を持つユタ州住民とイタリアのトスカーナ人の複合パネル)、JPT+CHB(日本の東京に住む日 本人と中国の北京に住む漢民族の複合パネル)、JPT+CHB+CHD(日本の東京に住む日本人、中国の北京に住む漢民族、コロラド州デンバーのメトロポ リタンに住む中国人の複合パネル)である。例えば、CEU+TSIは、CEU単独よりも英国人英国人のモデルとして優れている[10]。
Scientific strategy

It was expensive in the 1990s to sequence patients’ whole genomes. So the National Institutes of Health embraced the idea for a "shortcut", which was to look just at sites on the genome where many people have a variant DNA unit. The theory behind the shortcut was that, since the major diseases are common, so too would be the genetic variants that caused them. Natural selection keeps the human genome free of variants that damage health before children are grown, the theory held, but fails against variants that strike later in life, allowing them to become quite common (In 2002 the National Institutes of Health started a $138 million project called the HapMap to catalog the common variants in European, East Asian and African genomes).[11]

For the Phase I, one common SNP was genotyped every 5,000 bases. Overall, more than one million SNPs were genotyped. The genotyping was carried out by 10 centres using five different genotyping technologies. Genotyping quality was assessed by using duplicate or related samples and by having periodic quality checks where centres had to genotype common sets of SNPs.

The Canadian team was led by Thomas J. Hudson at McGill University in Montreal and focused on chromosomes 2 and 4p. The Chinese team was led by Huanming Yang in Beijing and Shanghai, and Lap-Chee Tsui in Hong Kong and focused on chromosomes 3, 8p and 21. The Japanese team was led by Yusuke Nakamura at the University of Tokyo and focused on chromosomes 5, 11, 14, 15, 16, 17 and 19. The British team was led by David R. Bentley at the Sanger Institute and focused on chromosomes 1, 6, 10, 13 and 20. There were four United States' genotyping centres: a team led by Mark Chee and Arnold Oliphant at Illumina Inc. in San Diego (studying chromosomes 8q, 9, 18q, 22 and X), a team led by David Altshuler and Mark Daly at the Broad Institute in Cambridge, USA (chromosomes 4q, 7q, 18p, Y and mitochondrion), a team led by Richard Gibbs at the Baylor College of Medicine in Houston (chromosome 12), and a team led by Pui-Yan Kwok at the University of California, San Francisco (chromosome 7p).

To obtain enough SNPs to create the Map, the Consortium funded a large re-sequencing project to discover millions of additional SNPs. These were submitted to the public dbSNP database. As a result, by August 2006, the database included more than ten million SNPs, and more than 40% of them were known to be polymorphic. By comparison, at the start of the project, fewer than 3 million SNPs were identified, and no more than 10% of them were known to be polymorphic.

During Phase II, more than two million additional SNPs were genotyped throughout the genome by David R. Cox, Kelly A. Frazer and others at Perlegen Sciences and 500,000 by the company Affymetrix.
科学的戦略

1990年代、患者の全ゲノムの配列を調べるのは高価であった。そこで国民衛生研究所は 「近道 」のアイデアを採用した。それは、多くの人が変異DNAを持つゲノム上の部位だけを調べるというものであった。この近道の背景にある理論は、主要な疾患は 一般的であるため、その原因となる遺伝子変異も一般的であろうというものであった。自然淘汰は、子供が成長する前に健康を害するような変異をヒトゲノムに 残さないが、人生の後半で発症する変異に対しては失敗し、それらがごく一般的になることを可能にするという理論である(2002年、アメリカ国立衛生研究 所は、ヨーロッパ、東アジア、アフリカのゲノムによく見られる変異のカタログを作成するために、1億3800万ドルをかけたHapMapと呼ばれるプロ ジェクトを開始した)[11]。

フェーズIでは、5,000塩基ごとに1つの共通SNPが遺伝子型決定された。全体として、100万以上のSNPがジェノタイピングされた。ジェノタイピ ングは、5つの異なるジェノタイピング技術を用いて10のセンターで実施された。ジェノタイピングの質は、重複サンプルや関連サンプルを用いたり、各セン ターが共通のSNPsをジェノタイピングする定期的な質チェックによって評価された。

カナダのチームは、モントリオールにあるマギル大学のThomas J. Hudson氏が率い、2番と4p番染色体に焦点を当てた。中国チームは北京と上海のHuanming Yangと香港のLap-Chee Tsuiが率い、3番、8p、21番染色体に焦点を当てた。日本チームは東京大学の中村祐輔氏 が率い、5番、11番、14番、15番、16番、17番、19番染色体に焦点を当てた。英国チームはサンガー研究所のデビッド・R・ベントレーが率い、 1、6、10、13、20番染色体に焦点を当てた。米国のジェノタイピングセンターは4つあった。サンディエゴのイルミナ社のマーク・チー氏とアーノル ド・オリファント氏率いるチーム(8q、9、18q、22、X染色体を研究)、米国ケンブリッジのブロード研究所のデイヴィッド・アルトシューラー氏と マーク・ダリー氏率いるチーム(4q、7q、18p、Y、ミトコンドリア)、ヒューストンのベイラー医科大学のリチャード・ギブス氏率いるチーム(12番 染色体)、カリフォルニア大学サンフランシスコ校のプイ・ヤン・クォック氏率いるチーム(7p染色体)である。

地図を作成するのに十分なSNPを得るために、コンソーシアムは大規模なリシーケンスプロジェクトに資金を提供し、さらに数百万ものSNPを発見した。こ れらは公開されているdbSNPデータベースに登録された。その結果、2006年8月までにデータベースには1000万以上のSNPが登録され、その 40%以上が多型であることが判明した。これに対し、プロジェクト開始時点では、同定されたSNPは300万個未満であり、多型であることが知られている SNPはその10%にも満たなかった。

フェーズIIでは、Perlegen Sciences社のDavid R. Cox氏、Kelly A. Frazer氏らによって200万個以上のSNPが、Affymetrix社によって50万個のSNPが、ゲノム全体に追加された。
Data access
All of the data generated by the project, including SNP frequencies, genotypes and haplotypes, were placed in the public domain and are available for download.[12] This website also contains a genome browser which allows to find SNPs in any region of interest, their allele frequencies and their association to nearby SNPs. A tool that can determine tag SNPs for a given region of interest is also provided. These data can also be directly accessed from the widely used Haploview program.


データへのアクセス
SNP頻度、遺伝子型、ハプロタイプなど、このプロジェクトで作成されたデータはすべてパブリックドメインとして公開され、ダウンロードが可能である [12]。このウェブサイトには、任意の関心領域のSNP、その対立遺伝子頻度、近隣のSNPとの関連を検索できるゲノムブラウザも含まれている。与えら れた関心領域のタグSNPを決定できるツールも提供されている。これらのデータは、広く使われているHaploviewプログラムから直接アクセスするこ ともできる。

Publications
International HapMap Consortium (2003). "The International HapMap Project" (PDF). Nature. 426 (6968): 789–796. Bibcode:2003Natur.426..789G. doi:10.1038/nature02168. hdl:2027.42/62838. PMID 14685227. S2CID 4387110.
International HapMap Consortium (2004). "Integrating ethics and science in the International HapMap Project". Nature Reviews Genetics. 5 (6): 467–475. doi:10.1038/nrg1351. PMC 2271136. PMID 15153999.
International HapMap Consortium (2005). "A haplotype map of the human genome". Nature. 437 (7063): 1299–1320. Bibcode:2005Natur.437.1299T. doi:10.1038/nature04226. PMC 1880871. PMID 16255080.
International HapMap Consortium (2007). "A second generation human haplotype map of over 3.1 million SNPs". Nature. 449 (7164): 851–861. Bibcode:2007Natur.449..851F. doi:10.1038/nature06258. PMC 2689609. PMID 17943122.
International HapMap 3 Consortium (2010). "Integrating common and rare genetic variation in diverse human populations". Nature. 467 (7311): 52–58. Bibcode:2010Natur.467...52T. doi:10.1038/nature09298. PMC 3173859. PMID 20811451.
Deloukas P, Bentley D (2004). "The HapMap project and its application to genetic studies of drug response". The Pharmacogenomics Journal. 4 (2): 88–90. doi:10.1038/sj.tpj.6500226. PMID 14676823.
Thorisson GA, Smith AV, Krishnan L, Stein LD (2005). "The International HapMap Project Web site". Genome Research. 15 (11): 1592–1593. doi:10.1101/gr.4413105. PMC 1310647. PMID 16251469.
Terwilliger JD, Hiekkalinna T (2006). "An utter refutation of the 'Fundamental Theorem of the HapMap'". European Journal of Human Genetics. 14 (4): 426–437. doi:10.1038/sj.ejhg.5201583. PMID 16479260.
Secko, David (2005). "Phase I of the HapMap Complete" Archived 2011-05-14 at the Wayback Machine. The Scientist

Genealogical DNA test
The 1000 Genomes Project
Population groups in biomedicine
Human Variome Project
Human genetic variation
系図DNA検査
1000人ゲノムプロジェクト
生物医学における集団
ヒトバリオームプロジェクト
ヒトの遺伝的変異












リ ンク

文 献

そ の他の情報


Copyleft, CC, Mitzub'ixi Quq Chi'j, 1996-2099

Mitzub'ixi Quq Chi'j