はじめによんでください

遺伝子の存在イニシアチブ

Gene Ontology, one of major bioinformatics initiatives

池田光穂

☆ 遺伝子オントロジー(GO)は、すべての生物種における遺伝子および遺伝子産物の属性の表現を統一する主要なバイオインフォマティ クスイニシアティブである。[1] より具体的には、こ のプロジェクトは次のことを目的としている。1)遺伝子および遺伝子産物の属性の統制語彙を維持・開発する。2)遺伝子および遺伝子産物を 注釈し、注釈データを統合し、普及させる。3)プロジェクトが提供するデータのすべての側面への容易なアクセスを可能にするツールを提供し、 また、例えばエンリッチメント解析を通じて、GOを使用して実験データの機能的解釈を可能にする。[2][3] GOは、より大規模な分類作業であるオープンバイオメディカルオントロジーの一部であり、OBOファウンドリーの初期候補メンバーの1つである。[4] 遺伝子命名法が遺伝子および遺伝子産物に焦点を当てているのに対し、遺伝子オントロジーは遺伝子および遺伝子産物の機能に焦点を当てている。また、遺伝子 オントロジーは、マークアップ言語を使用してデータ(遺伝子および遺伝子産物だけでなく、精査された属性のデータも含む)を機械が読み取り可能な形式に し、さらに、その作業をすべての生物種にわたって統一された方法で行うという取り組みも行っている(遺伝子命名法の慣例は生物分類群によって異なる)。

The Gene Ontology (GO) is a major bioinformatics initiative to unify the representation of gene and gene product attributes across all species.[1] More specifically, the project aims to: 1) maintain and develop its controlled vocabulary of gene and gene product attributes; 2) annotate genes and gene products, and assimilate and disseminate annotation data; and 3) provide tools for easy access to all aspects of the data provided by the project, and to enable functional interpretation of experimental data using the GO, for example via enrichment analysis.[2][3] GO is part of a larger classification effort, the Open Biomedical Ontologies, being one of the Initial Candidate Members of the OBO Foundry.[4]

Whereas gene nomenclature focuses on gene and gene products, the Gene Ontology focuses on the function of the genes and gene products. The GO also extends the effort by using a markup language to make the data (not only of the genes and their products but also of curated attributes) machine readable, and to do so in a way that is unified across all species (whereas gene nomenclature conventions vary by biological taxon).


遺伝子オントロジー(GO)は、すべての生物種における遺伝子および遺 伝子産物の属性の表現を統一する主要なバイオインフォマティクスイニシアティブである。[1] より具体的には、このプロジェクトは次のことを目的としている。1)遺伝子および遺伝子産物の属性の統制語彙を維持・開発する。2)遺伝子および遺伝子産 物を注釈し、注釈データを統合し、普及させる。3)プロジェクトが提供するデータのすべての側面への容易なアクセスを可能にするツールを提供し、 また、例えばエンリッチメント解析を通じて、GOを使用して実験データの機能的解釈を可能にする。[2][3] GOは、より大規模な分類作業であるオープンバイオメディカルオントロジーの一部であり、OBOファウンドリーの初期候補メンバーの1つである。[4]

遺伝子命名法が遺伝子および遺伝子産物に焦点を当てているのに対し、遺伝子オントロジーは遺伝子および遺伝子産物の機能に焦点を当てている。また、遺伝子 オントロジーは、マークアップ言語を使用してデータ(遺伝子および遺伝子産物だけでなく、精査された属性のデータも含む)を機械が読み取り可能な形式に し、さらに、その作業をすべての生物種にわたって統一された方法で行うという取り組みも行っている(遺伝子命名法の慣例は生物分類群によって異なる)。

History
The Gene Ontology was originally constructed in 1998 by a consortium of researchers studying the genomes of three model organisms: Drosophila melanogaster (fruit fly), Mus musculus (mouse), and Saccharomyces cerevisiae (brewer's or baker's yeast).[5] Many other Model Organism Databases have joined the Gene Ontology Consortium, contributing not only to annotation data, but also to the development of ontologies and tools to view and apply the data. Many major plant, animal, and microorganism databases make a contribution towards this project.[6] As of July 2019, the GO contains 44,945 terms; there are 6,408,283 annotations to 4,467 different biological organisms.[6] There is a significant body of literature on the development and use of the GO, and it has become a standard tool in the bioinformatics arsenal. Their objectives have three aspects: building gene ontology, assigning ontology to gene/gene products, and developing software and databases for the first two objects.

Several analyses of the Gene Ontology using formal, domain-independent properties of classes (the metaproperties) are also starting to appear. For instance, there is now an ontological analysis of biological ontologies.[7]
沿革
遺伝子オントロジーは、1998年に3つのモデル生物のゲノムを研究する研究者のコンソーシアムによって構築された。ショウジョウバエ(fruit fly)、マウス(Mus musculus)、パン酵母(Saccharomyces cerevisiae)である。[5] その後、多くのモデル生物データベースが遺伝子オントロジーコンソーシアムに参加し、注釈データだけでなく、オントロジーやデータの表示・適用ツールの開 発にも貢献している。多くの主要な植物、動物、微生物のデータベースがこのプロジェクトに貢献している。[6] 2019年7月現在、GOには44,945の用語が含まれており、4,467の異なる生物に6,408,283件の注釈が付けられている。[6] GOの開発と使用に関する文献は膨大な量に上り、バイオインフォマティクスの標準的なツールとなっている。その目的は3つの側面から構成されている。すな わち、遺伝子オントロジーの構築、遺伝子/遺伝子産物へのオントロジーの割り当て、そして最初の2つの目的のためのソフトウェアおよびデータベースの開発 である。

形式的な、ドメインに依存しないクラスの特性(メタプロパティ)を用いた遺伝子オントロジーの分析もいくつか登場し始めている。例えば、生物学的オントロ ジーのオントロジー分析がある。[7]
Terms and ontology
From a practical view, an ontology is a representation of something we know about. "Ontologies" consist of representations of things that are detectable or directly observable and the relationships between those things. There is no universal standard terminology in biology and related domains, and term usage may be specific to a species, research area, or even a particular research group. This makes communication and sharing of data more difficult. The Gene Ontology project provides an ontology of defined terms representing gene product properties. The ontology covers three domains:

cellular component, the parts of a cell or its extracellular environment;
molecular function, the elemental activities of a gene product at the molecular level, such as binding or catalysis;
biological process, operations or sets of molecular events with a defined beginning and end, pertinent to the functioning of integrated living units: cells, tissues, organs, and organisms.
Each GO term within the ontology has a term name, which may be a word or string of words; a unique alphanumeric identifier; a definition with cited sources; and an ontology indicating the domain to which it belongs. Terms may also have synonyms, which are classed as being exactly equivalent to the term name, broader, narrower, or related; references to equivalent concepts in other databases; and comments on term meaning or usage. The GO ontology is structured as a directed acyclic graph, and each term has defined relationships to one or more other terms in the same domain, and sometimes to other domains. The GO vocabulary is designed to be species-neutral and includes terms applicable to prokaryotes and eukaryotes, single and multicellular organisms.

GO is not static, and additions, corrections, and alterations are suggested by and solicited from members of the research and annotation communities, as well as by those directly involved in the GO project.[8] For example, an annotator may request a specific term to represent a metabolic pathway, or a section of the ontology may be revised with the help of community experts (e.g.[9]). Suggested edits are reviewed by the ontology editors, and implemented where appropriate.

The GO ontology and annotation files are freely available from the GO website in a number of formats or can be accessed online using the GO browser AmiGO.[6] The Gene Ontology project also provides downloadable mappings of its terms to other classification systems.

Example term
id: GO:0000016
name: lactase activity
ontology: molecular_function
def: "Catalysis of the reaction: lactose + H2O=D-glucose + D-galactose." [EC:3.2.1.108]
synonym: "lactase-phlorizin hydrolase activity" BROAD [EC:3.2.1.108]
synonym: "lactose galactohydrolase activity" EXACT [EC:3.2.1.108]
xref: EC:3.2.1.108
xref: MetaCyc:LACTASE-RXN
xref: Reactome:20536
is_a: GO:0004553 ! hydrolase activity, hydrolyzing O-glycosyl compounds
Data source:[10]
用語とオントロジー
実用的な観点から、オントロジーとは、我々が知っていることの表現である。「オントロジー」は、検出または直接観察できるもの、およびそれらの間の関係の 表現から構成される。生物学および関連分野には普遍的な標準用語はなく、用語の使用は特定の生物種、研究分野、あるいは特定の研究グループに限定される場 合もある。このため、データの共有やコミュニケーションがより困難になる。Gene Ontologyプロジェクトは、遺伝子産物の特性を表す定義済み用語のオントロジーを提供している。このオントロジーは、以下の3つの領域をカバーして いる。

細胞構成要素(cellular component):細胞または細胞外環境の構成要素
分子機能(molecular function):結合や触媒作用など、分子レベルにおける遺伝子産物の基本的活動
生物学的プロセス(biological process):統合された生命単位(細胞、組織、器官、生物)の機能に関連する、始まりと終わりが明確な分子事象の操作または集合
オントロジー内の各GO用語には、用語名(単語または単語の組み合わせ)、一意の英数字識別子、出典を引用した定義、および所属するドメインを示すオント ロジーが割り当てられている。用語には同義語(用語名と完全に同一、より広い、より狭い、または関連するものとして分類される)や、他のデータベースにお ける同等の概念への参照、用語の意味または用法に関するコメントが含まれる場合もある。GOオントロジーは有向非循環グラフとして構成されており、各用語 は同じドメイン内の1つ以上の他の用語、また時には他のドメインとの関係が定義されている。GO用語集は生物種を特定しないように設計されており、原核生 物および真核生物、単細胞生物および多細胞生物に適用できる用語を含んでいる。

GOは固定的なものではなく、追加、修正、変更は、GOプロジェクトに直接関与する者だけでなく、研究および注釈付けコミュニティのメンバーによって提案 され、求められている。例えば、注釈付け者は代謝経路を表す特定の用語を要求することができ、コミュニティの専門家の支援を受けてオントロジーの一部が改 訂されることもある(例えば[9])。提案された編集はオントロジー編集者によって審査され、適切であれば実施される。

GOオントロジーおよびアノテーションファイルは、GOウェブサイトからさまざまなフォーマットで自由にダウンロードできるほか、GOブラウザAmiGO を使用してオンラインでアクセスすることも可能である。[6] また、Gene Ontologyプロジェクトでは、用語と他の分類システムとのマッピングをダウンロードすることもできる。

用語の例
id: GO:0000016
name: lactase activity
ontology: molecular_function
def: 「Catalysis of the reaction: lactose + H2O=D-glucose + D-galactose.」 [EC:3.2.1.108]
synonym: 「lactase-phlorizin hydrolase activity」 BROAD [EC:3.2.1.108]
別名: 「ラクトース・ガラクトヒドロラーゼ活性」 厳密 [EC:3.2.1.108]
xref: EC:3.2.1.108
xref: MetaCyc:LACTASE-RXN
xref: Reactome:20536
is_a: GO:0004553 ! ヒドロラーゼ活性、O-グリコシル化合物を分解する
データソース:[10]
Annotation
Genome annotation encompasses the practice of capturing data about a gene product, and GO annotations use terms from the GO to do so. Annotations from GO curators are integrated and disseminated on the GO website, where they can be downloaded directly or viewed online using AmiGO.[11] In addition to the gene product identifier and the relevant GO term, GO annotations have at least the following data: The reference used to make the annotation (e.g. a journal article); An evidence code denoting the type of evidence upon which the annotation is based; The date and the creator of the annotation

Supporting information, depending on the GO term and evidence used, and supplementary information, such as the conditions the function is observed under, may also be included in a GO annotation.

The evidence code comes from a controlled vocabulary of codes, the Evidence Code Ontology, covering both manual and automated annotation methods.[12] For example, Traceable Author Statement (TAS) means a curator has read a published scientific paper and the metadata for that annotation bears a citation to that paper; Inferred from Sequence Similarity (ISS) means a human curator has reviewed the output from a sequence similarity search and verified that it is biologically meaningful. Annotations from automated processes (for example, remapping annotations created using another annotation vocabulary) are given the code Inferred from Electronic Annotation (IEA). In 2010, over 98% of all GO annotations were inferred computationally, not by curators, but as of July 2, 2019, only about 30% of all GO annotations were inferred computationally.[13][14] As these annotations are not checked by a human, the GO Consortium considers them to be marginally less reliable and they are commonly to a higher level, less detailed terms. Full annotation data sets can be downloaded from the GO website. To support the development of annotation, the GO Consortium provides workshops and mentors new groups of curators and developers.

Many machine learning algorithms have been designed and implemented to predict Gene Ontology annotations.[15][16]

Example annotation
Gene product: Actin, alpha cardiac muscle 1, UniProtKB:P68032
GO term: heart contraction; GO:0060047 (biological process)
Evidence code: Inferred from Mutant Phenotype (IMP)
Reference: PMID 17611253
Assigned by: UniProtKB, June 6, 2008
Data source:[17]
注釈
ゲノム注釈は、遺伝子産物に関するデータを取得する作業を指し、GO注釈ではGOの用語を使用してその作業を行う。GOキュレーターによる注釈はGOウェ ブサイトに統合され、公開されている。注釈は直接ダウンロードすることも、AmiGOを使用してオンラインで閲覧することもできる。[11] GO注釈には、遺伝子産物識別子と関連するGO用語に加えて、少なくとも以下のデータが含まれる。注釈の作成に使用された参照(例:学術論文);注釈の根 拠となる証拠の種類を示す証拠コード;注釈の日付と作成者

GO用語と証拠の種類に応じて、補足情報や、機能が観察された条件などの補足情報もGO注釈に含まれることがある。

エビデンスコードは、手動および自動のアノテーション手法の両方をカバーするコードの管理用語彙であるエビデンスコードオントロジーから取得される。 [12] たとえば、Traceable Author Statement (TAS) とは、キュレーターが公開された科学論文を読み、その論文への引用がアノテーションのメタデータに記載されていることを意味する。また、Inferred from Sequence Similarity (ISS) とは、人間のキュレーターが配列類似性検索の結果をレビューし、それが生物学的に意味があることを検証したことを意味する。自動プロセス(例えば、別のア ノテーション用語集を使用して作成されたアノテーションの再マッピング)によるアノテーションには、電子アノテーションからの推論(IEA)というコード が割り当てられる。2010年には、GOアノテーションの98%以上がキュレーターによるものではなく、コンピューターによる推論によって作成されていた が、2019年7月2日現在、GOアノテーションの約30%のみがコンピューターによる推論によって作成されている。[13][14] これらのアノテーションは人間による確認を受けていないため、GOコンソーシアムでは信頼性がやや低いとみなしており、一般的に、より上位の、より詳細度 の低い用語である。GOウェブサイトから、完全なアノテーションデータセットをダウンロードすることができる。アノテーションの開発を支援するために、 GOコンソーシアムはワークショップを開催し、新しいキュレーターや開発者のグループに指導を行っている。

遺伝子オントロジーのアノテーションを予測するために、多くの機械学習アルゴリズムが設計され実装されている。[15][16]

アノテーションの例
遺伝子産物:アクチン、α心筋1、UniProtKB:P68032
GO用語:心収縮;GO:0060047(生物学的プロセス
証拠コード:変異表現型からの推論(IMP
参考文献:PMID 17611253
アサインメント:UniProtKB、2008年6月6日
データソース:[17]
Tools
There are a large number of tools available, both online and for download, that use the data provided by the GO project.[18] The vast majority of these come from third parties; the GO Consortium develops and supports two tools, AmiGO and OBO-Edit.

AmiGO[19][11] is a web-based application that allows users to query, browse, and visualize ontologies and gene product annotation data. It also has a BLAST tool,[20] tools allowing analysis of larger data sets,[21][22] and an interface to query the GO database directly.[23] AmiGO can be used online at the GO website to access the data provided by the GO Consortium or downloaded and installed for local use on any database employing the GO database schema (e.g.[24]). It is free open source software and is available as part of the go-dev software distribution.[25]

OBO-Edit is an open source, platform-independent ontology editor developed and maintained by the Gene Ontology Consortium.[26] It is implemented in Java and uses a graph-oriented approach to display and edit ontologies. OBO-Edit includes a comprehensive search and filter interface, with the option to render subsets of terms to make them visually distinct; the user interface can also be customized according to user preferences. OBO-Edit also has a reasoner that can infer links that have not been explicitly stated based on existing relationships and their properties. Although it was developed for biomedical ontologies, OBO-Edit can be used to view, search, and edit any ontology. It is freely available to download.[25]


ツール
GOプロジェクトが提供するデータを利用するツールは、オンラインおよびダウンロード用として多数利用可能である。[18] これらの大半はサードパーティによるものだが、GOコンソーシアムはAmiGOとOBO-Editの2つのツールを開発し、サポートしている。

AmiGO[19][11]はウェブベースのアプリケーションで、ユーザーはこれを使用して、オントロジーや遺伝子産物アノテーションデータを検索、閲 覧、視覚化することができる。また、BLASTツール[20]や、より大規模なデータセットの解析を可能にするツール[21][22]、GOデータベース に直接クエリーを実行するインターフェース[23]も備えている。AmiGOは、GOウェブサイト上でオンラインで使用でき、GOコンソーシアムが提供す るデータにアクセスしたり、GOデータベーススキーマを採用する任意のデータベース(例:[24])にダウンロードしてローカルで使用したりすることがで きる。これは無料のオープンソースソフトウェアであり、go-devソフトウェアディストリビューションの一部として利用できる。[25]

OBO-Editは、Gene Ontology Consortiumによって開発・管理されている、オープンソースでプラットフォームに依存しないオントロジーエディターである。Javaで実装されて おり、グラフ指向のアプローチでオントロジーの表示と編集を行う。OBO-Editには、用語のサブセットを視覚的に区別して表示するオプションを備えた 包括的な検索およびフィルターインターフェースが含まれている。また、ユーザーの好みに応じてユーザーインターフェースをカスタマイズすることも可能であ る。OBO-Editには、既存の関係性とそれらの特性に基づいて、明示的に記載されていないリンクを推論する推論機能も備わっている。OBO-Edit は、生物医学オントロジー用に開発されたが、あらゆるオントロジーの表示、検索、編集にも使用できる。無料でダウンロードできる。[25]

Consortium
The Gene Ontology Consortium is the set of biological databases and research groups actively involved in the gene ontology project.[14] This includes a number of model organism databases and multi-species protein databases, software development groups, and a dedicated editorial office.


コンソーシアム
遺伝子オントロジーコンソーシアムは、遺伝子オントロジープロジェクトに積極的に関与している生物学的データベースと研究グループの集合体である。 [14] これには、多数のモデル生物データベースと多種タンパク質データベース、ソフトウェア開発グループ、専任の編集局が含まれる。

Blast2GO
Comparative Toxicogenomics Database
DAVID bioinformatics
Interferome
National Center for Biomedical Ontology
Critical Assessment of Function Annotation
Blast2GO
比較トキシコゲノミクスデータベース
DAVID バイオインフォマティクス
インターフェローム
国民医療生物学的オントロジーセンター
機能アノテーションの批判的評価
https://en.wikipedia.org/wiki/Gene_Ontology





リ ンク

文 献

そ の他の情報


Copyleft, CC, Mitzub'ixi Quq Chi'j, 1996-2099

Mitzub'ixi Quq Chi'j