はじめによんでください

生物学の新しい世紀

On A New Century of Biology, 2001

池田光穂

1)進化論(種の起源

2)系統学

In biology, phylogenetics (/ˌfaɪloʊdʒəˈnɛtɪks, -lə-/)[1][2][3] is the study of the evolutionary history and relationships among or within groups of organisms. These relationships are determined by phylogenetic inference methods that focus on observed heritable traits, such as DNA sequences, protein amino acid sequences, or morphology. The result of such an analysis is a phylogenetic tree—a diagram containing a hypothesis of relationships that reflects the evolutionary history of a group of organisms.[4]

The tips of a phylogenetic tree can be living taxa or fossils, and represent the "end" or the present time in an evolutionary lineage. A phylogenetic diagram can be rooted or unrooted. A rooted tree diagram indicates the hypothetical common ancestor of the tree. An unrooted tree diagram (a network) makes no assumption about the ancestral line, and does not show the origin or "root" of the taxa in question or the direction of inferred evolutionary transformations.[5]

In addition to their use for inferring phylogenetic patterns among taxa, phylogenetic analyses are often employed to represent relationships among genes or individual organisms. Such uses have become central to understanding biodiversity, evolution, ecology, and genomes.

Phylogenetics is component of systematics that uses similarities and differences of the characteristics of species to interpret their evolutionary relationships and origins. Phylogenetics focuses on whether the characteristics of a species reinforce a phylogenetic inference that it diverged from the most recent common ancestor of a taxonomic group.[6]

In the field of cancer research, phylogenetics can be used to study the clonal evolution of tumors and molecular chronology, predicting and showing how cell populations vary throughout the progression of the disease and during treatment, using whole genome sequencing techniques.[7] The evolutionary processes behind cancer progression are quite different from those in species and are important to phylogenetic inference; these differences manifest in at least four areas: the types of aberrations that occur, the rates of mutation, the intensity, and high heterogeneity - variability - of tumor cell subclones.[8]

Phylogenetics can also aid in drug design and discovery. Phylogenetics allows scientists to organize species and can show which species are likely to have inherited particular traits that are medically useful, such as producing biologically active compounds - those that have effects on the human body. For example, in drug discovery, venom-producing animals are particularly useful. Venoms from these animals produce several important drugs, e.g., ACE inhibitors and Prialt (Ziconotide). To find new venoms, scientists turn to phylogenetics to screen for closely related species that may have the same useful traits. The phylogenetic tree shows which species of fish have an origin of venom, and related fish they may contain the trait. Using this approach in studying venomous fish, biologists are able to identify the fish species that may be venomous. Biologist have used this approach in many species such as snakes and lizards.[9] In forensic science, phylogenetic tools are useful to assess DNA evidence for court cases. The simple phylogenetic tree of viruses A-E shows the relationships between viruses e.g., all viruses are descendants of Virus A.

HIV forensics uses phylogenetic analysis to track the differences in HIV genes and determine the relatedness of two samples. Phylogenetic analysis has been used in criminal trials to exonerate or hold individuals. HIV forensics does have its limitations, i.e., it cannot be the sole proof of transmission between individuals and phylogenetic analysis which shows transmission relatedness does not indicate direction of transmission.[10]
生物学において、系統学(/ˌfaɪ, -lə-/)[1][2][3]は、生物のグループ間またはグループ内の進化の歴史と関係の研究である。これらの関係は、DNA配列、タンパク質アミノ酸 配列、形態など、観察された遺伝的形質に着目した系統推論手法によって決定される。このような分析の結果は系統樹-生物群の進化の歴史を反映する関係の仮 説を含む図-である[4]。

系統樹の先端は生きている分類群でも化石でもよく、進化系統の「終わり」または現在を表す。系統樹図には根付きと根なしがある。根付き系統図は、その系統 樹の仮想的な共通祖先を示す。根のない系統樹図(ネットワーク)は、祖先の系統についての仮定を持たず、問題となっている分類群の起源または「根」、ある いは推定される進化の変遷の方向を示さない[5]。

分類群間の系統的パターンを推定するための使用に加えて、系統解析はしばしば遺伝子や個々の生物間の関係を表すために使用される。このような利用は、生物 多様性、進化、生態学、ゲノムを理解する上で中心的なものとなっている。

系統学は、進化的な関係や起源を解釈するために、種の特徴の類似点や相違点を利用する系統学の一要素である。系統発生学では、ある種の特徴が、分類学的グ ループの最も最近の共通祖先から分岐したという系統発生学的推論を補強しているかどうかに焦点を当てている[6]。

がん研究の分野では、全ゲノム配列決定技術を用いて、腫瘍のクローン進化や分子年代学を研究し、疾患の進行中や治療中に細胞集団がどのように変化するかを 予測し、示すために系統遺伝学を用いることができる。 [7] 癌の進行の背後にある進化の過程は、生物種におけるそれとはかなり異なっており、系統学的推論にとって重要である。これらの相違は、少なくとも4つの領 域、すなわち、発生する異常のタイプ、突然変異の割合、強度、腫瘍細胞サブクローンの高い不均一性-変動性-に現れる[8]。

系統遺伝学はまた、薬剤設計や創薬にも役立つ。系統発生学は、科学者が種を整理し、どの種が生物学的に活性な化合物(人体に作用する化合物)を生産するな ど、医学的に有用な特定の形質を受け継いでいる可能性が高いかを示すことができる。例えば、創薬においては、毒を産生する動物が特に有用である。これらの 動物の毒は、ACE阻害剤やプリアルト(ジコノタイド)など、いくつかの重要な医薬品を産生する。新しい毒を見つけるために、科学者たちは系統学に目を向 け、同じ有用な形質を持つ可能性のある近縁種をスクリーニングする。系統樹は、どの魚種が毒の起源を持ち、近縁の魚種がその形質を持つ可能性があるかを示 している。毒を持つ魚の研究にこのアプローチを用いることで、生物学者は毒を持つ可能性のある魚種を特定することができる。法医学では、系統学的手段は裁 判のためのDNA証拠を評価するのに有用である。例えば、全てのウイルスはウイルスAの子孫である。

HIV法医学では、HIV遺伝子の違いを追跡し、2つのサンプルの関連性を決定するために系統解析を使用する。系統発生学的解析は、刑事裁判において個人 の容疑を晴らしたり、拘束したりするために用いられてきた。HIV法医学には限界がある。すなわち、個人間の伝播の唯一の証拠にはなり得ないし、伝播の関 連性を示す系統学的解析は伝播の方向を示すものではない[10]。
Taxonomy is the identification, naming, and classification of organisms. Compared to systemization, classification emphasizes whether a species has characteristics of a taxonomic group.[6] The Linnaean classification system developed in the 1700s by Carolus Linnaeus is the foundation for modern classification methods. Linnaean classification relies on an organism's phenotype or physical characteristics to group and organize species.[11] With the emergence of biochemistry, organism classifications are now usually based on phylogenetic data, and many systematists contend that only monophyletic taxa should be recognized as named groups. The degree to which classification depends on inferred evolutionary history differs depending on the school of taxonomy: phenetics ignores phylogenetic speculation altogether, trying to represent the similarity between organisms instead; cladistics (phylogenetic systematics) tries to reflect phylogeny in its classifications by only recognizing groups based on shared, derived characters (synapomorphies); evolutionary taxonomy tries to take into account both the branching pattern and "degree of difference" to find a compromise between them.

Usual methods of phylogenetic inference involve computational approaches implementing the optimality criteria and methods of parsimony, maximum likelihood (ML), and MCMC-based Bayesian inference. All these depend upon an implicit or explicit mathematical model describing the evolution of characters observed.

Phenetics, popular in the mid-20th century but now largely obsolete, used distance matrix-based methods to construct trees based on overall similarity in morphology or similar observable traits (i.e. in the phenotype or the overall similarity of DNA, not the DNA sequence), which was often assumed to approximate phylogenetic relationships.

Prior to 1950, phylogenetic inferences were generally presented as narrative scenarios. Such methods are often ambiguous and lack explicit criteria for evaluating alternative hypotheses.[12][13][14]
分類学は生物の同定、命名、分類を行う学問である。系統分類と比較する と、分類は種が分類学的グループの特徴を持っているかどうかに重点を置いている。リンネの分類は、生物の表現型または物理的特徴に依存して、種をグループ 化し、整理するものである[11]。生化学の出現により、生物の分類は現在、通常、系統学的データに基づいており、多くの系統分類学者は、単系統の分類群 のみが命名されたグループとして認識されるべきであると主張している。また、進化分類学では、分岐パターンと「差異の度合い」の両方を考慮し、両者の妥協 点を見出そうとする。

通常の系統推論手法には、パーシモン、最尤法(ML)、MCMCに基づくベイズ推論などの最適化基準や手法を実行する計算機的アプローチが含まれる。これ らはすべて、観察される文字の進化を記述する暗黙的または明示的な数学モデルに依存している。

20世紀半ばに流行したが、現在ではほとんど廃れている表現論は、距離行列に基づく方法を用いて、形態または類似の観察可能形質(すなわち、DNA配列で はなく、表現型またはDNAの全体的な類似性)の全体的な類似性に基づいて樹木を構築するもので、これはしばしば系統関係を近似すると仮定されていた。

1950年以前は、系統的推測は一般的に物語的なシナリオとして提示されていた。このような方法はしばしば曖昧であり、代替仮説を評価するための明確な基 準を欠いていた[12][13][14]。
Impacts of taxon sampling
In phylogenetic analysis, taxon sampling selects a small group of taxa to represent the evolutionary history of its broader population.[15] This process is also known as stratified sampling or clade-based sampling.[16] The practice occurs given limited resources to compare and analyze every species within a target population.[15] Based on the representative group selected, the construction and accuracy of phylogenetic trees vary, which impacts derived phylogenetic inferences.[16]

Unavailable datasets, such as an organism's incomplete DNA and protein amino acid sequences in genomic databases, directly restrict taxonomic sampling.[16] Consequently, a significant source of error within phylogenetic analysis occurs due to inadequate taxon samples. Accuracy may be improved by increasing the number of genetic samples within its monophyletic group. Conversely, increasing sampling from outgroups extraneous to the target stratified population may decrease accuracy. Long branch attraction is an attributed theory for this occurrence, where nonrelated branches are incorrectly classified together, insinuating a shared evolutionary history.[15]

There are debates if increasing the number of taxa sampled improves phylogenetic accuracy more than increasing the number of genes sampled per taxon. Differences in each method's sampling impact the number of nucleotide sites utilized in a sequence alignment, which may contribute to disagreements. For example, phylogenetic trees constructed utilizing a more significant number of total nucleotides are generally more accurate, as supported by phylogenetic trees' bootstrapping replicability from random sampling.

The graphic presented in Taxon Sampling, Bioinformatics, and Phylogenomics, compares the correctness of phylogenetic trees generated using fewer taxa and more sites per taxon on the x-axis to more taxa and fewer sites per taxon on the y-axis. With fewer taxa, more genes are sampled amongst the taxonomic group; in comparison, with more taxa added to the taxonomic sampling group, fewer genes are sampled. Each method has the same total number of nucleotide sites sampled. Furthermore, the dotted line represents a 1:1 accuracy between the two sampling methods. As seen in the graphic, most of the plotted points are located below the dotted line, which indicates gravitation toward increased accuracy when sampling fewer taxa with more sites per taxon. The research performed utilizes four different phylogenetic tree construction models to verify the theory; neighbor-joining (NJ), minimum evolution (ME), unweighted maximum parsimony (MP), and maximum likelihood (ML). In the majority of models, sampling fewer taxon with more sites per taxon demonstrated higher accuracy.

Generally, with the alignment of a relatively equal number of total nucleotide sites, sampling more genes per taxon has higher bootstrapping replicability than sampling more taxa. However, unbalanced datasets within genomic databases make increasing the gene comparison per taxon in uncommonly sampled organisms increasingly difficult.[16]
分類群サンプリングの影響
系統解析において、分類群サンプリングは、より広い集団の進化史を代表するために、少数の分類群を選択する[15]。このプロセスは、層別サンプリングま たはクレードベースサンプリングとしても知られている[16]。この方法は、対象となる集団内のすべての種を比較・解析するためのリソースが限られている 場合に行われる[15]。

ゲノムデータベースにおける生物の不完全なDNAやタンパク質のアミノ酸配列のような利用できないデータセットは、分類学的サンプリングを直接的に制限す る。単系統グループ内の遺伝子サンプルの数を増やすことで、精度が向上する可能性がある。逆に、対象とする層別集団から外れたグループからのサンプリング を増やすと、精度が低下する可能性がある。長枝惹起はこの現象に起因する理論であり、非関連枝が誤って一緒に分類され、進化の歴史が共有されていると推測 される[15]。

サンプリングされる分類群の数を増やすことが、分類群ごとにサンプリングされる遺伝子の数を増やすことよりも系統解析の精度を向上させるかどうかについて は議論がある。各手法のサンプリングの違いは、配列アラインメントに利用されるヌクレオチド部位の数に影響し、これが不一致の一因となっている可能性があ る。例えば、ランダムサンプリングからの系統樹のブートストラップ複製可能性によって裏付けられているように、より多くの総ヌクレオチドを利用して構築さ れた系統樹は、一般的に、より正確です。

Taxon Sampling, Bioinformatics, and Phylogenomics(分類群サンプリング、バイオインフォマティクス、および系統学)』に掲載されている図は、X軸に分類群数が少なく、分類群あ たりのサイト数が多い場合と、Y軸に分類群数が多く、分類群あたりのサイト数が少ない場合で、作成された系統樹の正しさを比較したものである。より少ない 分類群では、分類群間でより多くの遺伝子がサンプリングされます。一方、より多くの分類群が分類群サンプリンググループに追加されると、サンプリングされ る遺伝子は少なくなります。各手法とも、サンプリングされたヌクレオチド部位の総数は同じです。さらに、点線は2つのサンプリング方法の精度が1:1であ ることを表しています。図に見られるように、プロットされたポイントのほとんどは点線の下に位置しており、これは、分類群あたりのサイト数が多く、より少 ない分類群をサンプリングした場合に、精度が向上する方向に引き寄せられることを示しています。この研究では、理論を検証するために4つの異なる系統樹構 築モデル(近傍結合(NJ)、最小進化(ME)、非加重最大パーシモン(MP)、最尤(ML))を利用した。大半のモデルにおいて、1分類群あたりのサイ ト数が多く、より少ない分類群をサンプリングした方が精度が高いことが示された。

一般に、全塩基部位数が比較的同数のアラインメントでは、分類群あたりの遺伝子数を多くサンプリングした方が、分類群を多くサンプリングするよりもブート ストラップ再現性が高くなる。しかし、ゲノムデータベース内のアンバランスなデータセットは、一般的にサンプリングされない生物において、分類群あたりの 遺伝子比較を増加させることをますます困難にしている[16]。
History
Overview
The term "phylogeny" derives from the German Phylogenie, introduced by Haeckel in 1866,[17] and the Darwinian approach to classification became known as the "phyletic" approach.[18] It can be traced back to Aristotle, who wrote in his Posterior Analytics, "We may assume the superiority ceteris paribus [other things being equal] of the demonstration which derives from fewer postulates or hypotheses."

Ernst Haeckel's recapitulation theory
The modern concept of phylogenetics evolved primarily as a disproof of a previously widely accepted theory. During the late 19th century, Ernst Haeckel's recapitulation theory, or "biogenetic fundamental law", was widely accepted. It was often expressed as "ontogeny recapitulates phylogeny", i.e. the development of a single organism during its lifetime, from germ to adult, successively mirrors the adult stages of successive ancestors of the species to which it belongs. But this theory has long been rejected.[19][20] Instead, ontogeny evolves – the phylogenetic history of a species cannot be read directly from its ontogeny, as Haeckel thought would be possible, but characters from ontogeny can be (and have been) used as data for phylogenetic analyses; the more closely related two species are, the more apomorphies their embryos share.
歴史
概要
系統」という用語は、1866年にヘッケルによって導入されたドイツ語のPhylogenieに由来しており[17]、分類に対するダーウィンのアプロー チは「系統的」アプローチとして知られるようになった[18]。 それはアリストテレスに遡ることができ、アリストテレスは『事後分析学』の中で「我々は、より少ない仮定や仮説から導かれる実証の方が、ceteris paribus(他のものが等しいこと)において優れていると仮定してもよい」と書いている。

エルンスト・ヘッケルの反復説
現代の系統学の概念は、主にそれまで広く受け入れられていた理論の反証として発展した。19世紀後半、エルンスト・ヘッケルの反復説、すなわち「生物発生 の基本法則」が広く受け入れられていた。つまり、一つの生物が一生の間に胚芽から成体まで成長する過程は、その生物が属する種の祖先の成体段階を連続的に 反映するというものである。しかし、この説は長い間否定されてきた[19][20]。その代わり、個体発生は進化する。ヘッケルが可能であると考えたよう に、ある種の系統発生史を個体発生から直接読み取ることはできないが、個体発生から得られる特徴を系統解析のデータとして使用することは可能である(そし て実際に使用されてきた)。
14th century, lex parsimoniae (parsimony principle), William of Ockam, English philosopher, theologian, and Franciscan friar, but the idea actually goes back to Aristotle, as a precursor concept. He introduced the concept of Occam's razor, which is the problem solving principle that recommends searching for explanations constructed with the smallest possible set of elements. Though he did not use these exact words, the principle can be summarized as "Entities must not be multiplied beyond necessity." The principle advocates that when presented with competing hypotheses about the same prediction, one should prefer the one that requires fewest assumptions.
1763, Bayesian probability, Rev. Thomas Bayes,[21] a precursor concept. Bayesian probability began a resurgence in the 1950's, allowing scientists in the computing field to pair traditional Bayesian statistics with other more modern techniques. It is now used as a blanket term for several related interpretations of probability as an amount of epistemic confidence.
18th century, Pierre Simon (Marquis de Laplace), perhaps first to use ML (maximum likelihood), precursor concept. His work gave way to the Laplace distribution, which can be directly linked to least absolute deviations.
1809, evolutionary theory, Philosophie Zoologique, Jean-Baptiste de Lamarck, precursor concept, foreshadowed in the 17th century and 18th century by Voltaire, Descartes, and Leibniz, with Leibniz even proposing evolutionary changes to account for observed gaps suggesting that many species had become extinct, others transformed, and different species that share common traits may have at one time been a single race,[22] also foreshadowed by some early Greek philosophers such as Anaximander in the 6th century BC and the atomists of the 5th century BC, who proposed rudimentary theories of evolution[23]
1837, Darwin's notebooks show an evolutionary tree[24]
1840, American Geologist Edward Hitchcock published what is considered to be the first paleontological "Tree of Life". Many critiques, modifications, and explanations would follow.[25]

This chart displays one of the first published attempts at a paleontological "Tree of Life" by Geologist Edward Hitchcock. (1840)
1843, distinction between homology and analogy (the latter now referred to as homoplasy), Richard Owen, precursor concept. Homology is the term used to characterize the similarity of features that can be parsimoniously explained by common ancestry. Homoplasy is the term used to describe a feature that has been gained or lost independently in separate lineages over the course of evolution.
1858, Paleontologist Heinrich Georg Bronn (1800–1862) published a hypothetical tree to illustrating the paleontological "arrival" of new, similar species following the extinction of an older species. Bronn did not propose a mechanism responsible for such phenomena, precursor concept.[26]
1858, elaboration of evolutionary theory, Darwin and Wallace,[27] also in Origin of Species by Darwin the following year, precursor concept
1866, Ernst Haeckel, first publishes his phylogeny-based evolutionary tree, precursor concept. Haeckel introduces the now-disproved recapitulation theory.
1893, Dollo's Law of Character State Irreversibility,[28] precursor concept. Dollo's Law of Irreversibility states that "an organism never comes back exactly to its previous state due to the indestructible nature of the past, it always retains some trace of the transitional stages through which it has passed."[29]
1912, ML (maximum likelihood recommended, analyzed, and popularized by Ronald Fisher, precursor concept. Fisher is one of the main contributors to the early 20th-century revival of Darwinism, and has been called the "greatest of Darwin's successors" for his contributions to the revision of the theory of evolution and his use of mathematics to combine Mendelian genetics and natural selection in the 20th century "modern synthesis".
1921, Tillyard uses term "phylogenetic" and distinguishes between archaic and specialized characters in his classification system[30]
1940, term "clade" coined by Lucien Cuénot
1949, Jackknife resampling, Maurice Quenouille (foreshadowed in '46 by Mahalanobis and extended in '58 by Tukey), precursor concept
1950, Willi Hennig's classic formalization.[31] Hennig is considered the founder of phylogenetic systematics, and published his first works in German of this year. He also asserted a version of the parsimony principle, stating that the presence of amorphous characters in different species 'is always reason for suspecting kinship, and that their origin by convergence should not be presumed a priori'. This has been considered a foundational view of phylogenetic inference.
1952, William Wagner's ground plan divergence method[32]
1953, "cladogenesis" coined[33]
1960, "cladistic" coined by Cain and Harrison[34]
1963, first attempt to use ML (maximum likelihood) for phylogenetics, Edwards and Cavalli-Sforza[35]
1965
Camin-Sokal parsimony, first parsimony (optimization) criterion and first computer program/algorithm for cladistic analysis both by Camin and Sokal[36]
character compatibility method, also called clique analysis, introduced independently by Camin and Sokal (loc. cit.) and E. O. Wilson[37]
1966
English translation of Hennig[38]
"cladistics" and "cladogram" coined (Webster's, loc. cit.)
1969
dynamic and successive weighting, James Farris[39]
Wagner parsimony, Kluge and Farris[40]
CI (consistency index), Kluge and Farris[40]
introduction of pairwise compatibility for clique analysis, Le Quesne[41]
1970, Wagner parsimony generalized by Farris[42]
1971
first successful application of ML (maximum likelihood) to phylogenetics (for protein sequences), Neyman[43]
Fitch parsimony, Walter M. Fitch.[44] These gave way to the most basic ideas of maximum parsimony. Fitch is known for his work on reconstructing phylogenetic trees from protein and DNA sequences. His definition of orthologous sequences has been referenced in many research publications.
NNI (nearest neighbour interchange), first branch-swapping search strategy, developed independently by Robinson[45] and Moore et al.
ME (minimum evolution), Kidd and Sgaramella-Zonta[46] (it is unclear if this is the pairwise distance method or related to ML as Edwards and Cavalli-Sforza call ML "minimum evolution")
1972, Adams consensus, Adams[47]
1976, prefix system for ranks, Farris[48]
1977, Dollo parsimony, Farris[49]
1979
Nelson consensus, Nelson[50]
MAST (maximum agreement subtree)((GAS) greatest agreement subtree), a consensus method, Gordon[51]
bootstrap, Bradley Efron, precursor concept[52]
1980, PHYLIP, first software package for phylogenetic analysis, Joseph Felsenstein. A free computational phylogenetics package of programs for inferring evolutionary trees (phylogenies). One such example tree created by PHILYP, called a "drawgram", generates rooted trees. This image shown in the figure below shows the evolution of phylogenetic trees over time.
1981
majority consensus, Margush and MacMorris[53]
strict consensus, Sokal and Rohlf[54]

This image depicts a PHILYP generated drawgram. This drawgram is an example of one of the possible trees the software is capable of generating.
first computationally efficient ML (maximum likelihood) algorithm.[55] Felsenstein created the Felsenstein Maximum Likelihood method, used for the inference of phylogeny which evaluates a hypothesis about evolutionary history in terms of the probability that the proposed model and the hypothesized history would give rise to the observed data set.
1982
PHYSIS, Mikevich and Farris
branch and bound, Hendy and Penny[56]
1985
first cladistic analysis of eukaryotes based on combined phenotypic and genotypic evidence Diana Lipscomb[57]
first issue of Cladistics
first phylogenetic application of bootstrap, Felsenstein[58]
first phylogenetic application of jackknife, Scott Lanyon[59]
1986, MacClade, Maddison and Maddison
1987, neighbor-joining method Saitou and Nei[60]
1988, Hennig86 (version 1.5), Farris
Bremer support (decay index), Bremer[61]
1989
RI (retention index), RCI (rescaled consistency index), Farris[62]
HER (homoplasy excess ratio), Archie[63]
1990
combinable components (semi-strict) consensus, Bremer[64]
SPR (subtree pruning and regrafting), TBR (tree bisection and reconnection), Swofford and Olsen[65]
1991
DDI (data decisiveness index), Goloboff[66][67]
first cladistic analysis of eukaryotes based only on phenotypic evidence, Lipscomb
1993, implied weighting Goloboff[68]
1994, reduced consensus: RCC (reduced cladistic consensus) for rooted trees, Wilkinson[69]
1995, reduced consensus RPC (reduced partition consensus) for unrooted trees, Wilkinson[70]
1996, first working methods for BI (Bayesian Inference) independently developed by Li,[71] Mau,[72] and Rannala and Yang[73] and all using MCMC (Markov chain-Monte Carlo)
1998, TNT (Tree Analysis Using New Technology), Goloboff, Farris, and Nixon
1999, Winclada, Nixon
2003, symmetrical resampling, Goloboff[74]
2004, 2005, similarity metric (using an approximation to Kolmogorov complexity) or NCD (normalized compression distance), Li et al.,[75] Cilibrasi and Vitanyi.[76]
14世紀、オッカムのウィリアム、イギリスの哲学者、神学者、フランシ スコ会修道士。彼はオッカムの剃刀という概念を導入した。オッカムの剃刀とは、可能な限り小さな要素の集合で構成される説明を探すことを推奨する問題解決 の原則である。彼は正確な言葉を使わなかったが、この原則を要約すると、"必要以上に本質を増殖させてはならない "ということになる。この原則は、同じ予測について競合する仮説が提示された場合、最も少ない仮定を必要とするものを選ぶべきだと提唱している。
1763年、ベイズ確率論、トマス・ベイズ師[21]、先駆的概念。ベイズ確率は1950年代に復活を始め、計算機分野の科学者が伝統的なベイズ統計と他 のより現代的な技術を組み合わせることを可能にした。現在では、認識論的確信の量としての確率のいくつかの関連する解釈の包括的な用語として使用されてい る。
18世紀、ピエール・シモン(ラプラス侯爵)は、おそらく最初にML(最尤法)を使用した。彼の研究は、最小絶対偏差に直接リンクすることができるラプラ ス分布への道を与えた。
1809年、進化論、動物哲学、ジャン=バティスト・ド・ラマルク、17世紀から18世紀にかけてヴォルテール、デカルト、ライプニッツが提唱した概念、 また、紀元前6世紀のアナクシマンデルや紀元前5世紀の原子論者など、進化論の初歩的な理論を提唱した初期のギリシャの哲学者たちによっても予見されてい た[23]。
1837年、ダーウィンのノートに進化の木が描かれる[24]。
1840年、アメリカの地質学者エドワード・ヒッチコックが最初の古生物学的「生命の樹」とされるものを発表。その後、多くの批評、修正、説明がなされた [25]。

この図は、地質学者エドワード・ヒッチコックによる古生物学的「生命の樹」の最初の試みのひとつを示したものである(1840年)。
1843年、ホモロジーとアナロジー(後者は現在ホモプラシーと呼ばれている)の区別、リチャード・オーウェン、前駆概念。相同性とは、共通の祖先によっ て簡略的に説明できる特徴の類似性を特徴づけるために使われる用語である。ホモプラシーとは、進化の過程で別々の系統で独立に獲得されたり失われたりした 特徴を表す言葉である。
1858年、古生物学者のハインリッヒ・ゲオルク・ブロン(1800-1862)は、古い種の絶滅後に新しい類似種が古生物学的に「到着」することを示す 仮説の木を発表した。ブローンはこのような現象を引き起こすメカニズム、前駆概念を提唱しなかった[26]。
1858年、進化論の精緻化、ダーウィンとウォーレス、[27]翌年のダーウィンによる『種の起源』にも登場、前駆概念
1866年、エルンスト・ヘッケル(Ernst Haeckel)が系統樹に基づく進化論を初めて発表。ヘッケル、今では否定されている反復説を導入。
1893年、ドロの「性格状態不可逆性の法則」[28]、前駆概念。ドロの不可逆性の法則は、「生物は過去の破壊不可能な性質のために、以前の状態に正確 に戻ることはなく、常に通過した過渡的な段階の痕跡をいくらか保持している」と述べている[29]。
1912年、ロナルド・フィッシャーによってML(最尤法が推奨され、分析され、一般化された概念。フィッシャーは20世紀初頭のダーウィニズムの復活に 大きく貢献した人物の一人であり、進化論の修正に貢献し、20世紀の「現代総合」においてメンデル遺伝学と自然淘汰を組み合わせるために数学を用いたこと から、「ダーウィンの後継者の中で最も偉大な人物」と呼ばれている。
1921年、ティリアードが「系統」という用語を使用し、彼の分類体系において古風な文字と特殊な文字を区別する[30]。
1940年、Lucien Cuénotによって「クレード」という用語が作られる。
1949年、ジャックナイフ再サンプリング、モーリス・クヌイユ(46年にマハラノビスが予見し、58年にテューキーが拡張)、前駆概念
1950年、Willi Hennigによる古典的な形式化[31] Hennigは系統分類学の創始者とされ、この年に最初の著作をドイツ語で発表。彼はまた、パーシモン原則の一種を主張し、異なる種における無定形文字の 存在は「常に親族関係を疑う理由であり、収斂による起源を先験的に推定すべきではない」と述べた。これは系統推論の基礎となる見解と考えられてきた。
1952年、ウィリアム・ワグナーのグランドプラン・ダイバージェンス法[32]。
1953年、「クラッドジェネシス」の造語[33]。
1960年、CainとHarrisonによる「cladistic」の造語[34]。
1963年、系統学にML(最尤法)を用いる最初の試み、EdwardsとCavalli-Sforza[35]。
1965
Camin-Sokal parsimony, 最初のパーシモン(最適化)基準と最初のコンピュータープログラム/アルゴリズム(ともにCaminとSokalによる)[36]。
キャミンとソーカル(前掲書)およびE.O.ウィルソン[37]によって独自に導入された閥分析とも呼ばれる文字適合性法。
1966
Hennig[38]の英訳。
"cladistics "と "cladogram "の造語(Webster's, loc.)
1969
動的重み付けと逐次重み付け、ジェームズ・ファリス[39]。
Wagner parsimony、KlugeとFarris[40]。
CI(一貫性指数)、KlugeとFarris[40]。
縞分析のための一対適合性の導入、Le Quesne[41]
1970年、Wagner parsimonyがFarrisによって一般化される[42]。
1971
ML(最尤法)の系統学への最初の適用成功(タンパク質配列に対して)、Neyman[43]。
Fitch parsimony, Walter M. Fitch [44] これらにより最大パーシモンの最も基本的な考え方が確立された。フィッチはタンパク質とDNA配列から系統樹を再構築する研究で知られている。彼の定義し たオルソログ配列は多くの研究発表で参照されている。
NNI (nearest neighbour interchange)、ロビンソン[45]とムーアらによって独自に開発された最初の分岐入れ替え探索戦略。
ME(minimum evolution)、KiddとSgaramella-Zonta[46](EdwardsとCavalli-SforzaはMLを "minimum evolution "と呼んでいるので、これがペアワイズ距離法なのか、MLに関連しているのかは不明)。
1972年、Adamsコンセンサス、Adams[47]。
1976年、ランクのための接頭辞システム、Farris[48]。
1977年、Dolloのパーシモン、Farris[49]。
1979
Nelsonコンセンサス、Nelson[50]。
MAST (maximum agreement subtree)((GAS) greatest agreement subtree)、コンセンサス手法、ゴードン[51]。
bootstrap, Bradley Efron, 前駆概念[52]。
1980年、PHYLIP、系統解析のための最初のソフトウェアパッケージ、Joseph Felsenstein。進化樹(系統樹)を推論するためのプログラムのフリーの計算系統学パッケージ。PHILYPによって作成される樹木の例のひとつ は "drawgram "と呼ばれ、根付き樹木を生成する。下図に示す画像は、系統樹の経年変化を示している。
1981
多数決コンセンサス、MargushとMacMorris[53]。
厳密なコンセンサス、SokalとRohlf[54]。

この画像はPHILYPが生成したドローグラムである。このドローグラムはPHILYPが生成できる木の一例である。
フェルゼンシュタインは、進化史に関する仮説を、提案されたモデルと仮説とされた歴史が観測されたデータセットを生み出す確率という観点から評価する、系 統推論に使われるフェルゼンシュタイン最尤法(Felsenstein Maximum Likelihood method)を開発した[55]。
1982
PHYSIS、MikevichとFarris
ブランチ&バウンド、ヘンディとペニー[56]。
1985
表現型と遺伝子型を組み合わせた証拠に基づく真核生物の最初のクラディスティック分析 Diana Lipscomb[57]
クラディスティックス創刊号
ブートストラップの系統学的適用第1号、Felsenstein[58]
ジャックナイフの最初の系統学的応用、Scott Lanyon[59]
1986年、MacClade、MaddisonとMaddison
1987年、近傍結合法 Saitou and Nei[60]
1988年、Hennig86(バージョン1.5)、Farris
Bremerサポート(崩壊指数)、Bremer[61]。
1989
RI (retention index), RCI (rescaled consistency index), Farris[62].
HER (homoplasy excess ratio)、Archie[63]。
1990
結合可能成分(半厳密)コンセンサス, Bremer[64].
SPR (subtree pruning and regrafting), TBR (tree bisection and reconnection), Swofford and Olsen[65].
1991
DDI (data decisiveness index)、ゴロボフ[66][67]。
表現型証拠のみに基づく真核生物の最初のクラディスティック分析、Lipscomb
1993年、暗黙の重み付け Goloboff[68]
1994年、縮小コンセンサス: 根付き木のRCC(reduced cladistic consensus)、Wilkinson[69]。
1995年、根のない木のための縮小コンセンサスRPC(縮小分割コンセンサス)、Wilkinson[70]。
1996年、Li、[71]Mau、[72]RannalaとYang[73]が独自に開発したBI(ベイズ推論)の最初の実用的な手法。
1998, TNT (Tree Analysis Using New Technology), Goloboff, Farris, and Nixon
1999年、ウィンクラダ、ニクソン
2003年、対称再サンプリング、Goloboff[74]。
2004年、2005年、類似度メトリック(コルモゴロフ複雑度の近似を使用)またはNCD(正規化圧縮距離)、Liら[75]、Cilibrasiと Vitanyi[76]。
Phylogenetic tools and representations (trees and networks) can also be applied philology, the study of the evolution of oral languages and written text and manuscripts, such as in the field of quantitative comparative linguistics.[78]

Computational phylogenetics can be used to investigate a language as an evolutionary system. The evolution of human language closely corresponds with human's biological evolution which allows phylogenetic methods to be applied. The concept of a "tree" serves as an efficient way to represent relationships between languages and language splits. It also serves as a way of testing hypotheses about the connections and ages of language families. For example, relationships among languages can be shown by using cognates as characters.[79][80] The phylogenetic tree of Indo-European languages shows the relationships between several of the languages in a timeline, as well as the similarity between words and word order.

There are three types of criticisms about using phylogenetics in philology, the first arguing that languages and species are different entities, therefore you can not use the same methods to study both. The second being how phylogenetic methods are being applied to linguistic data. And the third, discusses the types of data that is being used to construct the trees.[79]

Bayesian phylogenetic methods, which are sensitive to how treelike the data is, allow for the reconstruction of relationships among languages, locally and globally. The main two reasons for the use of Bayesian phylogenetics are that (1) diverse scenarios can be included in calculations and (2) the output is a sample of trees and not a single tree with true claim.[81]

The same process can be applied to texts and manuscripts. In Paleography, the study of historical writings and manuscripts, texts were replicated by scribes who copied from their source and alterations - i.e., 'mutations' - occurred when the scribe did not precisely copy the source.[82]
系統発生学的なツールや表現(ツリーやネットワーク)は、定量的比較言 語学の分野など、口語言語や文字・写本の進化の研究である言語学にも応用することができる[78]。

計算系統学は、進化システムとしての言語を調査するために使用することができる。人間の言語の進化は、人間の生物学的進化と密接に対応しており、系統発生 学的手法を適用することができる。ツリー」という概念は、言語間の関係や言語の分裂を表す効率的な方法として役立つ。また、言語族のつながりや年代に関す る仮説を検証する方法としても役立つ。例えば、言語間の関係は、同義語を文字として使用することで示すことができる[79][80]。インド・ヨーロッパ 語族の系統樹は、時系列のいくつかの言語間の関係や、単語間の類似性、語順を示している。

言語学で系統発生学を用いることについては、3種類の批判がある。1つ目は、言語と種は異なる存在であり、両者を研究するのに同じ方法は使えないという主 張である。二つ目は、系統発生学的手法が言語学的データにどのように適用されているかということである。そして3つ目は、系統樹を構築するために使用され るデータの種類について論じている。

ベイズ系統分類法は、データがどの程度樹状であるかに敏感であり、局所的・世界的な言語間の関係を再構築することができる。ベイズ系統分類を使用する主な 理由は、(1)多様なシナリオを計算に含めることができる、(2)出力は木のサンプルであり、真の主張を持つ単一の木ではない、の2点である[81]。

同じプロセスをテキストや写本にも適用することができる。歴史的な文章や写本の研究である古文書学では、テキストは写字者によって複製され、写字者が原典 を正確に写していない場合には、改変、すなわち「突然変異」が起こる[82]。
Phylogenetic Screening in the role of Biodiversity
Phylogenetic screens involve the pharmacological examination of closely related groups of organisms. Advances in cladistic analysis through rapid computer programs and molecular techniques have improved the precision of phylogenetic determination, allowing for the identification of species with pharmacological potential. Phylogenetic screens have been used in a rudimentary manner in the past, such as studying the Apocynaceae family of plants known for their alkaloid-producing species like Catharanthus, which produces vincristine, an antileukemia drug. However, modern techniques now enable researchers to study close relatives of a species to uncover either (1) higher abundance of important bioactive compounds (e.g., species of Taxus for taxol) or (2) natural variants of known pharmaceuticals (e.g., species of Catharanthus for different forms of vincristine or vinblastine.

Looking at Fig 6. it contains the phylogenetic screen of biodiversity within the fungi family. As seen inside the circle there are subtrees present that were done via phylogenetic analysis. These relations help understand the evolutionary history of various groups of organisms, identifying relationships between different species, and predicting future evolutionary changes. If we were to take biodiversity information from existing knowledge there might be relations between species or subgroups that we didnt know. But with emerging imagery systems and new analysis techniques more genetic relation can be found in biodiverse fields. The image below can help with conservation efforts as there are rare species of fungi involved, that could be beneficial to ecosystems all around.[83]
生物多様性の役割における系統的スクリーニング
系統学的スクリーニングでは、近縁の生物群を薬理学的に調べる。迅速なコンピュータープログラムと分子技術による系統解析の進歩により、系統決定の精度が 向上し、薬理学的可能性を持つ種の同定が可能になった。系統学的スクリーニングは、抗白血病薬であるビンクリスチンを産生するカタバミのようなアルカロイ ド産生種で知られるセリ科植物の研究など、過去には初歩的な方法で用いられてきた。しかし、現代の技術では、ある種の近縁種を研究することで、(1)重要 な生物活性化合物をより多く含む種(例えば、タキソールの原料となるタクサス属の種)、あるいは(2)既知の医薬品の天然変異体(例えば、ビンクリスチン やビンブラスチンの異なる形状の原料となるカタバミ属の種)を発見することができるようになった。

図6を 見ると、真菌の仲間における生物多様性の系統的スクリーンが示されている。円の中に見られるように、系統解析によって得られたサブツリーが存在する。これ らの関係は、様々な生物群の進化の歴史を理解し、異なる種間の関係を特定し、将来の進化の変化を予測するのに役立つ。生物多様性の情報を既存の知識から得 たとしたら、種間やサブグループ間に私たちが知らない関係があるかもしれない。しかし、新しい画像システムと新しい分析技術によって、生物多様性の分野で より多くの遺伝的関係が発見できるようになった。下の画像は、希少種の菌類が関与しており、生態系にとって有益である可能性があるため、保全活動に役立つ 可能性がある[83]。
Phylogenetic tree shapes Insight on Disease Transmission Patterns
Whole-genome sequence data of pathogens obtained from outbreaks or epidemics of infectious diseases can provide important insights into transmission dynamics and inform public health strategies. Previous studies have relied on integrating genomic and epidemiological data to reconstruct transmission events. However, recent research has explored the possibility of deducing transmission patterns solely from genomic data using phylodynamics, which involves analyzing the properties of pathogen phylogenies. Phylodynamics uses theoretical models to compare predicted branch lengths with actual branch lengths in phylogenies to infer transmission patterns. Additionally, coalescent theory, which describes probability distributions on trees based on population size, has been adapted for epidemiological purposes. Another potential source of information within phylogenies that has been explored is "tree shape". These approaches are computationally intensive but have the potential to provide valuable insights into pathogen transmission dynamics.


Pathogen Transmission Trees
The structure of the host contact network has a profound impact on the dynamics of outbreaks or epidemics, and outbreak management strategies rely on the type of transmission patterns driving the outbreak. One can expect that pathogen genomes spreading through different contact network structures, such as chains, homogenous networks, or networks with super-spreaders, would accumulate mutations in distinct patterns, resulting in noticeable differences in the shape of phylogenetic trees, as illustrated in Fig. 1. Analyzation of the structural characteristics of phylogenetic trees generated from simulated bacterial genome evolution across multiple types of contact networks  was conducted. Simple topological properties of phylogenetic trees that, when combined, can be used to classify trees into chain-like, homogenous, or super-spreading dynamics, revealing transmission dynamics. These properties form the basis of a computational classifier are used to classify real-world outbreaks. Remarkably, the computational predictions of overall transmission dynamics for each outbreak align with known epidemiology [84]


Graphical Representation of Phylogenetic Tree analyssi
Different transmission networks result in quantitatively different tree shapes To determine whether tree shapes captured information about the underlying disease transmission patterns within an outbreak, we simulated evolution of a bacterial genome over three types of outbreak contact network—homogenous, super-spreading and chain—and summarized the resulting phylogenies with five metrics describing tree shape. Figure 2 and and33 illustrate the distributions of these metrics across the three types of outbreaks, revealing clear differences in tree topology depending on the underlying host contact network. Super-spreader networks gave rise to phylogenies with higher Colless imbalance, longer ladder patterns, lower Δw and deeper trees than transmission networks with a homogeneous distribution of contacts. Trees derived from chain-like networks were less variable, deeper, more imbalanced and narrower than the other trees. Other topological summary metrics considered did not resolve the three outbreak types as fully (Supplementary Information). Scatter plots can be used for pathogen transmission analysis to visualize the relationship between two variables, such as the number of infected individuals and the time since infection. For example, a scatter plot can be used to examine the relationship between the number of cases of a pathogen and the amount of time since the first case was reported. This can help to identify trends and patterns in the data, such as whether the spread of the pathogen is increasing or decreasing over time. Scatter plots can also be used to identify any outliers or clusters of data points, which can provide insight into potential transmission routes or super-spreader events. Overall, scatter plots can be a useful tool in pathogen transmission analysis to identify patterns and trends in the data, and to inform public health interventions and control measures.[84]


Pathogen Transfer Box Plot data
The box plot imagery on the right displays the pathogen transformation data. Box plots are often used in statistical analysis to compare different groups or to visualize changes in a single group over time. They are particularly useful when dealing with large datasets or when comparing several groups, as they can quickly highlight differences or similarities in the data. Box plots, also known as box-and-whisker plots, are useful in statistical analysis to provide a summary of the distribution of a dataset. They display the range, median, quartiles, and potential outliers of the data in a visual manner. Box plots are commonly used to compare different groups or to analyze changes in a single group over time. They are especially helpful when working with large datasets or when comparing multiple groups, as they can easily identify any differences or similarities in the data. This makes box plots a valuable tool for analyzing pathogen transmission data, as they can help to identify important features in the distribution of the data.[84]
系統樹が病気の伝播パターンに関する洞察を示す
感染症のアウトブレイクや流行から得られた病原体の全ゲノム配列データは、感染ダイナミクスに関する重要な洞察を提供し、公衆衛生戦略に情報を与えること ができる。これまでの研究では、ゲノムデータと疫学データを統合して感染イベントを再構築してきた。しかし最近の研究では、病原体の系統の特性を解析する 系統力学(phylodynamics)を用いて、ゲノムデータのみから伝播パターンを推定する可能性が模索されている。系統力学では、予測される分岐の 長さと系統における実際の分岐の長さを比較する理論的モデルを用いて、伝播パターンを推測する。さらに、集団の大きさに基づいて樹上の確率分布を記述する 合体理論は、疫学的な目的に適応されている。系統樹内のもう一つの潜在的な情報源として、「樹形」が検討されている。これらのアプローチは計算量が多い が、病原体の伝播ダイナミクスに関する貴重な洞察を提供する可能性を秘めている。


病原体伝播ツリー
宿主の接触ネットワークの構造は、アウトブレイクや疫病の動態に大きな影響を与え、アウトブレイク管理戦略は、アウトブレイクを引き起こす伝播パターンの 種類に依存している。チェーン、均質なネットワーク、スーパースプレッダーを持つネットワークなど、異なる接触ネットワーク構造を通して広がる病原体ゲノ ムは、異なるパターンで変異を蓄積し、その結果、図1に示されるように、系統樹の形状に顕著な違いが生じることが予想される。複数のタイプの接触ネット ワークにわたる細菌ゲノムのシミュレーション進化から生成された系統樹の構造的特徴の分析を行った。系統樹の単純な位相幾何学的特性を組み合わせること で、樹木を鎖状、均質、超拡散動態に分類することができ、伝播動態が明らかになった。これらの特性は計算による分類器の基礎となり、実際のアウトブレイク を分類するために使用される。驚くべきことに、各アウトブレイクの全体的な伝播ダイナミクスの計算による予測は、既知の疫学と一致している。


系統樹分析のグラフ表現
異なる感染ネットワークは定量的に異なるツリー形状をもたらす ツリー形状がアウトブレイク内の根本的な疾患伝播パターンに関する情報を捉えているかどうかを調べるため、3種類のアウトブレイク接触ネットワーク(ホモ ジェナス、スーパースプレッディング、チェーン)上で細菌ゲノムの進化をシミュレーションし、その結果得られた系統樹をツリー形状を表す5つの指標で要約 した。図2および図33は、3種類のアウトブレイクにおけるこれらの指標の分布を示したもので、基礎となる宿主接触ネットワークによって、ツリーのトポロ ジーに明らかな違いがあることが明らかになった。スーパースプレッダーネットワークは、均一な接触分布を持つ感染ネットワークよりも、より高い Colless不均衡、より長いラダーパターン、より低いΔw、より深い木を持つ系統樹をもたらした。連鎖状ネットワークから得られた系統樹は、他の系統 樹よりも変化が少なく、深く、不均衡で幅が狭かった。その他のトポロジカルな要約指標を検討した結果、3つのアウトブレイクのタイプはそれほど完全には区 別されなかった(補足情報)。散布図は、感染個体数と感染からの時間のような2つの変数の関係を可視化するために、病原体伝播解析に用いることができる。 例えば、散布図を用いて病原体の症例数と最初の症例が報告されてからの時間の関係を調べることができる。これにより、病原体の蔓延が時間の経過とともに増 加しているのか減少しているのかなど、データの傾向やパターンを特定することができる。散布図はまた、データ点の外れ値やクラスターを特定するために使用 することもでき、潜在的な感染経路やスーパースプレッダーに関する洞察を得ることができる。全体として、散布図は病原体伝播分析において、データのパター ンと傾向を特定し、公衆衛生介入と管理対策に情報を提供する有用なツールとなり得る[84]。


病原体伝播ボックスプロットデータ
右の箱ひげ図イメージは病原体変換データを表示する。箱ひげ図は、異なるグループを比較したり、1つのグループの経時的変化を可視化するために統計解析で よく使用される。箱ひげ図は、大規模なデータセットを扱う場合や、複数のグループを比較する場合に特に有用で、データの相違点や類似点を素早く強調するこ とができる。箱ひげ図 箱ひげ図とも呼ばれる箱ひげ図は、データセットの分布の要約を提供する統計分析に有用である。箱ひげ図は、データの範囲、中央値、四分位数、潜在的な外れ 値を視覚的に表示します。箱ひげ図は、異なるグループを比較したり、1つのグループの経時変化を分析したりするのによく使われる。箱ひげ図は、大きなデー タセットを扱うときや、複数のグループを比較するときに特に役立ちます。そのため、箱ひげ図は、データの分布における重要な特徴を特定するのに役立つの で、病原体の伝播データを分析するための貴重なツールとなる[84]。
Angiosperm Phylogeny Group
Bauplan
Bioinformatics
Biomathematics
Coalescent theory
EDGE of Existence programme
Evolutionary taxonomy
Language family
Maximum parsimony
Microbial phylogenetics
Molecular phylogeny
Noogenesis
Ontogeny
PhyloCode
Phylodynamics
Phylogenesis
Phylogenetic comparative methods
Phylogenetic network
Phylogenetic nomenclature
Phylogenetic tree viewers
Phylogenetics software
Phylogenomics
Phylogeny (psychoanalysis)
Phylogeography
Systematics

https://en.wikipedia.org/wiki/Phylogenetics

Copyleft, CC, Mitzub'ixi Quq Chi'j, 1996-2099

Do not paste, but [Re]Think our message for all undergraduate students!!!