かならずよんで ね!

計量テキスト分析入門

Introduction to Statistical Analysis of Text

池田光穂

内容分析(content analysis)とは「マスメディア研究やコミュニケーション研究などの社会科学において、雑誌や新聞記事等の文章の内容や、テレビ番組の内容、コミュ ニケーション内容(メッセージ)を、客観的かつ数量的に分析するための研究方法[1]。本やウェブサイトや絵画や法律など、記録されたコミュニケーション の研究。インタビュー内容の分析のために社会科学においてよく用いられる他、文献学、解釈学、記号論において、意味の作者や信憑性に関して文章を研究する ための研究方法論でもある」ウィキペディア「内容分析」)

テキストマイニング(text mining)は「文字列を対象としたデータマイニングのことである。通常の文章からなるデータを単語や文節で区切り、それらの出現の頻度や共出現の相 関、出現傾向、時系列などを解析することで有用な情報を取り出す、テキストデータの分析方法である。テキストデータの多くは形式が定まっておらず、また日 本語は英語などと比べて単語の境界判別の必要性(→わかち書き)や文法ゆらぎが大きい点において形態素解析が困難であったが、自然言語処理の発展により実 用的な水準の分析が可能となった。テキストマイニングの対象としては、顧客からのアンケートの回答やコールセンターに寄せられる質問や意見、電子掲示板や メーリングリストに蓄積されたテキストデータなどがある」ウィキペディア「テキスト マイニング」)

KH Coderと は「テキスト型データの計量的な内容分析(計量テキスト分析)もしくはテキストマイニングのためのフリーソフトウェアである。各種の検索を行えるほか、ど んな言葉が多く出現していたのかを頻度表から見ることができる。さらに多変量解析によって、一緒に出現することが多い言葉のグループや、同じ言葉を含む文 書のグループを見ることで、データ中に含まれるコンセプトを探索できる。また一部の文書群に注目した場合に、その文書群に特に多く出現する言葉をリスト アップすることで、その文書群の特徴を探索できる。あるいは分析者が指定した基準によって、文書の分類を自動的に行うこともできる」KH Coder)。

多変量解析の具体的な手法としては、対応分析(数量化III類)・クラスター分析・多次元尺度構成法(MDS)・自己組織化マップ・共起ネットワーク・機 械学習(ナイーブベイズ)などに対応している。

樋口耕一『社会調査のための計量テキスト分析―内容 分析の継承と発展を目指して』初版、ナカニシヤ書店、2014年

あとがき

SAT_higuchi_14_Part1.pdf
SAT_higuchi_14_Part2.pdf
SAT_higuchi_14_Part3.pdf
SAT_higuchi_14_Part4.pdf
SAT_higuchi_14_Part5.pdf

●データ分析とは?

"Data analysis is a process of inspecting, cleansing, transforming, and modeling data with the goal of discovering useful information, informing conclusions, and supporting decision-making. Data analysis has multiple facets and approaches, encompassing diverse techniques under a variety of names, and is used in different business, science, and social science domains. In today's business world, data analysis plays a role in making decisions more scientific and helping businesses operate more effectively."-Data analysis.

"Data mining is a particular data analysis technique that focuses on statistical modeling and knowledge discovery for predictive rather than purely descriptive purposes, while business intelligence covers data analysis that relies heavily on aggregation, focusing mainly on business information. In statistical applications, data analysis can be divided into descriptive statistics, exploratory data analysis (EDA), and confirmatory data analysis (CDA). EDA focuses on discovering new features in the data while CDA focuses on confirming or falsifying existing hypotheses. Predictive analytics focuses on the application of statistical models for predictive forecasting or classification, while text analytics applies statistical, linguistic, and structural techniques to extract and classify information from textual sources, a species of unstructured data. All of the above are varieties of data analysis."-Data analysis.

"Data integration is a precursor to data analysis, and data analysis is closely linked to data visualization and data dissemination."-Data analysis.

リンク(KH Coder 関連)

リンク

文献

その他の情報

Maya_Abeja

Copyleft, CC, Mitzub'ixi Quq Chi'j, 1997-2099

池田蛙  授業蛙 電脳蛙 医人蛙 子供蛙