PCAとt-SNEの違いを徹底解説！初心者でも分かる図解と使い分けのコツ

この記事を書いた人

小林聡美

名前：小林聡美（こばやしさとみ）ニックネーム：さと・さとみん年齢：25歳性別：女性職業：季節・暮らし系ブログを運営するブロガー／たまにライター業も受注居住地：東京都杉並区・阿佐ヶ谷の1Kアパート（築15年・駅徒歩7分）出身地：長野県松本市（自然と山に囲まれた町で育つ）身長：158cm 血液型：A型誕生日：1999年5月12日趣味：・カフェで執筆＆読書（特にエッセイと季節の暮らし本）・季節の写真を撮ること（桜・紅葉・初雪など）・和菓子＆お茶めぐり・街歩きと神社巡り・レトロ雑貨収集・Netflixで癒し系ドラマ鑑賞性格：落ち着いていると言われるが、心の中は好奇心旺盛。丁寧でコツコツ型、感性豊か。慎重派だけどやると決めたことはとことん追求するタイプ。ちょっと天然で方向音痴。ひとり時間が好きだが、人の話を聞くのも得意。 1日のタイムスケジュール（平日）：時間行動 6:30 起床。白湯を飲んでストレッチ、ベランダから天気をチェック 7:00 朝ごはん兼SNSチェック（Instagram・Xに季節の写真を投稿することも） 8:00 自宅のデスクでブログ作成・リサーチ開始 10:30 近所のカフェに移動して作業（記事執筆・写真整理） 12:30 昼食。カフェかコンビニおにぎり＋味噌汁 13:00 午後の執筆タイム。主に記事の構成づくりや装飾、アイキャッチ作成など 16:00 夕方の散歩・写真撮影（神社や商店街。季節の風景探し） 17:30 帰宅して軽めの家事（洗濯・夕飯準備） 18:30 晩ごはん＆YouTube or Netflixでリラックス 20:00 投稿記事の最終チェック・予約投稿設定 21:30 読書や日記タイム（今日の出来事や感じたことをメモ） 23:00 就寝前のストレッチ＆アロマ。23:30に就寝

PCAとt-SNEの違いをつかむための完全ガイド

このブログではデータ分析でよく耳にする PCA と t-SNE の違いを、中学生でも分かる言葉でゆっくり解説します。まずは結論を先に伝えると、PCA は“直線的な特徴を探してデータを圧縮する手法”で、t-SNE は“非直線的な関係を見つけて見やすくする視覚化の技術”です。どちらを選ぶかは、目的とデータの性質次第。説明を読んで、あなたのデータに合う方を見つけてください。

この違いを深掘りするには、まず両者の基本を押さえることが大切です。PCAはデータの分散が大きい方向を拾い出す「線形変換」です。データのばらつき方を基準にして、新しい座標軸を作り、元の次元を減らします。これにより、データの特徴を簡潔に表すことができます。対してt-SNEはデータ点同士の距離感を、局所の構造を保つように再配置します。直感的には「近くにいる点ほど近く、遠くの点は遠くに」なるように、2次元や3次元の図に落とします。

両者の大きな違いは、扱う情報の種類と目的です。PCAはグローバルな構造を重視します。データ全体のばらつきを説明する軸を作るので、どのデータが全体として重要なのかを把握しやすいです。t-SNEはローカルな関係を強く重視します。近い点のまとまりをくっきり出すことが得意なので、データの中にある「群れ」や「クラスタ」を視覚的に見つけやすいのです。しかし、t-SNEはグローバルな関係を正確に保てるとは限らず、2Dや3Dの図の見え方がデータセットごとに変わりやすい点には注意が必要です。

ここまでを総括すると、PCAは「説明変数の次元削減と解釈性の高い特徴抽出」、t-SNEは「データの可視化と局所的な構造の把握」に向いています。実務では、まずPCAでデータを簡潔化してから、可視化やクラスタリングの準備としてt-SNEを使うことが多いです。パラメータの扱い方や実行時間、結果の再現性にも違いがあるため、目的に合わせて選ぶことが大切です。

PCAとは何か

PCA（主成分分析）は、データの分散が最大になる方向を新しい軸として定め、元の次元を削減する手法です。もう少し分かりやすく言うと、点の集まりを“最も伸びている方向”に長い棒の軸を合わせるようなイメージです。これにより、データのばらつきの大部分を少数の新しい座標軸で表せます。PCAを使うと、データの「どの特徴が似ているか」「どの特徴が大事か」が見えやすくなり、機械学習の前処理としてもよく使われます。

PCAを使うときのポイントとして、まずデータを標準化することが大切です。特徴量ごとにスケールが違うと、ばらつきの大きい特徴が過剰に影響してしまいます。次に何次元まで削減するかを決める指標として「分散の割合」を見ると良いです。全体の中で何％の情報を保てるかを確認でき、適切な次元数の目安になります。PCAは決して魔法の削減法ではなく、データの線形な構造を前提に動く点に注意が必要です。

t-SNEとは何か

t-SNE（t-分布型確率的近傍埋め込み）は、非線形な関係を見つけやすい可視化技術です。高次元データの点と点の近さを、低次元の図で再現する際、近い点同士を近く、遠い点を遠くに配置する性質を持ちます。t-SNEは局所構造を大切にします。たとえば、似ているデータ群が2次元平面上で固まり、異なる群は離れて配置される傾向があります。この性質のおかげで、複雑なデータの「グループ分け」を直感的に捉えられます。

ただしt-SNEには注意点も多くあります。まず計算コストが高く、大規模データには向きません。次にパラメータ感度が高く、初期値や perplexity（近傍の数を決める値）を微妙に変えると、結果の見え方が大きく変わることがあります。そのため、再現性を確保するには同じ seed を使う、複数のパラメータで確認するなどの工夫が必要です。最後に、t-SNEはグローバルな距離関係を必ずしも正確に保たないため、図の“全体像”を過度に解釈しすぎないことが大切です。

実務での使い分けと注意点

現場での使い分けとしては、まずデータの性質を確認します。線形な関係が中心か、それとも非線形で複雑な構造が潜んでいるかを考えます。線形性が強く、解釈や説明性が重要なら PCA が適しています。データの可視化を通じて“群れ”や“境界”を観察したいときは t-SNE が効果的です。ただし、t-SNEは“どの点がどのクラスタに属するか”の厳密な割り当てを出すための手法ではなく、あくまで可視化の補助として使うべきです。

実務での具体的な流れとしては、最初に標準化したデータで PCA を実施して次元を減らし、データの分布や相関を把握します。次に可視化が必要な場合には t-SNE を適用して 2D/3D の図を作成します。ここで大事なのは、パラメータ選びと再現性の確保です。PCA は deterministic（決定的）で再現性が高いですが、t-SNE は stochastic（確率的）要素があるため、同じ設定でも結果が多少変わります。複数回試して見え方に一貫性があるかを確認することが、信頼性を高めるコツです。

ピックアップ解説

今日は PCA と t-SNE の違いを雑談形式で深掘りしてみよう。私たちはよくデータの山を見て、どの道順で降りるべきか迷うよね。PCA はまるで“長さの largest 方向を選ぶ”机上の地図みたい。データの主な動きを一本の軸に沿って整理してくれる。一方 t-SNE は“この近づき方が本当に似ているのか”を、視点を変えて近いもの同士を近く、遠いものを遠くと配置する遊び心ある地図作り。初めて見るときは感動するけれど、同じデータでも設定次第で見え方が変わるのが悩みどころ。つまり、PCA は全体像の把握、t-SNE は局所的な構造の発見に向いている――この二つの使い分けが、データ分析の第一歩だね。

前の記事： « タック紙とラベル紙の違いを徹底比較｜用途・印刷品質・選び方を分かりやすく解説

次の記事： AMLとMDSの違いをわかりやすく徹底解説！血液の病気を見分ける7つのポイント »