glmとlmの違いを徹底解説｜回帰分析を初心者でも理解できる使い分けガイド

この記事を書いた人

小林聡美

名前：小林聡美（こばやしさとみ）ニックネーム：さと・さとみん年齢：25歳性別：女性職業：季節・暮らし系ブログを運営するブロガー／たまにライター業も受注居住地：東京都杉並区・阿佐ヶ谷の1Kアパート（築15年・駅徒歩7分）出身地：長野県松本市（自然と山に囲まれた町で育つ）身長：158cm 血液型：A型誕生日：1999年5月12日趣味：・カフェで執筆＆読書（特にエッセイと季節の暮らし本）・季節の写真を撮ること（桜・紅葉・初雪など）・和菓子＆お茶めぐり・街歩きと神社巡り・レトロ雑貨収集・Netflixで癒し系ドラマ鑑賞性格：落ち着いていると言われるが、心の中は好奇心旺盛。丁寧でコツコツ型、感性豊か。慎重派だけどやると決めたことはとことん追求するタイプ。ちょっと天然で方向音痴。ひとり時間が好きだが、人の話を聞くのも得意。 1日のタイムスケジュール（平日）：時間行動 6:30 起床。白湯を飲んでストレッチ、ベランダから天気をチェック 7:00 朝ごはん兼SNSチェック（Instagram・Xに季節の写真を投稿することも） 8:00 自宅のデスクでブログ作成・リサーチ開始 10:30 近所のカフェに移動して作業（記事執筆・写真整理） 12:30 昼食。カフェかコンビニおにぎり＋味噌汁 13:00 午後の執筆タイム。主に記事の構成づくりや装飾、アイキャッチ作成など 16:00 夕方の散歩・写真撮影（神社や商店街。季節の風景探し） 17:30 帰宅して軽めの家事（洗濯・夕飯準備） 18:30 晩ごはん＆YouTube or Netflixでリラックス 20:00 投稿記事の最終チェック・予約投稿設定 21:30 読書や日記タイム（今日の出来事や感じたことをメモ） 23:00 就寝前のストレッチ＆アロマ。23:30に就寝

glmとlmの違いを理解するための導入

このテーマを学ぶと、データからどんな情報をどのように引き出せるかが見えるようになります。回帰分析は、ある結果を予測するために、説明する変数（特徴）と結果の関係をモデル化する方法です。

lmは長い間使われてきた基本的な回帰モデルで、説明変数が1つ以上ある場合、結果は連続値であることが前提です。

その前提が崩れると推定がうまくいかなくなることもあります。

一方、glmは「一般化された」という名前の通り、さまざまな分布やリンク関数を使うことで、もっと多くの場面に対応できます。

例えば、病気の有無を予測する場合は二項分布とロジットリンク、事故の発生回数を予測する場合はポアソン分布と対数リンクなど、適切な組み合わせを選ぶ必要があります。

学びのポイントは、分布とリンクを最初に決めてから、回帰係数を推定する点です。係数の解釈はlmとglmで少し異なります。

lmで得られる係数は元のデータの単位で解釈されがちですが、glmの係数はリンク関数を介した「予測値を作るための変換後のスケール」で解釈することが多くなります。

この違いを理解しておくと、データの性質に合わせて適切なモデルを選ぶ判断材料が増え、結果の伝え方も上手になります。 基本を押さえることが大切で、慣れてくると複雑なデータにも対応できるようになります。

この導入だけで、次の章へ進む準備が整います。

1. glmとlmの基本的な違いを理解しよう

この章では、lmとglmのコアの違いを順番に整理します。まず前提となるのは「モデルがどういうデータを扱えるか」「結果の分布がどうなるか」です。

lmは説明変数と目的変数の関係を直線で近似する基本的な回帰モデルで、目的変数が連続値であり、分布が正規分布に近いことを前提としています。つまり、前提の要点は「残差が正規分布に従い、分散が一定であること」です。これが崩れると推定量の信頼性が落ち、予測の信頼区間も不適切になります。

一方、glmは一般化線形モデルの略で、分布を自由に選べることとリンク関数を選択できる点が大きな特徴です。分布としては二項分布・ポアソン分布・正規分布などを選べ、リンク関数としてはlogit・log・identityなどを使います。これにより、カテゴリデータの予測確率やカウントデータの期待値など、 lmだけでは扱いにくいデータも扱えるようになります。

glmを使うときの基本的な流れは、まずどの分布を想定するかを決め、次にその分布に合ったリンク関数を選ぶことです。これらを決めたうえで、係数を最大尤度法で推定します。推定の過程はlmと似ていますが、分布とリンクが変わることで、係数の解釈や推定の結果の意味が変わる点に注意が必要です。

もう一つの大事な点は、glmでは係数の解釈が「リンクを介した値の変化」という形になることです。例えばロジスティック回帰では、係数が正ならば odds ratio が上昇する、などの解釈になります。

このように、lmとglmの違いを理解することで、データが持つ性質に応じた最適なモデル選択ができ、結果の伝え方も正確になります。ここまでの要点を整理すると、分布とリンクの組み合わせを先に決めることが最初の一歩です。これを押さえておけば、後の章で出てくる実例にもスムーズに対応できるはずです。

2. 現場での使い分けのコツと注意点

現場でglmとlmを使い分けるコツは、データの性質と伝えたいアウトカムの形を最初に決めることです。まず、データが連続値で分散が一定であると判断できる場合はlmがシンプルで安定します。直感としては「予測値が連続的で、誤差分布が正規に近い場合はlm」という判断が基本です。

ただし、実際のデータには外れ値や非線形な関係が潜んでいることが多く、その場面ではlmの仮定が破れやすくなります。その時こそglmの出番です。

glmを使うと、分布とリンクを適切に設定することでデータの特性を正しくモデリングできます。例えば、目的変数が二値のときは二項分布＋ロジットリンク、カウント数のときはポアソン分布＋対数リンクなどが典型的な組み合わせです。

係数の解釈にも注意が必要です。lmの係数は「説明変数が1単位増えると目的変数がどれだけ変化するか」を直接示します。一方、glmの係数は「リンク関数を介したスケールでの変化」を示すため、解釈の仕方を練習する必要があります。

データの前処理にも留意してください。欠損値の扱い、変数の標準化・スケーリング、変数選択の影響は、lmでもglmでも結果に大きく影響します。glmは特に分布の設定が適切でないと、推定が不安定になることがあります。

検証は欠かせません。交差検証やAIC/BICといった指標を用いて、モデルの適合度と予測力を比較します。 glmは複雑な分布を扱える分、過適合に注意し、モデルの複雑さを適切に制御することが重要です。

最後に、伝え方の工夫です。glmで得られた結果は、専門家には分かりやすいですが、非専門家には難しく見える場合があります。係数の解釈を「どのような現象が増えると起こる確率がどう変化するか」といった具体的な言い換えを添えると伝わりやすくなります。

この章の要点は「データの性質と伝えたい情報の形を先に決める」「適切な分布とリンクを選ぶ」「検証と伝え方を忘れない」という三点です。実務での適用はこの基本を守りつつ、データごとに微調整を加えることが大切です。

3. 比較表と具体例で理解を深める

ここでは lmと glm の違いを一目で理解できるよう、要点を表に整理し、続いて具体的なデータ例を用いて解説します。

最初に、lmとglmの主な違いを短く振り返ります。lmは「連続値の予測に最適」「分布が正規で分散が一定」という前提の下、係数の解釈が直感的です。glmは「さまざまな分布とリンクを選べる」という強みがあり、結果を確率や期待値の形で解釈する訓練が必要です。

この後に示す表は、実務での選択を迷わずにするための道標になります。

<table> <th>点lmglm 前提分布正規分布を仮定任意の分布を設定可能（例: 二項・ポアソン・正規など）リンク関数恒等リンクを使うのが基本リンク関数を自由に選択（例: logit、log、identity など）適用対象連続値の予測離散データ・非線形性・分布の歪みを含むデータ係数の解釈説明変数1単位の変化を直接解釈リンクを介した変化量として解釈 table>

具体例として、身長と体重のデータを lm で予測する場合、身長が1cm増えると体重がどう変わるかを直接語ることができます。一方、病気の有無を予測する場合には glm を用い、学習データで病気の確率をモデル化します。ここで重要なのは、分布とリンクを適切に選べば、データの性質に合った予測結果と解釈を得られるという点です。実務では、表と実例を組み合わせて検証を行い、最も信頼できるモデルを選ぶ判断力を養いましょう。

ピックアップ解説

友人との雑談の中で、glmとlmの話題が出たとき、私はこんな風に答えます。
「 lm は“線形”という言葉そのまま、説明変数が増えると y が直線的に変化する想定で、結果も連続値だよ。だから誤差が正規分布に近いと推定が安定するんだ。
でも現実にはデータが歪んでいたり、結果が0か1のようなカテゴリになっていることもある。そんなとき glm の登場。分布を二項やポアソンにして、リンク関数を選べば、確率やカウントを扱える。係数の意味も、直感的には lm のように「1単位増加で変化する量」ではなく、「リンクを介した変化量」という新しい視点になるんだ。つまり、データの性質と何を伝えたいかを最初に決めるのが大事だね。私はこの基本の考え方さえ押さえておけば、 glm も lm も使い分けが自然に身についてくると思う。

前の記事： « angryとmadの違いを完全ガイド中学生にもわかる使い分けのコツ

次の記事：ロジスティックとロジットの違いを図解つきで徹底解説！中学生にもやさしい入門ガイド »