100万トークン」「今月のトークンを使い切りました」… AI を使っていると、ちょこちょこ出てくる「トークン」という言葉。

よく聞くけど何? トークン
図1:よく聞くけど何?「トークン」

文字数のような、お金の単位のような、なんだかふんわりした言葉。コンテキストウィンドウの記事 で出てきた「机の広さ」も、実はこのトークンで測られています。今回は、その正体を、ふんわり見ていきます。

トークンってなに?

ざっくり言うと、トークンは AI が文章を扱うときの「最小ブロック」 です。

日本語と英語ではトークンの作られ方が違う
図2:同じ「5文字相当」でも、AIにとってのブロック数は言語で変わる

私たちは文章を 文字 で数えますが、AI は トークンという単位 で読んでいます。面白いのは、日本語と英語でトークンの作られ方の “向き” が逆 なこと。

  • 英語の “hello”(5文字)→ AI から見ると 1トークン。よく使う単語はまるごと1ブロックにまとめられる
  • 日本語の「こんにちは」(5文字)→ AI から見ると 約5トークン。1文字ずつに近い単位でそのまま扱われる

→ つまり「AI にとっての文章の最小単位=トークン」で、英語ではまとめてブロック化、日本語ではほぼ1文字ずつ——同じ5文字でも、AI の中ではぜんぜん違うサイズに見えているわけです。

ざっくりの目安として、日本語1文字 ≒ 1〜2トークン/英語1単語 ≒ 1トークン。これだけ覚えておけば、料金や上限の感覚を掴むのに十分です。

画像や動画もぜんぶトークン

ここまでは文字の話でしたが、文字をブロックに区切って数える という発想、実は文字だけの話じゃないんです。AI に渡す 画像や動画も、同じように “ブロック化” されて 扱われています。

文字・画像・動画と進むほどトークン消費が桁違いに増える
図3:文字 → 画像 → 動画と進むほど、トークン消費は桁違いに増える
  • 文字:日本語1文字 ≒ 1〜2トークン
  • 画像1枚:≒ 数百〜1500トークン(短い記事1本ぶんに相当)
  • 動画1分:≒ 約2万トークン(中編記事10本ぶんに相当)

画像や動画は、文字に比べて桁違いにトークンを食う。「動画を送ると一気に上限が来る」のはこれが理由。AI はあらゆるメディアを トークンという同じ単位 に揃えてから扱っているわけです。

※ 厳密には、画像や動画のトークン数はモデル(ChatGPT・Claude・Gemini など)や解像度・フレームレートで大きく変わります。ここで挙げた数字は かなりざっくりした目安 として見てください。

なんで「文字数」じゃなくて「トークン」で数えるの?

「だったら最初から文字で数えればいいのに」と思いますよね。これには理由があります。

AIはトークン単位で処理しているからトークンで数える
図4:AIはトークン単位で読み・考え・返している

AI は内部で、文章をトークンに分解 → 1個ずつ処理 → 次のトークンを予測 という流れで動いています。つまり、AI にとっての “仕事量” は、文字数ではなく トークン数で決まる んです。

  • 文字数で測る → AI から見ると不正確(言語で大きく変わる)
  • トークン数で測る → AI の実際の作業量そのもの

→ だから AI サービスは「文字数」ではなく「トークン数」で料金や上限を決めている。AI 側の都合に合わせた数え方、というわけです。

料金はトークンで決まる

そして、この話がいちばん効いてくるのが 料金

入力トークン+出力トークンで料金が決まる
図5:料金=入力トークン+出力トークンの合計で決まる

AI を API で使うとき、料金は トークン1個あたりいくら で決まります。よく見かけるのは「100万トークンあたり○ドル」という書き方。

  • 入力トークン:あなたが AI に渡した文章(質問・資料・会話の履歴ぜんぶ)
  • 出力トークン:AI が返してきた文章

→ この 入力+出力の合計 で課金。長い資料を投げる、長い会話を続ける、長い返事を要求する——どれも トークン数が増える=料金が増える、という関係です。

入力と出力で 値段が違う のもポイント。たいてい 出力の方が高い(AI が “考えて” 作るほうがコストがかかるため)。同じ会話でも「長く返事させる」と料金が一気に伸びるのは、これが理由です。

無料プランの「上限」もトークン

「今月の無料枠を使い切りました」みたいな通知、これも実はトークンの話。

無料プランの上限はトークン数で決まっている
図6:無料プランの「使えなくなる」もトークンの上限

ChatGPT や Claude などの 無料プラン・有料プラン にも、たいてい「この期間で使えるトークン数」の上限が設定されています。たくさん話したり、長い文章を投げたりすると、その分トークンを消費して、上限に近づいていく。

  • 短いやり取り → トークン消費が少ない → 上限まで余裕
  • 長文の貼り付け・長い会話 → トークン消費が大きい → 上限が早く来る

→ 「最近すぐ上限に達する気がする」と感じたら、1回の入力が長くなっていないか をチェックしてみるのが手。資料を貼るより要点だけ伝えるほうがトークン的にお得、というコツに繋がります。

コンテキストの「机の広さ」もトークン

最後に、コンテキストウィンドウの記事 で見た「机の広さ」も、実はこの単位で測られています。

コンテキストウィンドウの広さもトークンで測る
図7:「100万トークン」=机に100万個のブロックを乗せられる

200K(20万)トークン」「1M(100万)トークン」みたいな表記、見覚えありませんか? あれが 机の広さ——AI が一度に乗せておけるブロックの数のことです。

  • コンテキストウィンドウが 200K → 机に20万個のブロックを置ける
  • コンテキストウィンドウが 1M → 机に100万個のブロックを置ける

→ 日本語にすると、1Mトークン ≒ 50万〜100万文字くらい(だいたい本3〜5冊分)。「100万トークン」と聞くと巨大に見えますが、ブロック単位だと考えれば現実的なサイズ感が掴めます。

まとめ

トークンのすべて、これ1枚で
図8:トークンのすべて、これ1枚で

ふんわり理解チェック

  • トークン=AIが文章を扱うときの「最小ブロック」(日本語1文字 ≒ 1〜2トークン)
  • 画像や動画もトークンに変換される。動画は桁違いに消費が大きい
  • 料金は「入力トークン+出力トークン」で決まる。出力のほうが高いのが普通
  • 無料プランの上限も、コンテキストウィンドウの「机の広さ」も、ぜんぶトークンで測られている

「100万トークン」も「上限に達しました」も、正体は同じ AIの最小ブロック。AIサービスの料金表や仕様を見るとき、この単位が分かっていると どれくらい使えるのか・いくらかかるのか が一気に読めるようになります 🌱