「100万トークン」「今月のトークンを使い切りました」… AI を使っていると、ちょこちょこ出てくる「トークン」という言葉。

文字数のような、お金の単位のような、なんだかふんわりした言葉。コンテキストウィンドウの記事 で出てきた「机の広さ」も、実はこのトークンで測られています。今回は、その正体を、ふんわり見ていきます。
トークンってなに?
ざっくり言うと、トークンは AI が文章を扱うときの「最小ブロック」 です。

私たちは文章を 文字 で数えますが、AI は トークンという単位 で読んでいます。面白いのは、日本語と英語でトークンの作られ方の “向き” が逆 なこと。
- 英語の “hello”(5文字)→ AI から見ると 1トークン。よく使う単語はまるごと1ブロックにまとめられる
- 日本語の「こんにちは」(5文字)→ AI から見ると 約5トークン。1文字ずつに近い単位でそのまま扱われる
→ つまり「AI にとっての文章の最小単位=トークン」で、英語ではまとめてブロック化、日本語ではほぼ1文字ずつ——同じ5文字でも、AI の中ではぜんぜん違うサイズに見えているわけです。
ざっくりの目安として、日本語1文字 ≒ 1〜2トークン/英語1単語 ≒ 1トークン。これだけ覚えておけば、料金や上限の感覚を掴むのに十分です。
画像や動画もぜんぶトークン
ここまでは文字の話でしたが、文字をブロックに区切って数える という発想、実は文字だけの話じゃないんです。AI に渡す 画像や動画も、同じように “ブロック化” されて 扱われています。

- 文字:日本語1文字 ≒ 1〜2トークン
- 画像1枚:≒ 数百〜1500トークン(短い記事1本ぶんに相当)
- 動画1分:≒ 約2万トークン(中編記事10本ぶんに相当)
→ 画像や動画は、文字に比べて桁違いにトークンを食う。「動画を送ると一気に上限が来る」のはこれが理由。AI はあらゆるメディアを トークンという同じ単位 に揃えてから扱っているわけです。
※ 厳密には、画像や動画のトークン数はモデル(ChatGPT・Claude・Gemini など)や解像度・フレームレートで大きく変わります。ここで挙げた数字は かなりざっくりした目安 として見てください。
なんで「文字数」じゃなくて「トークン」で数えるの?
「だったら最初から文字で数えればいいのに」と思いますよね。これには理由があります。

AI は内部で、文章をトークンに分解 → 1個ずつ処理 → 次のトークンを予測 という流れで動いています。つまり、AI にとっての “仕事量” は、文字数ではなく トークン数で決まる んです。
- 文字数で測る → AI から見ると不正確(言語で大きく変わる)
- トークン数で測る → AI の実際の作業量そのもの
→ だから AI サービスは「文字数」ではなく「トークン数」で料金や上限を決めている。AI 側の都合に合わせた数え方、というわけです。
料金はトークンで決まる
そして、この話がいちばん効いてくるのが 料金。

AI を API で使うとき、料金は トークン1個あたりいくら で決まります。よく見かけるのは「100万トークンあたり○ドル」という書き方。
- 入力トークン:あなたが AI に渡した文章(質問・資料・会話の履歴ぜんぶ)
- 出力トークン:AI が返してきた文章
→ この 入力+出力の合計 で課金。長い資料を投げる、長い会話を続ける、長い返事を要求する——どれも トークン数が増える=料金が増える、という関係です。
入力と出力で 値段が違う のもポイント。たいてい 出力の方が高い(AI が “考えて” 作るほうがコストがかかるため)。同じ会話でも「長く返事させる」と料金が一気に伸びるのは、これが理由です。
無料プランの「上限」もトークン
「今月の無料枠を使い切りました」みたいな通知、これも実はトークンの話。

ChatGPT や Claude などの 無料プラン・有料プラン にも、たいてい「この期間で使えるトークン数」の上限が設定されています。たくさん話したり、長い文章を投げたりすると、その分トークンを消費して、上限に近づいていく。
- 短いやり取り → トークン消費が少ない → 上限まで余裕
- 長文の貼り付け・長い会話 → トークン消費が大きい → 上限が早く来る
→ 「最近すぐ上限に達する気がする」と感じたら、1回の入力が長くなっていないか をチェックしてみるのが手。資料を貼るより要点だけ伝えるほうがトークン的にお得、というコツに繋がります。
コンテキストの「机の広さ」もトークン
最後に、コンテキストウィンドウの記事 で見た「机の広さ」も、実はこの単位で測られています。

「200K(20万)トークン」「1M(100万)トークン」みたいな表記、見覚えありませんか? あれが 机の広さ——AI が一度に乗せておけるブロックの数のことです。
- コンテキストウィンドウが 200K → 机に20万個のブロックを置ける
- コンテキストウィンドウが 1M → 机に100万個のブロックを置ける
→ 日本語にすると、1Mトークン ≒ 50万〜100万文字くらい(だいたい本3〜5冊分)。「100万トークン」と聞くと巨大に見えますが、ブロック単位だと考えれば現実的なサイズ感が掴めます。
まとめ

ふんわり理解チェック
- トークン=AIが文章を扱うときの「最小ブロック」(日本語1文字 ≒ 1〜2トークン)
- 画像や動画もトークンに変換される。動画は桁違いに消費が大きい
- 料金は「入力トークン+出力トークン」で決まる。出力のほうが高いのが普通
- 無料プランの上限も、コンテキストウィンドウの「机の広さ」も、ぜんぶトークンで測られている
「100万トークン」も「上限に達しました」も、正体は同じ AIの最小ブロック。AIサービスの料金表や仕様を見るとき、この単位が分かっていると どれくらい使えるのか・いくらかかるのか が一気に読めるようになります 🌱