概要
DeepSeek-OCRは、2025年10月にDeepSeek AIが発表した画期的な研究で、従来の光学文字認識(OCR)を「大規模言語モデル(LLM)のコンテキスト圧縮手段」として再定義したものです。その核心技術である「コンテキスト光学圧縮」により、テキストを画像に変換し10倍圧縮で97%の精度を維持しながら、実質的には20倍圧縮でも約60%の精度を確保できることを実証しました。本技術はLLMが直面する根本的な課題である二乗則計算複雑性を回避する革新的なアプローチを提供します。[1][2]
第1部:技術課題の背景
LLMが抱える計算複雑性の壁
言語モデルの自己注意機構(self-attention)は計算複雑性が $$O(n^2)$$ です。これは入力トークン数 n に対して計算コストが n の二乗で増加することを意味します。例えば、テキストが2倍になれば、計算コストは4倍になり、メモリ消費も4倍になってしまいます。[3]
このため、多くのLLMは以下のような制限を抱えています:[3]
- GPT-4Oのコンテキスト長:128,000トークン
- Gemini 1.5のコンテキスト長:100,000~1,000,000トークン
- LLaMA 3のコンテキスト長:8,000トークン
長文処理の需要が高まる中、この二乗則の壁は深刻な障害となっています。DeepSeek-OCRの革新性は、この問題に対して異なるモダリティ(画像)への変換という創造的な解決策を提案した点にあります。[4]
第2部:DeepSeek-OCRの技術アーキテクチャ
システム全体構成
DeepSeek-OCRは2つの主要コンポーネントで構成されます:[2][1]
- DeepEncoder(ビジョンエンコーダー):画像をコンパクトなビジョントークンに圧縮
- DeepSeek3B-MoE-A570M(デコーダー):ビジョントークンをテキストに復号
DeepEncoderの革新的設計
DeepEncoderは高解像度入力でも低いメモリアクティベーションを保ちながら高圧縮率を実現する巧妙な段階的圧縮アーキテクチャです。[1]
構造的特徴
DeepEncoderは以下の要素から構成されます:[5][1]
- SAM-base(80M パラメータ):Segment Anything Modelの軽量版。ウィンドウドアテンション(windowed attention)で高解像度画像を段階的に処理。各ウィンドウは局所的なパッチの関係を効率的に学習します。[6]
- 16倍畳み込み圧縮モジュール:処理中間のトークンを機械的に1/16に削減。例えば4,096個のトークンが256個まで圧縮されます。[5]
- CLIP-large(300M パラメータ):OpenAIのビジョン言語モデル。グローバルアテンション(global attention)で画像全体を俯瞰的に処理。圧縮済みトークンから全体の意味を抽出します。[1]
処理パイプライン
メモリ効率化の鍵は軽い処理→圧縮→重い処理の順序にあります:[7]
- SAM-baseで高解像度画像を小さなウィンドウで軽く処理(低メモリ)
- 畳み込み圧縮で1/16に削減(トークン削減)
- CLIP-largeでグローバルコンテキストを処理(効率的)
この順序により、1024×1024の高解像度入力でも最終的に256トークンの少数に抑えられます。従来のアプローチ(高解像度→全処理)ではメモリが爆発的に増加するため、この段階的戦略は本質的に革新的です。[7]
デコーダー:DeepSeek3B-MoE-A570M
デコーダーはMixture-of-Experts(MoE)アーキテクチャを採用します:[8][1]
- 総エキスパート数:64個
- トークンあたり活性化エキスパート数:6個のみ
- 有効パラメータ:570M(全体3Bパラメータから)
- 計算効率:フルパラメータ活性化モデルと比べ大幅な削減
MoEの稀疏性(sparsity)により、圧縮されたビジョントークンから元のテキスト情報を効率的に復号できます。これは古典的なOCRの段階的パイプライン(文字検出→レイアウト解析→文字認識)をエンドツーエンド(end-to-end)で統合したものです。[8][7]
第3部:圧縮性能と精度トレードオフ
実験結果:Foxベンチマーク
Foxベンチマークは多様なレイアウトを含む文書データセットで、DeepSeek-OCRの圧縮率と精度の関係を定量的に測定しました:[1]
主要な発見
10倍圧縮での高精度実現:[1]
テキストトークン600~700個の短い文書では、64ビジョントークンで10.5倍圧縮を達成しながら96.5%の精度を維持しました。これは「ほぼ無損失圧縮」に近い性能です。[1]
圧縮率上昇に伴う精度の段階的低下:[1]
テキストトークン1,200~1,300個の長い文書では、64ビジョントークンで19.7倍圧縮時に精度が59.1%に低下します。しかし100ビジョントークンモードでは12.6倍圧縮で87.1%を保ちます。[1]
生物学的暗示:[7]
圧縮率が高まるにつれ精度が低下する現象は、人間の記憶が時間経過で曖昧になる「忘却曲線」に類似しており、このメカニズムをLLMの履歴管理に応用する可能性が示唆されています。[7]
第4部:実運用性能と競合比較
OmniDocBenchでの圧倒的性能
OmniDocBenchはリアルな文書解析タスクでの性能を測定するベンチマークです。DeepSeek-OCRは競合モデルを大幅に少ないトークンで上回ります:[5][9][1]
主要な成果:[8][5][1]
- GOT-OCR2.0との比較:256トークン必要なGOT-OCR2.0に対し、DeepSeek-OCR(Small)は100トークンのみで性能を上回ります。これは2.56倍のトークン削減です。
- MinerU2.0との比較:6,790トークンを要求するMinerU2.0に対し、DeepSeek-OCR(Gundam)は795トークン未満で性能を超過。これは8.5倍以上のトークン削減です。
- スケーラビリティ:DeepSeek-OCRは複数の解像度モードを持ち、文書の複雑さに応じた柔軟な選択が可能です。
処理速度と実運用スケーラビリティ
実運用環境での処理能力は業界標準を大幅に上回ります:[10][1]
スケーリング特性:[10][1]
- シングルA100-40Gで日間200,000ページ以上を処理可能
- 20サーバー構成(各8×A100)で日間3,300万ページを生成
これは従来のOCRシステムの数百倍から数千倍の処理速度を意味し、大規模なLLM学習データセット構築に直結します。[10]
第5部:トレーニングデータと学習戦略
多角的なトレーニングデータ構成
DeepSeek-OCRは1億6,900万件以上のサンプルで学習しており、多様なドキュメント形式をカバーします:[8][10]
トレーニング戦略の二段階プロセス
第1段階:DeepEncoder単独の学習:[11][1]
- OCR 1.0データ(PDFページ、Wordドキュメント、自然景観画像)
- OCR 2.0データ(チャート、化学式、幾何学図形)
- LAION由来の一般画像100百万枚
次トークン予測(next-token prediction)フレームワークで、軽量言語モデルを併用して学習。[11]
第2段階:完全DeepSeek-OCRモデルの学習:[11][1]
- マルチモーダルデータとテキストのみデータを混合
- パイプライン並列戦略採用
- 言語流暢性の維持と文脈モデリング能力向上
特に「Gundam-masterモード(超高解像度)」は、6百万件のサンプルでファインチューニングされた高精度バージョンです。[11]
第6部:革新的な概念提案:記憶の忘却メカニズム
圧縮の限界を利点に変えるアイデア
DeepSeek-OCRの論文は、単なる技術改善を超えた概念的提案を含みます。圧縮率が高まると精度が低下する現象を「欠陥」ではなく「特性」として再解釈しました。[7]
三層の生物学的類比
論文では、三つの異なる領域における「ぼやけ」の類似性を指摘しています:[7]
- メモリー:人間の記憶が時間経過で曖昧になる
- ビジョン:人間の視覚は距離が離れるとぼやける
- テキスト:DeepSeek-OCRの圧縮率上昇で精度が低下
LLM対話履歴への応用提案
このメカニズムをLLMの長文コンテキスト管理に応用する可能性が示唆されています:[7]LLM対話履歴の管理戦略: - 最近の会話:高解像度で高精度に保持 - 中程度の履歴:段階的に解像度低下 - 古い履歴:低解像度で圧縮保存 結果: - 理論上、無制限のコンテキスト長を効率的に管理可能 - 人間の記憶システムを模倣した自然な忘却プロセス
この提案は、LLMとVLM(Vision Language Model)の関係性そのものを変える可能性を秘めています。[7]
第7部:技術的限界と課題
研究の制限事項
DeepSeek-OCRは有望な成果を上げていますが、自身の限界も明示しています:[7]
- 検証範囲の限定:OCRタスクのみでの検証であり、真の「LLM長文コンテキスト圧縮」をまだ完全には実証していない。[7]
- 精度低下の限界:10倍超の圧縮では精度が大幅に低下し、複雑なレイアウトや高解像度が必要な文書では性能が制限される。[7]
- メモリ効率化の必要性:超高解像度処理時のメモリ使用量最適化が今後の課題。[7]
推奨される対処方法
論文は以下の解決策を提案しています:[7]
- デジタルテキストと光学圧縮を組み合わせた事前学習
- Needle-in-Haystackテストによる実用性検証
- 動的解像度調整機能の強化
第8部:既存技術との比較
従来のビジョンエンコーダーの課題
DeepSeek-OCRが提案する段階的圧縮設計は、既存アプローチの弱点を回避しています:[7] アプローチ 課題 DeepEncoderの利点 Vary(デュアルタワー方式) 前処理が2回必要、デプロイが複雑 統合エンドツーエンド処理 InternVL(タイル方式) 画像を細かく刻むのでトークン爆発 段階的圧縮で効率化 Qwen2-VL(適応解像度方式) 高解像度でメモリ爆発的増加 低メモリアクティベーション維持
DeepEncoderは「高解像度」と「低メモリ」という一見矛盾する要件を、処理順序の工夫で両立させた「第3の道」を示しました。[5][7]
第9部:関連研究との位置付け
先行研究との関係性
論文で引用されている関連技術:
- GOT-OCR2.0、InternVL、Qwen-VL:エンドツーエンドOCRモデルとして検証対象
- Vary、NaViT:ビジョンエンコーダ研究の先行例
- SAM(Segment Anything Model):本研究の基礎となるビジョン基盤モデル
DeepSeek-OCRの独自性は、ビジョントークン削減と計算効率向上に特化し、従来の「性能向上」追求とは異なる圧縮率と精度のトレードオフを定量化した点にあります。[7]
第10部:将来への影響と応用展望
直近の実用応用
- LLM学習データセット構築:日間200万~3,300万ページの自動抽出で、大規模データセット生成を加速。[1][10]
- 長文ドキュメント処理:金融報告書、法律文書、学術論文などの効率的な処理。[1][5]
- マルチモーダルAI開発:ビジョントークン最適化の新しい指針提供。[1]
中長期の戦略的意味
LLMの根本的な限界への対処:[1][7]
- 二乗則計算複雑性の回避方法提示
- 記憶・忘却メカニズムの理論的基盤構築
- テキスト→画像への情報表現の効率性実証
AIシステムアーキテクチャの変革:[5][1]
従来のテキスト中心のパイプラインから、マルチモーダル情報統合への転換。画像表現がテキストより情報密度が高い可能性を実証しました。
学術的な新地平
DeepSeek-OCRは、単なるOCR改良ではなく、以下に関する新しい研究方向を開きました:[1][7]
- ハイブリッド文字-画像モデリング
- 効率的な長文コンテキスト処理アーキテクチャ
- 生物学的記憶メカニズムのAI実装
結論
DeepSeek-OCRは、光学文字認識技術の範囲を大きく超えた、LLMの根本的な計算複雑性問題に対する創新的なアプローチです。10倍圧縮で97%精度を維持する技術的成果は、競合他社を圧倒する効率性を示しています。
より重要な点は、圧縮の限界を記憶の忘却メカニズムとして再解釈し、LLMの長文コンテキスト管理に応用する可能性を提示したことです。これはAIシステム全体の設計理念に影響を与える可能性を秘めています。
オープンソース化により、研究者やエンジニアがこの技術を自由に検証・応用できる環境も整備されました。今後、DeepSeek-OCRの手法が、より広い領域でのマルチモーダルAI効率化の基準となることが期待されます。
参考資料
情報源
[1] DeepSeek-OCR: Contexts Optical Compression https://arxiv.org/html/2510.18234v1
[2] DeepSeek-OCR: Contexts Optical Compression https://www.arxiv.org/abs/2510.18234
[3] Context Length in LLMs: What Is It and Why It Is Important? https://datanorth.ai/blog/context-length
[4] DeepSeek-OCR Teaches AI to Speed Read and Solves LLM’s … https://techsoda.substack.com/p/deepseek-ocr-teaches-ai-to-speed
[5] DeepSeek AI Unveils DeepSeek-OCR: Vision-Based … https://www.infoq.com/news/2025/10/deepseek-ocr/
[6] Segment Anything: Automated Labeling With Foundation … https://www.labellerr.com/blog/segment-anything-automated-labeling-with-foundation-model/
[7] DeepSeek-OCRの衝撃!精度を保ちつつテキストを画像化して10分の1に圧縮(2510.18234)【論文解説シリーズ】 https://www.youtube.com/watch?v=eGZKqkFzh9M&si=yaGazr_S9iPM79qJ
[8] DeepSeek’s new AI model can generate 200K pages of … https://indianexpress.com/article/technology/artificial-intelligence/deepseek-new-ai-model-generate-200k-pages-training-data-single-gpu-10318599/
[9] DeepSeek-OCR: Contexts Optical Compression https://huggingface.co/papers/2510.18234
[10] Deepseek’s OCR system compresses image-based text so AI … https://the-decoder.com/deepseeks-ocr-system-compresses-image-based-text-so-ai-can-handle-much-longer-documents/
[11] DeepSeek Achieves Significant Breakthrough https://eu.36kr.com/en/p/3517473609718916
[12] DeepSeek-OCR: How Optical Compression Redefines … https://intuitionlabs.ai/articles/deepseek-ocr-optical-compression
[13] Understanding DeepSeek OCR 7x Token Reduction https://sparkco.ai/blog/understanding-deepseek-ocr-7x-token-reduction
[14] Deepseek OCR : High Compression Focus, But Is the Core … https://www.reddit.com/r/MachineLearning/comments/1oedumd/deepseek_ocr_high_compression_focus_but_is_the/
[15] DeepSeek-OCR: Revolutionary Context Compression … https://deepseek.ai/blog/deepseek-ocr-context-compression
[16] VisionThink: Smart and Efficient Vision Language Model … https://arxiv.org/abs/2507.13348
[17] DeepSeek drops open-source model that compresses text … https://venturebeat.com/ai/deepseek-drops-open-source-model-that-compresses-text-10x-through-images
[18] The Innovations in DeepSeek OCR : r/LocalLLaMA https://www.reddit.com/r/LocalLLaMA/comments/1obn0q7/the_innovations_in_deepseek_ocr/
[19] DeepSeek-OCR: Contexts Optical Compression https://papers.cool/arxiv/2510.18234
[20] DeepSeek OCR: Smarter, Faster Context Compression for AI https://www.clarifai.com/blog/deepseek-ocr/
[21] Are pixels better inputs to LLMs than text? https://news.ycombinator.com/item?id=45658928
[22] DeepSeek-OCR Launch: How It Changes Document … https://skywork.ai/blog/ai-agent/deepseek-ocr-launch-document-ai-2025/
[23] Clarifying Prior Research on Visual Compression of … https://huggingface.co/deepseek-ai/DeepSeek-OCR/discussions/18
[24] ‘vision-text compression’ uses up to 20 times fewer tokens https://www.tomshardware.com/tech-industry/artificial-intelligence/new-deepseek-model-drastically-reduces-resource-usage-by-converting-text-and-documents-into-images-vision-text-compression-uses-up-to-20-times-fewer-tokens
[25] deepseek-ai/DeepSeek-OCR https://huggingface.co/deepseek-ai/DeepSeek-OCR
[26] Modifying DeepSeek-OCR (2510.18234) into an Instruction … https://www.reddit.com/r/LocalLLaMA/comments/1odax0g/feasibility_check_modifying_deepseekocr_251018234/
[27] Exploring Ways to Extend Context Length in Transformers https://muhtasham.github.io/blog/posts/explore-context/
[28] Altering Inference Cost of Vision Transformer without Re- … https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/02429.pdf
[29] Segment Anything Model (SAM) – The Complete Guide https://viso.ai/deep-learning/segment-anything-model-sam-explained/
[30] Efficient Token Compression for Vision Transformer with … https://arxiv.org/html/2503.23455v1
[31] Exploring Improvements in Meta’s Segment Anything Model https://arxiv.org/html/2408.06305v1
[32] In the long (context) run – Harm de Vries https://www.harmdevries.com/post/context-length/
[33] Progressive Visual Token Compression for Unified Image and … https://openaccess.thecvf.com/content/CVPR2025/papers/Yang_PVC_Progressive_Visual_Token_Compression_for_Unified_Image_and_Video_CVPR_2025_paper.pdf
[34] Meta AI’s Segment Anything Model (SAM) Explained https://encord.com/blog/segment-anything-model-explained/
[35] GSM-∞: How Do Your LLMs Behave over Infinitely … https://arxiv.org/html/2502.05252v1
[36] UCC: A unified cascade compression framework for vision … https://www.sciencedirect.com/science/article/abs/pii/S0925231224015182
[37] Adapting segment anything model for medical image … https://www.sciencedirect.com/science/article/pii/S1361841525000945
[38] Quadratic Complexity in LLMs: Why AI Struggles with Long … https://nat.io/blog/quadratic-complexity-llms
[39] VTC-LFC: Vision Transformer Compression with Low … https://proceedings.neurips.cc/paper_files/paper/2022/hash/5a8177df23bdcc15a02a6739f5b9dd4a-Abstract-Conference.html
[40] Segment Anything | Meta AI https://segment-anything.com
[41] InftyThink: Breaking the Length Limits of Long-Context … https://www.arxiv.org/pdf/2503.06692.pdf
[42] DiffRate : Differentiable Compression Rate for Efficient Vision … https://openaccess.thecvf.com/content/ICCV2023/papers/Chen_DiffRate__Differentiable_Compression_Rate_for_Efficient_Vision_Transformers_ICCV_2023_paper.pdf
[43] A Comprehensive Survey on Segment Anything Model for … https://github.com/liliu-avril/Awesome-Segment-Anything
[44] Why do all LLMs have a very limited output context? https://www.reddit.com/r/ArtificialInteligence/comments/1bqshfe/why_do_all_llms_have_a_very_limited_output_context/
[45] How DeepSeek rewrote Mixture of Experts (MoE)? https://www.youtube.com/watch?v=KnSIZ83iPKs
[46] Deep Seek OCR Condenses Charts and Code … https://www.nextbigfuture.com/2025/10/deep-seek-ocr-condenses-charts-and-code-and-reduces-tokens-per-image-by-20x.html
[47] Mixture of Neuron Experts https://arxiv.org/pdf/2510.05781.pdf
[48] DeepSeek and the Power of Mixture of Experts (MoE) https://dev.to/sayed_ali_alkamel/deepseek-and-the-power-of-mixture-of-experts-moe-ham
[49] Can Forgetting Be the Secret to Better AI Memory? https://www.instagram.com/reel/DQHJ5n2DkzX/
[50] DeepSeekMoE: Towards Ultimate Expert Specialization in … https://arxiv.org/abs/2401.06066
[51] DeepSeek OCR In-Depth Analysis: A New Paradigm for … https://skywork.ai/skypage/en/deepseek-ocr-text-recognition/1980822860916920320
[52] Understanding DeepSeek AI: The Mixture-of-Experts … https://www.remio.ai/post/understanding-deepseek-ai-the-mixture-of-experts-technique-and-its-impact-on-resource-optimization
[53] Why DeepSeek-OCR Is a Compression Game-Changer … https://resources.opencraftai.com/blog/why-deepseek-ocr-is-a-compression-game-changer-not-just-ocr/
[54] Mixture of Experts with Sparse Attention vs A … https://www.youtube.com/watch?v=f_zJ2Bs3qC0
[55] DeepSeek-OCR https://www.alphaxiv.org/models/deepseek/deepseek-ocr
[56] DeepSeek Just Released a 3B OCR Model https://www.marktechpost.com/2025/10/20/deepseek-just-released-a-3b-ocr-model-a-3b-vlm-designed-for-high-performance-ocr-and-structured-document-conversion/

