两周复刻DeepSeek-OCR！两人小团队还原低token高压缩核心，换完解码器更实用

周大发表于前天 15:50

两名研究人员在两周内成功复刻了引发广泛关注的DeepSeek-OCR，推出开源模型DeepOCR。该模型通过将文本渲染为图像实现高效压缩，仅用约250个视觉token即可表达需数千文本token的内容，压缩比达7-20倍，10倍压缩下准确率仍达97%。其采用“局部-压缩-全局”三阶段架构，在2张H200 GPU上即可完成训练，显著降低算力门槛。实测显示，其在英文识别与表格解析任务中接近甚至优于原版，尽管复杂任务仍有差距，但已验证视觉压缩路径的有效性。
来源：https://mp.weixin.qq.com/s/hZOHtoUm2DTg8C13dO-RrA

		自动登录	找回密码
密码			立即注册

课程导航

两周复刻DeepSeek-OCR！两人小团队还原低token高压缩核心，换完解码器更实用