在深度学习技术逐渐成熟的背景下,基于深度学习的图像处理也在数学公式识别中有所运用。目前较为成熟的软件为Mathpix公式识别软件,但其免费版本仅仅支持每月识别50条公式,本文记录GitHub上的开源项目LaTeX-OCR(地址:https://github.com/lukas-blecher/LaTeX-OCR)在Ubuntu系统下的安装与使用,该项目基于Pytorch深度学习框架。
按照项目主页的流程基本可以安装成功,本文简要记录安装过程,如何使用已经训练好的模型,及安装中出现的问题。
本文的Python环境为3.8。根据项目主页上的信息,下载训练好的模型权重文件
weights.pth、image_resizer.pth放checkpoints文件夹下。
1,下载项目源码并解压
2,cd
到解压目录下,安装项目依赖库
pip install -r requirements.txt
3,pix2tex.py
实现将图片转换为LaTeX代码,先尝试将该代码运行。在本次安装过程中,出现如下错误:
ImportError: tokenizers>=0.10.1,<0.11 is required for a normal functioning of this module, but found tokenizers==0.9.4.
Try: pip install transformers -U or pip install -e '.[dev]' if you're working with git master
解决方法为:
pip install transformers -U
当安装成功后,会出现如下的交互界面:
4,接下来尝试运行有界面的程序gui.py
.
输入下列命令
python3 gui.py
发现存在下列错误:
Traceback (most recent call last):
File "gui.py", line 6, in <module>
from PyQt5.QtWebEngineWidgets import QWebEngineView
ImportError: /lib/x86_64-linux-gnu/libQt5Core.so.5: version `Qt_5.15' not found (required by /home/min/.local/lib/python3.8/site-packages/PyQt5/QtWebEngineWidgets.abi3.so)
此时的解决方案为:
pip install PyQtWebEngine
运行成功后效果如下:
主要是截图并识别公式为LaTeX公式。
本文试验发现:
1,该程序对常见的运算符、希腊字母等能够准确识别出来,对于不常见的识别结果不佳,因此需要针对性制作数据集并对网络进行训练。
2,背景颜色为白色的公式识别成功率高点。
3,对向量、矩阵的识别还有待提升。
本文仅记录安装及使用方法,关于如何训练模型,后面用到再记录。
转载请注明:XAMPP中文组官网 » ubuntu下运行Latex-OCR数学公式识别代码