图片转文字,视频转文字,音频转文字教程

2020-05-06 宋洋葱 宋洋葱

图片转文字

即图片ocr识别,使用超轻量级中文ocrchineseocr_lite识别文字(支持竖排文字识别)。

视频转文字

先使用FFmpeg,FFmpeg是用于处理多媒体内容(例如音频,视频,字幕和相关元数据)的库和工具的集合。使用教程参考ffmpeg常用操作,把视频转成音频。

然后使用基于深度学习的中文语音识别系统ASRT_SpeechRecognition,把音频转为文字。具有相似功能的开源项目还有masr

install ffmpeg on centos 7

先添加RPM Fusion,如果是centos8请替换相应链接。

sudo yum localinstall --nogpgcheck https://download1.rpmfusion.org/free/el/rpmfusion-free-release-7.noarch.rpm sudo yum localinstall --nogpgcheck https://download1.rpmfusion.org/nonfree/el/rpmfusion-nonfree-release-7.noarch.rpm

然后安装ffmpeg

yum install ffmpeg ffmpeg-devel
ffmpeg -version
# ffmpeg version 3.4.7 Copyright (c) 2000-2019 the FFmpeg developers

下载asrt

unzip ASRT_v0.6.1.zip
cd ASRT_v0.6.1

使用pip安装python所需依赖

# vi requirements.txt
python_speech_features
TensorFlow=1.12
Keras
Numpy
wave
matplotlib
math
Scipy
h5py
http
urllib
#  pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install -r requirements.txt -i https://pypi.douban.com/simple/

pip install -i https://pypi.douban.com/simple/ TensorFlow=1.0

docker run -dit -p 8080:8080 -v /home/idb/chineseocr_lite:/data/ --name chineseocr vitzy/chineseocr_lite