Linux対応のスキャナとOCR

1 ：06/08/23 ～最終レス：11/10/08: 語ってください。

2 ：: Linuxで使えるプリンタ／スキャナ
http://pc8.2ch.net/test/read.cgi/printer/1133548494/
プリンタの設定ができずに困っている人々
http://pc8.2ch.net/test/read.cgi/linux/1029898072/
3 ：: 日本語OCR　激しく欲する
4 ：: 日本語OCR　無いの？
5 ：: オープンソースのOCRは、まだアルファベットの精度も厳しい状態らしいもんなぁ。
こういう分野こそIPAにしてほしいよ。
6 ：: オープンソースじゃなくてもいいから
PDFファイルに日本語OCRをして透明テキスト追加ができれば　
多少値段が張っても買う
7 ：: ソースネクストにお願いして発売してもらおう。
8 ：: パクリ元が無いからソースネクストじゃ無理だろw
9 ：: ocrの認識エンジンってやっぱり複雑なの？
フリーソフトの域じゃ無理かねぇ。
10 ：: >7
ttp://www.google.co.jp/search?sourceid=navclient&hl=ja&ie=UTF-8&rls=GGLG,GGLG:2005-39,GGLG:ja&q=SmartOCR
複雑さつーか、ノウハウそのものがやたら知られてる訳じゃないような。
関連特許も多そうだし。
ttp://www.hino.meisei-u.ac.jp/ee/shima/index.files/shima_Patent.html
11 ：: OCRATが良さそうですな。
12 ：: 日本語OCRを誰かさっさと作りやがれ！！
13 ：: よーし、パパがんばっちゃおうかな！！
・・・無理っす。
14 ：: 今までの方式を再現するより、CPUとメモリを贅沢に使うことを前提に
愚直なアルゴリズムを実装したほうがうまくいくような気がする。
15 ：: >>14
kwsk
16 ：: >>15
それが人にものを頼む態度か。
17 ：: >>14
くわしく
18 ：: ocrﾎｼｽorz
19 ：: HPが開発した“お蔵入り”OCRエンジンをGoogleがオープンソースで公開
ttp://opentechpress.jp/article.pl?sid=06/09/06/0958244
20 ：: 移植よろ
21 ：: OCR無いんじゃ、メインマシンとして使えんがな。
22 ：: 漏れはOCR使いたいから、Winとデュアルブートにしてる。
23 ：: 奈良先端大の図書室にはｽｷｬﾅｰがあるようですね
今月のUNIXﾏｶﾞにでてましたけど
OCRはWinっぽいです
PDF化してDBに突っ込むのかな？
ぱっと見なんで読んでないですｗ
Epsonは作ってくれないのかねぇ～（ソフトは別会社か）
24 ：: さっさと移植しろよ、ｺﾞﾙｧ
25 ：: スレッド保守カキコ。
所有スキャナ
GT-9700F
26 ：: >>19
CentOS4.4に入れてみた。見事にハングする。
BTSにFC3で死ぬって書いてあるから同じなんだろうな。
27 ：: 昔gocrとかあったなぁ・・・
・文章領域推定
・背景分離
・文字認識
がOCRの基本３技術だと思うけど、それぞれどんな感じなの？
いま問題になっているのはどこ？
28 ：: 日本語の文字認識って、特に難しいんだと思う。
一とーとか、二とニとか、しとレとか、Winでもできの悪いOCRだとボロボロになる。
29 ：: wineでエミュできるまともな日本語OCRってあったら教えてたもれ。

30 ：: Windows使えよ
31 ：: >>30
てめーが使ってろ
32 ：: OMRONがOmCRでも移植してくれればなぁ。
33 ：: オ、オムロンって血圧計の・・・・？
34 ：: それ以外にオムロンってある？
35 ：: >>33
自動改札だってオムロンだろう。
学生で企業の産業分野BUは見えないにしてもプロジェクトX位見てるだろう？
36 ：: 自動改札みたいな組み込み出さなくても、
オムロンソフトウェアは翻訳魂とかLinux用の
パッケージソフトをいくつか出してたんだが。
うちでは今でも現役だぞ。> 翻訳魂
37 ：: 電動工具のリョービがなんでフォント売ってんだよっていう疑問もある。
38 ：: 釣具も売ってるよ！
39 ：: 俺にとってオムロンはモデムだった
40 ：: >>38
釣具部門はもう売られただろ、確か。
41 ：: 釣具はやっぱりシマノ
42 ：: オムロンは音声合成もやっとるよ～
43 ：: こんな自信のあるやつみたことない、、、、
　　↓↓↓↓↓↓↓↓↓↓↓↓↓↓
http://heisasimasita.blog.shinobi.jp/
44 ：: 閉鎖ってなってるよ
45 ：: そろそろ有志による開発が始まろうとしている
46 ：: mac対応ソフトはあるのに
47 ：: ocrってなんの略？
48 ：: >>47
http://linux2ch.is.land.to/index.php?OnlineDictionaries
49 ：: OぷてぃCaRu
50 ：: OnlineChineseRelationship
51 ：: i am chicken.
52 ：: Ｏ・Ｃ・Ｒ！
Ｏ・Ｃ・Ｒ！
53 ：: 読んでココ！
54 ：: だが断る
55 ：: なあに、かえって免疫力がつく。
56 ：: 誰か開発しろって言ってるだろ、ボケがぁ！！
57 ：: 欧米語用だけど、ocradはほぼ100%の認識で便利に使えた
最適なdpiを探るのにちょっと時間がかかったけど
日本語用のOCRを激しく希望
58 ：: Wineで使えるか試してみよう。そうしよう。
59 ：: ウチのスキャナはxsaneが対応してないす・・・

60 ：: >>59
それはMSの陰謀だからxsaneが悪いわけじゃないし、普及すれば良くなるよ。
61 ：: >>56『追加』/debian-base.で個人使用、OS.の開発を考えて居るﾋﾟｮぞ¿...ｺﾁﾗｵﾝｼﾝﾌﾂｳﾃﾞｽ…
62 ：: 　　　　 ,..♪
　ヾi、ヽ.i
　(,.ф ￠ф)　 зξι　ﾋﾟｮﾋﾟｮっと
　ミ,.＇.ノ
/￣″￣　・・・>>61『追加』/嗚呼¿...ｺﾉｽﾚﾆｶﾝｹｲﾅｶｯﾀｶ+ｺﾁﾗｵﾝｼﾝﾌﾂｳﾃﾞｽ
63 ：: 期待してきたスレなのに過疎ってるなぁ。
tesseract使ってみた。(HP起源ののGoogle系)
俺の場合はocradより精度よかった。
ただ、数字しか用事ないんだけど3を5と勘違いする確率が高い。
トレーニングすることで精度上がるみたいだけど、
だれかやったことある人いたら教えて。
TrainingTesseract - tesseract-ocr - Google Code
http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract
64 ：: にぽんごがつかえないとイミないヨ
65 ：: 日本語ocr
orz
66 ：: orz
67 ：: VMWareでゲイツOS動かして（ry
68 ：: ド素人が
ＳＣＳＩ接続のスキャナーを
にんしきさせるのは
むずかしいですか？
69 ：: DVD番KNOPPIXで起動してgimp起動してみる。
運よければ認識する。
70 ：: >>68
昔はUSB接続のスキャナよりもSCSI接続の方が遙かに簡単だったけど。
71 ：: saneでサポートされている機種ならなんにもしなくて認識すると思う。
サポートされてない機種は難しい。
USBでもSCSIで同じだと思う。
72 ：: まだあったのか、このスレ・・・
73 ：: fedora core 8 に入っているデバイスドライバで対応しているスキャナの一覧知りたい
74 ：: エプソンの古いスキャナはエプソンコーワがドライバを出してたので
相性が良さそうに思う。
それ以外はお金払ってVueScanを使うとよいと思う。
こいつのおかげで拾ってきたフィルムスキャナが使えて大喜び。
75 ：: >>73
http://www.sane-project.org/sane-mfgs.html
おおよそこれ
FC8には入ってなくて上の一覧にあったら自前でコンパイル
FC8ならまだアップデート来るだろうけど
76 ：: 　　　　　　　http:// ; ?????????
　　　　　http:// ; 　????????????
http://?;??????????? ?　　　　　??
http://?;?????????? 　?　　　　　　??
http://?;?■??■?　　?　　　　　 ? 　?
　　　　　　　　　　 ▲?? 　　　　　? ???
　　　　　　　　　　?? ?????　 ???? ??
　　　　　　　　　　　?▲ ?　??　???
　　　　　　　　　????? ???▲?
　　　　　　　　????　??? 　??　????????
http:// ;?????????　?　　　??????? 　　　 ??
http://?;?????? ???　　　　　　?　　　　　 ???
http:// ???　??????　　　　???　　　 ???　???
http://?;???????? ????　　?　???　　?　??▼
http://?;??????? 　　? 　　 ???　　　　?　 ??
77 ：: とりあえずこれだけは言える。
俺の人生にはいいことはなかったし、これからもない。
78 ：: Linuxは普及しないと思いました。
79 ：: http://sourceforge.jp/forum/forum.php?forum_id=18640
NHocrのソースコードを初公開 (ver 0.16(beta))
投稿者: hgot
日付: 2009-05-15 18:56
日本語文字認識プログラムNHocrのソースコードを初公開しました (ver 0.16(beta))。
Solaris SPARC/x86, Linux (x86_64)上で動作確認済みです。OCRopusからの呼び出し
が可能です。文字行認識部がライブラリ化されており、自作プログラムからの利用も
容易です。
80 ：: OCRって使わないほうがいいのかなと最近思う。
認識ミスはかならず起こるから、結局人間の目で検査することになるよね。
ところが似たような形ゆえに誤認識してるわけだから間違い探しが大変。
81 ：: スキャン→OCR→青空文庫テキスト化のノウハウをまとめた文章があってそれによれば
誤認識しやすい文字はエディタで文字色を変えて検査するとかの方法があるらしい
誤認識しやすい文字は
ttp://www.siesta.co.jp/aozora/archives/002740.html
82 ：: >>79
これいいですね。
試しに使ってみましたが、Windowsで認識率No.1を誇る本格読取の約200倍の
認識精度でした。
取り扱いも容易だし、このためだけにLinuxを導入する場合も出てくるのでは
ないでしょうか？
キラーアプリと言って差し支えないと思います。
83 ：: >>82
つまり、本当は、使い物にならないレベルってこと？
84 ：: 市販品には勝てんな。
85 ：: >>81
市販のに追いつくのは無理だと思う。
86 ：: 自分で作るしかないな。
87 ：: >>85
学習が進むと市販製品より3桁精度が上がるぞ。
88 ：: 自炊を前提にした一括スキャン・PDF化はLinuxじゃできないのか…
本1冊くらいなら根性で何とかなりそうだが、
本棚まるまる自炊は現実的じゃなさそうだな
89 ：: 読取革命のOCRはWineで動いたよ。
スキャナからの直接読み取りはできないし、メニューも文字化けしたけど。
Linux側のスキャンソフトでスキャンしたあと、読取革命にシェルスクリプトで
渡せそうな気もするが、そこまで試してはいないけどね。
90 ：: Googleが開発してるやつが日本語対応してるよ。
91 ：: DR-150のドライバの更新まだー
92 ：: >>91
昔saneの作者宛てに実機送れ(寄贈)ばドライバ書いてくれるって見たことがある。
送ってみれば？
93 ：: >>92
いっぱい送られてきたら作者は邪魔じゃないのか
着払いで送り返してもらった方が、お互い幸せなんじゃないか
94 ：: gscan2pdfのOCR機能をtesseract-ocrで日本語認識できるようにしてみた
以下いい加減なパッチ
*** gscan2pdf 2011-10-08 05:36:43.218863368 +0900
--- /home/pcadmin/デスクトップ/gscan2pdf 2010-08-11 17:39:58.000000000 +0900
***************
*** 153,159 ****
use Archive::Tar; # For session files
use Sane;
use PDF::API2;
- use PDF::API2::Resource::CIDFont::CJKFont;
use Getopt::Long;
use
Set::IntSpan 1.10; # For page numbering issues. 1.10 required for size method
--- 153,158 ----
***************
*** 223,229 ****

# Set LC_NUMERIC to C to prevent decimal commas (or anything else) confusing
# scanimage
! setlocale( LC_NUMERIC, "ja_JP.UTF-8" );
if ($debug) {
print "Using ", setlocale(LC_CTYPE), " locale\n";
print "Startup LC_NUMERIC ", setlocale(LC_NUMERIC), "\n";
95 ：: 逆だった
*** /home/pcadmin/デスクトップ/gscan2pdf 2010-08-11 17:39:58.000000000 +0900
--- gscan2pdf 2011-10-08 05:36:43.218863368 +0900
***************
*** 153,158 ****
--- 153,159 ----
use Archive::Tar; # For session files
use Sane;
use PDF::API2;
+ use PDF::API2::Resource::CIDFont::CJKFont;
use Getopt::Long;
use
Set::IntSpan 1.10; # For page numbering issues. 1.10 required for size method
***************
*** 222,228 ****

# Set LC_NUMERIC to C to prevent decimal commas (or anything else) confusing
# scanimage
! setlocale( LC_NUMERIC, "C" );
if ($debug) {
print "Using ", setlocale(LC_CTYPE), " locale\n";
print "Startup LC_NUMERIC ", setlocale(LC_NUMERIC), "\n";
96 ：: ***************
*** 2730,2735 ****
--- 2731,2737 ----
send( $parent, '0' . $d->get('Setting up PDF'), 0 );
my $pdf = PDF::API2->new( -file => $filename );
$pdf->info( get_PDF_options() );
+ $pdf->cjkfont('KozMin');

foreach (@pagelist) {
++$page;
***************
*** 2854,2860 ****
# Add OCR as text behind the scan
if ( defined( $slist->{data}[$_][3] ) ) {
print "Embedding OCR output behind image\n" if $debug;
! my $font = $pdf->corefont('Times-Roman');
my $text = $page->text;
my $canvas = $slist->{data}[$_][3];
my $root = $canvas->get_root_item;
97 ：: --- 2856,2863 ----
# Add OCR as text behind the scan
if ( defined( $slist->{data}[$_][3] ) ) {
print "Embedding OCR output behind image\n" if $debug;
! # my $font = $pdf->corefont('Times-Roman');
! my $font = $pdf->cjkfont('KozMin');
my $text = $page->text;
my $canvas = $slist->{data}[$_][3];
my $root = $canvas->get_root_item;
***************
*** 11073,11079 ****
$cmd = "$pre tesseract $tif $txt -l $SETTING{'ocr language'}$post";
}
else {
! $cmd = "$pre tesseract $tif $txt$post";
}
}
elsif ( $SETTING{'ocr engine'} eq 'ocropus' ) {
98 ：: --- 11076,11082 ----
$cmd = "$pre tesseract $tif $txt -l $SETTING{'ocr language'}$post";
}
else {
! $cmd = "$pre tesseract $tif $txt -l jpn $post";
}
}
elsif ( $SETTING{'ocr engine'} eq 'ocropus' ) {
***************
*** 11278,11283 ****
--- 11281,11287 ----
deu => $d->get('German'),
'deu-f' => $d->get('German (Fraktur)'),
eng => $d->get('English'),
+ jpn => $d->get('Japanese'),
fra => $d->get('French'),
ita => $d->get('Italian'),
nld => $d->get('Dutch'),
99 ：: ***************
*** 11318,11324 ****
}

# If there are no language files, then we have tesseract-1.0, i.e. English
! push @tesslang, [ undef, $d->get('English') ] if ( !@tesslang );

my $combobox = combobox_from_array(@tesslang);
combobox_set_active( $combobox, $SETTING{'ocr language'}, @tesslang );
--- 11322,11328 ----
}

# If there are no language files, then we have tesseract-1.0, i.e. English
! push @tesslang, [ undef, $d->get('Japanese') ] if ( !@tesslang );

my $combobox = combobox_from_array(@tesslang);
combobox_set_active( $combobox, $SETTING{'ocr language'}, @tesslang );
100read 1read
1read 100read TOP カテ一覧スレ一覧削除依頼 ▲ ・　次のスレ なにはともあれSLAX GoogleEarthについて語るスレ in Linux板 【ショック】女性開発者がいないOTL 【GNOME】 【HELP】会社のWeb鯖がWindowsになりそうです