1read 100read
2013年02月ソフトウェア125: 【トリップ検索】MERIKEN's Tripcode Finder その2 (512) TOP カテ一覧 スレ一覧 2ch元 削除依頼
秀丸エディタスレ Part35 (247)
Mozilla Firefox質問スレッド Part142 (583)
○○●Media Go 2nd●○○ (610)
アウトラインプロセッサ 「NanaTerry」 (779)
【仮想化】VMware/VBox/KVM/Xen 2【徹底比較】 (516)
TCPMP CorePlayer BetaPlayer 04 (404)

【トリップ検索】MERIKEN's Tripcode Finder その2


1 :2013/01/20 〜 最終レス :2013/02/11
こちらはMERIKEN's Tripcode Finderの本スレです。動作報告・質問・要望等は
こちらでどうぞ。
MERIKEN's Tripcode Finder(旧CUDA SHA-1 Tripper MERIKEN's Branch)は
2013年1月現在で最速の12桁トリップ検索プログラムです(最高速の記録は
7428.97M tripcodes/s)。CUDA対応のNVIDIAのビデオカード、もしくは
AMD Radeonシリーズのビデオカード等のOpenCL対応デバイスを使用すれば
非常に高速に検索を行うことができます。特徴は以下の通りです。
・ビデオカードのGPUによる超高速検索。
・CPUによる高速検索。
・GUIとCUIの両方に対応した柔軟なユーザーインターフェース。
・正規表現によるターゲットの指定。
・漢字等のShift-JIS文字を含むキーの探索。
・ヒット率、ヒットまでの平均時間等のさまざまな情報の表示。
・ターゲットの数の制限の撤廃。
・10桁トリップ検索への暫定的対応(CPUとNVIDIAのビデオカードのみ)。
・検索速度の実行時の最適化。
・GPLv3で公開されたソースコード。
■入手先
◆MERIKEN4.kのウェブサイト
http://www.meriken2ch.com/programming/merikens-tripcode-finder
■前スレ
【トリップ検索】MERIKEN's Tripcode Finder
http://anago.2ch.net/test/read.cgi/software/1348565078/

2 :
■過去スレ
初代 http://anago.2ch.net/test/read.cgi/software/1311428038/
無印 http://anago.2ch.net/test/read.cgi/software/1348565078/

3 :
■動作報告用のテンプレ
【GPU】
【CPU】
【OS】
【バージョン】MERIKEN's Tripcode Finder x.xx
【トリップの種類】12桁・10桁
【1SMあたりのブロックの数(CUDA)】
【1CUあたりのワークアイテムの数(OpenCL)】
【1WGあたりのワークアイテムの数(OpenCL)】
【1GPUあたりの検索プロセスの数(OpenCL)】
【1検索プロセスあたりの検索スレッドの数(OpenCL)】
【CPU検索スレッドの数】
【その他のオプション】
【Display Driver】
【10分間の平均速度】tripcodes/s
【GPUの平均速度】tripcodes/s
【CPUの平均速度】tripcodes/s
【GPUの使用率】%
【GPUの温度】℃
【その他】

4 :
■最高速の記録
以下は2013年1月現在における検索速度の最高記録です。
> 810 : ◆MERIKEN4.k :sage :2012/12/09(日) 18:29:54.81 ID:D9EB7VO00
    :
> 【GPU0】DIAMOND 6990PE54G Radeon HD 6990 4GB @ 900MHz (OC)
> 【GPU1】Gigabyte GV-R7970C-3GD Radeon HD 7970 @ 1120MHz (OC)
> 【GPU2】DIAMOND 6990PE54G Radeon HD 6990 4GB @ 900MHz (OC)
> 【CPU】AMD Phenom II X6 1100T (定格)
> 【OS】 Microsoft Windows 7 64bit SP1
> 【バージョン】MERIKEN's Tripcode Finder 0.07 Beta 1
> 【トリップの種類】12桁
> 【1SMあたりのブロックの数(CUDA)】N/A
> 【1CUあたりのワークアイテムの数(OpenCL)】自動
> 【1WGあたりのワークアイテムの数(OpenCL)】自動
> 【1GPUあたりの検索プロセスの数(OpenCL)】1
> 【1検索プロセスあたりの検索スレッドの数(OpenCL)】2
> 【その他のオプション】-g
> 【Display Driver】Catalyst 12.11 Beta8
> 【10分間の平均速度】7428.97 tripcodes/s
> 【GPUの平均速度】7428.97 tripcodes/s
> 【CPUの平均速度】N/A
> 【GPUの使用率】97〜99%
> 【GPUの温度】83〜93℃
> 【その他】GPUのみ。
http://anago.2ch.net/test/read.cgi/software/1348565078/810n

5 :
テンプレは以上です。またよろしくお願いします。

6 :
【GPU】GeForce 610M
【CPU】Intel Core i5-3210M @ 2.5GHz
【OS】Windows 7 Ultimate SP1 64bit
【バージョン】MERIKEN's Tripcode Finder 0.08 Alpha 2
【トリップの種類】12桁
【1SMあたりのブロックの数(CUDA)】256
【その他のオプション】なし
【10分間の平均速度】 79.20Mtripcodes/s
【GPUの平均速度】 48.81Mtripcodes/s
【CPUの平均速度】 30.40Mtripcodes/s
【その他】5完1タゲ
>>928に比べて4%ほどの速度上昇(CPUは8%)、か

7 :
Core 2 DuoでもAlpha 2の速度を測定してみました。
同じ条件でSHArp Tripper 1.1は13.57M TPSだったので、
まあ32bit OSでもAlpha 2の高速化の分だけMTFのほうが速くなったと
差し支えないと思います。
【CPU】Intel Core 2 Duo T9550 @ 2.66GHz (定格)
【OS】 Microsoft Windows 7 XP 32bit SP3
【バージョン】MERIKEN's Tripcode Finder 0.08 Alpha 2
【トリップの種類】12桁
【CPU検索スレッドの数】自動(2)
【その他のオプション】なし
【10分間の平均速度】16.19M tripcodes/s
【GPUの平均速度】N/A
【CPUの平均速度】16.19M tripcodes/s
【その他】CPUのみ。5完1タゲ。

8 :
>>6
まあ落ち着いてw しかし今回のバージョンアップの効果はCPUによって
まちまちみたいですねえ。流石にIntelの石ではPhenom II X6みたいに
遅くなったりはしないでしょうけど…

9 :
>>8
ところがぎっちょん、AMDでも速くなった事例が発生しました……(但し結構古いCPU)
【CPU】Athlon X2 QL-64 @ 2.1GHz
【OS】Windows 7 Ultimate SP1 32bit
【バージョン】MERIKEN's Tripcode Finder 0.08 Alpha 1→2
【トリップの種類】12桁
【10分間の平均速度】 3.40→4.65Mtripcodes/s
【その他】5完1タゲ

10 :
新スレで初めてツール知って落としてみたけど、何となく扱いやすそう。
情報集めてるなら、alpha1と2で、10分ずつ稼働させて比較してみればいいのかしらん。グラボ載ってないからCPU稼働だけど…

11 :
【CPU】Intel Core Duo T2500 @ 2.0GHz
【OS】WinXP Pro SP3 32bit
【バージョン】0.08 Alpha 2 CUI
【トリップの種類】12桁
【10分間の平均速度】7.86 Mtripcodes/s
【その他】5完1タゲ
なんと2割以上の速度上昇 ヽ(´Д`)ノ

12 :
【CPU】AMD Athlon 64 X2 5050e(定格稼働)
【OS】Windows XP Professional 32-bit SP3
【バージョン】MERIKEN's Tripcode Finder GUI 0.08 Alpha 1→2
【トリップの種類】12桁
【10分間の平均速度】 6.41→7.77Mtripcodes/s
2割ほど強化されたらしい。…これで良いのかしら

13 :
なんとなく作ってみた。
Ver速度
0.0147.21M
0.0246.84M //正規表現に対応
0.03b156.53M //ここからCPUも利用するように
0.0458.74M //CMDオプションの説明でReadmeが長くなる
0.0558.80M
0.06a159.53M //64bit版が登場
0.06b159.58M
0.0659.58M
0.07a158.21M //OpenCLへの暫定的対応
0.07a258.04M(G48.69M/C 9.34M) //GPU・CPU毎の平均も表示
0.07a358.13M(G48.80M/C 9.33M)
0.07a462.94M(G53.64M/C 9.30M) //Intel HD Graphicsに対応
0.07a562.68M(G53.43M/C 9.25M)
0.07a662.68M(G53.42M/C 9.25M)
0.07a759.62M(G48.87M/C10.75M) //CPU高速化、IntelHDGを排除
0.07b159.64M(G48.81M/C10.83M)
0.0759.71M(G48.88M/C10.83M)
0.08a173.35M(G48.79M/C24.56M) //CPUの大幅な高速化
0.08a278.95M(G48.79M/C30.16M) //CPUの高速化
・全て12桁検索、平均値
・実行時間はいずれも5分程度(0.084 hour)
・「すっきり!!デフラグ」というソフトですっきり実行している
(つまり常駐ソフトは排除済み)
・CMDオプションは「-g -x 256 -c」で固定

14 :
物理32coreは無理ですけど、手持ち環境でそれぞれのバージョンを比較してみました
【CPU】AMD FX-8350 @4.95GHz
【OS】 Microsoft Windows 7 64bit
【トリップの種類】12桁
【CPU検索スレッドの数】自動(8になるのかな?)
【その他のオプション】なし
【その他】CPUのみ。5完1タゲ。
0.07
【CPUの平均速度】53.72M tripcodes/s
0.08 Alpha 1
【CPUの平均速度】114.78M tripcodes/s
0.08 Alpha 2
【CPUの平均速度】106.65M tripcodes/s
こちらの環境では、Alpha1、Alpha2で逆転現象は見られますが、00.7からはおおよそ50%の高速化は成されています
OpenCLの最適化、楽しみにしております

15 :
んにゃ
2倍の数値になってるから100%か

16 :
>>11
Intelの石だとちゃんと最適化の成果が出ているようですねえ。
>>10
>>12
それで問題ないです。情報提供、ありがとうございます。
>>13
GPU検索はもうちょっと速くなる予定です。期待してて下さい。
>>9
>>14
Alpha 2で遅くなるのはどうやらPhenom以降らしいですね。
CPUIDの仕様をみてゲンナリしたので、実行時に速度を計測してAlpha 2の最適化を
適用するかどうかを判断させることにします。しかしBulldozerはさすがに
速いですねえ。整数演算だけだったらCore i7-3770Kといい勝負ができてますね。

17 :
>>16
>実行時に速度を計測
CPUIDで決めつけるよりは安全だと思いますよ
ただ、場当たり的な対策な気もしますが
GPUがこれ以上速くなったら俺でも100M/s超えるかもワーイ

18 :
>>17
将来どんなアーキテクチャが出てくるかわからないのでこれでいいんですよ。
手元にないハードウェアのために性能の良いソフトウェアを書くのは難しいのです。

19 :
とりあえずAlpha 2の最適化を使用するかどうかを実行時に決定できるように
なりました。あとはCUDAのときと同じ要領で実行時に速度を測定して
最適なアルゴリズムを選択できるようにしてやるだけです。

20 :
う〜ん、なかなかうまくいかないなあ…
動的な最適化のためにループをもう一段回深くしたら速度が落ちてしまいました。
多分コンパイラの最適化を邪魔してしまってるんだろうけど、これは困った。
元はといえばGetTickCount()の精度が悪すぎるのが原因といえば原因なんだけど、
これってなんとかならないのかしらん。

21 :
>>20
つ「timeGetTime」

22 :
>>21
あ、その節は貴重な資料を本当にありがとうございました。
経過時間の測定は次の方法で何とかなりました。
http://stackoverflow.com/questions/2150291/how-do-i-measure-a-time-interval-in-c
一応最適化のルーチンは動いているようなので、あとは微調整をしてやるだけです。

23 :
>>20-22
まさか時間測定をGetTickCount()でやっていただなんて……
ところで、QueryPerformance系命令ははCPUクロックが動的に変化する場合、
「OSによっては値が信用できなくなる」なんてこともありえますゆえご注意を……
参考:
http://d.hatena.ne.jp/shiku_otomiya/20100218/p1
http://d.hatena.ne.jp/shiku_otomiya/20100504/p1
http://d.hatena.ne.jp/shiku_otomiya/20100917/p1

24 :
3,300円につられてWin8にするんじゃなかった・・・HD4000系つかえないのね。
なのでQuadro FX4800 (GTX265級)CUDAでWin8をやってみました。
【GPU】Nvidia Quadro FX4800 x2
【CPU】Xeon E5540 x1
【OS】Windows 8pro
【バージョン】MERIKEN's Tripcode Finder 0.08alpha2
【トリップの種類】12桁
【1SMあたりのブロックの数(CUDA)】auto (16)
【1CUあたりのワークアイテムの数(OpenCL)】
【Display Driver】310.90
【GPUの平均速度】330 tripcodes/s
【CPUの平均速度】50 tripcodes/s
抜ける時に固まってしまうので、GPUのみにした方がいいか・・・。

25 :
>>23
なるほど、こんなこともあるんですね。いやあ、助かりますw
そのせいかどうかわからないんですけど、動的な最適化は
完全には安定していないようです。やっぱりtimeGetTimeを使ったほうが
いいのかしらん。

26 :
あと色々コードをいじって気づいたんですが、Phenom IIで遅くなる原因は
どうやら命令のオーダーにあるようです。うまく命令のオーダーを
調節してやれば実行時の最適化は必要なくなるかもしれません。
ちょっとこれから用事があるので、また後で試してみます。

27 :
>>24
いや・・・Ver.0.07 alpha 7以降HD4000使えなくなったというのが俺の認識
(過去ログ見れば分かるが対応が難しいからだそう)
その分Ver.0.08 alpha 1以降CPU検索がグッと速くなってるからそっちで補えるけど

28 :
>>27
あらら。二重の意味でNGなんですね。AMDもHD2K3K4Kは去年の8月から
切っちゃってて、Win7までしかドライバ出てなかったんです。
Nvidiaがあるからいいや、みたいなのりでWin8にしてしまいましたが
HD4000も過去帳入りですね・・・。

29 :
【CPU】i7-3970x(OC 5.04GHz)
【OS】 Microsoft Windows 7 64bit
【トリップの種類】12桁
【その他のオプション】全てDL時のまま
【バージョン】MERIKEN's Tripcode Finder 0.08 Alpha 2
【CPUの平均速度】186.21M tripcodes/s

さっきよりもうちょっと速くなったww
早すぎワロチwww

30 :
>>28
>AMDもHD2K3K4K
え、AMDにもIntel HD Graphics 4000みたいなのあるの……?
ひょっとしてRadeonの方言ってる??
>>6でも書いてるけど、自分はCorei5+GeForce環境だから、
CPU検索が遅い際にはMERIKENでゲフォ+HDG4000を使い、
SHArp TripperでCPUを使っていたんだ
でもVer.0.08以降CPU検索が速くなったからSHArp要らない→両方MERIKENでおkになった
決して「MERIKENシリーズではRadeon HD 4000シリーズは使えない」って意味じゃないからね!

31 :
>>29
これも滅茶苦茶速いですねえ。たしかこれ、Sandy Bridgeですよね。
OCでここまで回せるとは…

32 :
実行時の最適化はなかなか安定してくれません。
まあ各検索スレッドがてんでバラバラに速度を測定してるので
仕方がないといえばそうなのですが…
とりあえずtimeGetTimeを試してみて、これが駄目だったら
また別の方法を考えて見ることにします。

33 :
計測用に別の実行ファイルを用意してそちらでテスト
 ->設定書出
 ->本体で設定ファイル読み込んで以下略
な感じで回避できないの? >>20

34 :
>>31
さすがにXeon2個には勝てないけどなww

35 :
>>33
別の実行ファイルを用意しなくても、テスト用のルーチンを別に作成すれば
恐らく大丈夫なはずなんですけど、出来ればこれ以上複雑にしたくないんですよね。
でもそれ以外方法がないような気がして来ました。

36 :
テスト用のルーチンを切り出してみたんですけど、それでも
実行時の最適化はうまくいきません。謎です。
まあ最悪オプションで切り替えるようにしてやればいいんですけど、
どうもスッキリしません。

37 :
う〜ん、どうやら単一のスレッドで速度測定用のルーチンを呼び出した場合と
複数の検索スレッドを同時に走らせた場合ではCPUの挙動が違ってくるようです。
仕方がないのでデフォルトではAlpha 2の最適化を有効にして、オプションで
無効にできるようにしてやることにします。あまり綺麗な解決方法とはいえませんが、
まあ仕方がありません。

38 :
というわけでGUIとCUIの両方に最適化を無効にするオプションを追加しました。
あとついでにデフォルトでGPUとCPUで同時に検索するようにしました。
これまでは正直なところCPU検索はおまけとして扱っていたのですが、
今回のアップデートでようやくちゃんとした戦力になってくれそうです。

39 :
次の予定ですが、今ちょうど開発機に580が入っているので、長い間ほったらかしに
なっていた12桁トリップ検索のCUDA版の最適化に取り組むつもりです。あのマクロの
嵐に手を入れるのはちょっと気が重いのですが、ちゃんとCPUで動いているルーチンが
すでにあるのでまあ大丈夫でしょう。

40 :
おつですおつです

41 :
どもども。CUDA版のソースを眺めていたのですが、まあ特に最適化を適用するのに
問題はないようです。一番問題になりそうなのは、カーネル内で変化させることが
できるのはSHA-1の入力ブロックの最初のワードだけという制約ですが、これも
ブロック数の最大値を128に引き下げてやれば特に問題は無さそうです。少し残念な
気もしますが、最適化の恩恵はそれを補って余りあるはずです。PW[]をCPU側で
__constant__メモリ空間に用意してやれば問題ないでしょう。

42 :
うわ〜PCが落ちてSSDが壊れてAlpha 2からの更新した分がパーになってしまったorz
幸い一番面倒くさかったGUIの部分は無事だったみたいだからまあいいか…

43 :
>>42
SSDはシステムファイルだけにしておけとあれほど……
「面倒」ってことは遂に個別GPU云々機能を実装したんですね!?

44 :
>>43
いや、そっちはまだ手付かずですw テストも含め数週間の作業になるはずなので
やるとしても当分先ですね。

45 :
ようやくこれまでの作業の復旧が出来ました。なくした部分は書きなおしたのですが、
流石に2度目だと大分楽ですね。CUDAのプログラミングは久しぶりだったので
忘れてたのですが、システム全体を巻き込んで落ちることが多いので気を
つけなきゃいけませんね。

46 :
気を取り直してCUDA版の作業を続けることにします。
これまではカーネル内部でkey[7]〜key[11]の5バイトを回してキーを生成していたの
ですが、最適化のためにはこれをkey[0]〜key[3]の4バイトを回すように変更しなければ
なりません。PCが落ちたときにはこれがうまくいかずに行き詰っていたのですが、
もう一回試して見ることにします。

47 :
あ、うまくいかなかった原因が分かったかも…
これやっぱり4バイトで回すのはかなりしんどいですねえ。

48 :
あ、でもPW[]をカーネル内部で計算して共有メモリに入れて使えばいいのか。
う〜ん、なかなかいい思いつきかも…

49 :
考えがまとまってあとはひたすらコードを書くだけなので、
今日はここまでにしておきます。いや〜続きが楽しみだなあ。

50 :
とか何とか書いておきながら、また待ちきれずに残りの作業を終わらせて
しまいましたw CPUほどではないですが、確実に速くなってます。
定格のGTX 580で719.38M TPS出ているので、以前のバージョンに比べて
とりあえず5%強の速度向上といったところです。やっぱり共有メモリを
使っている分だけオーバーヘッドがあるのかしらん。もう少し色々いじって
速度が上がらないか試してみます。

51 :
あのあと命令のオーダーを変えたりしていたら大化けして、速度は760.96M TPSまで
上がりました。前のバージョンに比べると11%の速度向上です。GPGPUなので
流石にCPUのようにはいきませんでしたが、CUDA版のスピードが上がるとは
ちょっと前までは全然思っていなかったし、ようやくHashcatより速度が出るように
なったので、個人的にはかなり満足です。

52 :
radeon超えは無理か…

53 :
気持ちはわからないでもないですけど、そりゃさすがに無理ですw
基本的なGPGPUの性能が全然違いますからねえ。
それに今回実装したのは、前スレで紹介されていたHashcatのJens氏による
最適化の手法で、これを使えばRadeon版も10〜20%高速化出来るはずです。

54 :
もっと一般的な話をすると、トリップ検索の速度の上限はJohn the Ripperや
Hashcatなどのパスワード解析プログラムの速度を見ればだいたい分かる
ようになっています。(トリップ検索のほうがパスワード生成の手間がない分
速いですが) MTFの12桁トリップ検索のこれらのプログラムより多少速いので、
実際かなり頑張っているほうです。JtRやHashcatの開発に携わっている人達は
相当頭がいいので、今後この人達を出しぬいて大幅に速度を上げるのは
至難の業でしょう。

55 :
あのあとCUDAの最適化したSHA-1のルーチンをぺたぺたとOpenCL版に
貼り付けて動かしてみたのですが、7970では効果がかなりあったものの、
5770と6990では逆にかなり遅くなるという、なんとも微妙な結果になりました。
まあ7970 1枚で2868M TPS出ていて12%速度が向上しているので成功と
いえなくもないのですが、他のカードで遅くなる原因がさっぱりわかりません。
やっぱり共有メモリより__constantを使ったほうがいいのかしらん。
もうちょっと色々調べる必要があるみたいです。

56 :
>>30
おぅ・・・ATIと言うべきでした。そのとおりRadeon HD4000系です。
夕べXP32でも試してみたのですが、やはりNGでして。
Radeon 5870やNvidia 450GTSなどは動いてくれるのですが。
またちょっとゴソゴソしてみます。

57 :
>>56
あ、Radeon HD 4xxxシリーズでは動かないです。
OpenCL 1.1に対応していなかったはずです。
READMEを書きなおしておこうっと。

58 :
試しにCUDA版のPW[]を共有メモリではなくコンスタントメモリに
入れてみたんですけど、かえって速度は低下してしまいました。
面白いもんですね〜

59 :
他のソフトでCUDA関係の不具合に有ってたんですが、検索でCUDAテストだのベンチマークで検索かけてもそれっぽいソフトってあんまり無いところ、
たまたま見たこのスレで神ソフト発見!
作者さんも居るしようですので、お礼。
作者タンありがとう!
お陰で問題の切り分けが出来ました〜。
CUDAテストアプリ、CUDAベンチマークアプリとしてももっと宣伝しても良いと思う〜。

60 :
>>57
あ。そうなんですね。OpenCL対応でないとイカンと。そりゃそうだ・・・。
ありがとう御座います。
RadeonHD5450で30M、5870で800-1000M でした。

61 :
>>59
どもども。なんせハードウェアの性能を最後の一滴まで搾り取るために
全力を挙げてますからねw お役に立てて何よりです。
>>60
Radeon HD 4xxxはOpenCL 1.0対応で、MTFで使ってるOpenCL 1.1の機能が
使えなかったはずです。5870はやっぱり結構速度が出てますね〜

62 :
>>59
CUDAスレに発展(?)する可能性が微レ存……?

63 :
CUDAスレは別にあるので、CUDA一般の話はそっちでしたほうがよいでせう。

64 :
試しにOpenCL版のPW[]をコンスタントメモリに移してみたのですが、
やっぱりというか速度は落ちてしまいました。
今回の最適化はHD 7xxx以降限定ということになりそうです。
というかまたオプションを追加しなきゃならんのかorz

65 :
最強のツールを目指す上で避けて通れない苦労です(他力本願)

66 :
【CPU】XeonX5680@3.33GHz x2
【OS】Win7Pro64SP1
【トリップの種類】12桁
【その他のオプション】 -c
【その他】5完1タゲ
【バージョン】0.08 Alpha 1 CUI64
【30分間の平均速度】195.90 MTPS (HT off)
【40分間の平均速度】221.01 MTPS (HT on)
【バージョン】0.08 Alpha 2 CUI64
【40分間の平均速度】180.06 MTPS (HT off)
【40分間の平均速度】250.01 MTPS (HT on)

Σ(゚Д゚;) HT offだとAlpha2の方が遅いだと・・・。
0.06a1ではHTのon/offの差は5%程度しか有りませんでしたが、今回は結構差が出てますね。
Phenomの件と言い、今回の最適化はハード依存が大きいのでしょうか?

67 :
>>28
>AMDもHD2K3K4Kは去年の8月から
>切っちゃってて、Win7までしかドライバ出てなかったんです。
違います。
ドライバ更新が半年に1回になっただけです。
先日ドライバ出てます
13.1 Windows 7/Vista drivers for 4000,3000,2000 Series are now live:
http://support.amd.com/us/gpudownload/windows/legacy/Pages/legacy-radeonaiw-vista64.aspx

68 :
>>66
貴重な報告、ありがとうございます。大変参考になります。
> Phenomの件と言い、今回の最適化はハード依存が大きいのでしょうか?
そうみたいですねえ〜 そんなつもりはまったくなかったんですけど…
純粋に計算量は減っているので遅くなる理由がわかりません。
命令のオーダーを見なおして大分ましになりましたが、
それでもまだPhenom IIだと最適化を切ったほうが多少速いです。

69 :
あ、あと命令のオーダーを見なおしたせいでCore i7-3770Kでは1M TPSほど
速くなりましたw

70 :
後これは全く関係ないんですけど、>>54を書いた後で6990だとHashcatのほうが
かなり速いことに気づきましたw MTFでは7970に合わせたせいでベクトル型を
使っていないのが原因と思われます。というわけで、HD 6xxx以前だと
まだかなり早くなる可能性が大です。

71 :
というわけでいい機会なので、OpenCLのカーネルをGCN (HD 7xxx以降)と
非GCN (HD 6xxx以前)で分けることにしました。こうすれば余計なオプションを
増やさなくて済むというのも大きいですw

72 :
>>65
一見してよくわかんないオプションがずらずら並んでるのって好きじゃないんですよね〜
クリックひとつで何も考えずに使えるのが理想ですw

73 :
>>70-71
RadeonはVLIWからGCNへの移行の最中ですし、
かなりアーキテクチャが異なるので大変ですね。
VLIWではまだ速くなるということはAPUがさらに凄いことになりそうですw

74 :
前スレ落ちたのでここに書くか。
配布パッケージに32bitのOpenCL.dllだけが入ってるんだが、
これはこれでいいのか?
まあ、実行できる環境もないし、プログラムの構造も知らんのだが。w

75 :
OpenCLのソースファイルを2つ用意して、HD 6xxx以前では
最適化が無効になるようにしました。試しに速度を測定したら、
これまでの最高速の記録に綺麗に250M TPSほど上乗せできています。
あとはVLIWなRadeonでベクトル型を試してみるだけですが、
こちらは大化けする可能性があるので実に楽しみです。

76 :
>>73
最初から分けて開発していればよかったんですけど、VLIWでも結構性能が出ていたので
ここまでズルズルと来てしまいました。
>>74
あれはOpenCL.dllが原因ですか。たいていの環境ではOpenCL.dllはSystem32に
入ってるので、パッケージのはほとんどの場合必要ないのです。しかし弱ったなあ…
他にいい手が思いつかなかったら64bit版もパッケージに同梱することにします。

77 :
>>67
おう、嘘つきました。スマヌ。&さんくす。

78 :
>>76
原因【かもしれない】と【思っただけ】だ。w
だから試してみては、と書いたわけで。
いや、どうせdepend(rなんかやってみないだろうと思ってたんだが、
質問者はちゃんとやったし俺もやってみたんだよ。
そしたら、x64に混ざってx86なのがあって、それがOpenCL.dllだったと。
そもそも同梱する必要あるのか?ランタイムをインストールさせるべきじゃないのか?
的を外してたらすまん。www

79 :
>>78
>ランタイムをインストール
だが待ってほしい
VCランタイムぐらい巨大ならともかく、1つや2つのDLL同梱で解決できるなら
その方が気軽に検索できるのでは?

80 :
>>78
> ランタイムをインストールさせるべきじゃないのか?
CPUだけで使う場合だと本当に必要なのはOpenCL.dllだけなんですよね。
適当なOpenCLのランタイムがあればそれをインストールしてもらうところなんですけど、
Intelのはインストーラーが英語しかないので普通の人には敷居が高いかなと思って…
この件はもうちょっと対応を考えてみます。

81 :
ランタイムが入ってないというのは2011年代の古いドライバ使ってるのかな?

82 :
あ、Intelの話か
Catalystと勘違いした

83 :
どの会社のでもいいのでOpenCLのランタイムがあればOpenCL.dllを同梱しなくて
済むんですけど、そういうわけにもいかないようで…

84 :
Intel プラットフォームを使ってんのか?
だったらそれだけじゃ動かないと思うんだが????
私ぼけてきてるのカナ?

85 :
Intelのは例としてあげただけで、とにかくなんでもいいので
OpenCLのドライバがシステムに1つインストールされていれば
適当なOpenCL.dllがインストールされるので、自前でOpenCL.dllを
同梱する必要が無くなるということなんですけど…
OpenCLデバイスを使用しない場合でもOpenCL.dllがないとMTFが
動かないのが問題といえばなんですが。

86 :
VLIWなRadeonの最適化ですけど、どうやら効果はかなりあるようで、
とりあえず1タゲのルーチンだけ作ってテストしてるのですが、
6990で1.27倍、5770で約1.5倍の速度が出ています。
他のルーチンを作りこむのにちょっと時間がかかりそうですが、
なかなか期待できそうです。

87 :
あれから色々試してみたんですが、ベクトル型を使うと
どうやっても前方一致と後方一致以外の検索の速度が
遅くなってしまいます。まあ恐らく殆ど使わない機能なので
今回は割りきってしまうことにします。

88 :
VLIWなRadeonのための最適化の作業も終わったので、
ひと通りテストしてから新しい開発版をうpすることにします。

89 :
新しい開発版です。
MERIKEN's Tripcode Finder 0.08 Alpha 3
http://www.meriken2ch.com/programming/merikens-tripcode-finder
主な変更点は12桁トリップのGPU検索の高速化です。
10〜50%ほど速度が上がっているのでぜひ試してみてください。

90 :
乙です

91 :
【GPU0】SAPPHIRE Vapor-X HD5870 @ 875MHz
【GPU1】ASUS EAH5870 @ 850MHz
【CPU】Intel Core i7-2600K @ 3.4GHz
【OS】Microsoft Windows 7 Home Premium 64bit SP1
【バージョン】MERIKEN's Tripcode Finder 0.08 Alpha 3
【トリップの種類】12桁
【1SMあたりのブロックの数(CUDA)】N/A
【1CUあたりのワークアイテムの数(OpenCL)】自動
【1WGあたりのワークアイテムの数(OpenCL)】自動
【1GPUあたりの検索プロセスの数(OpenCL)】1
【1検索プロセスあたりの検索スレッドの数(OpenCL)】2
【CPU検索スレッドの数】自動
【その他のオプション】N/A
【Display Driver】Catalyst 13.1
【10分間の平均速度】3149.69M tripcodes/s
【GPUの平均速度】3078.46M tripcodes/s
【CPUの平均速度】71.23M tripcodes/s
【GPUの使用率】未計測
【GPUの温度】未計測
【その他】5完1タゲ。TEST/
>>89
確かに50%ほど速度が上がっています。速すぎてゲロ吐きそうになりました。
実際のヒット率と予測の差もほぼ0%です。

92 :
>>74>>76
なんかやっかいなことになってしまいまして、申し訳ありません。
あれから、クリーンインストールして忍法帖レベルが1に・・・。
ちなみにOpenCL.dllはSystem32及びSysWOW64には用意されていません・・・。

93 :
>>92
やっぱそうでしょうね。CPUとビデオカードは何を使っていますか?

94 :
>>91
う〜ん、素晴らしい… やはりHD 5xxxに一番効果があるみたいですね。
> 速すぎてゲロ吐きそうになりました。
開発者冥利に尽きるというものですw

95 :
>>89
【GPU】GeForce 610M
【CPU】Intel Core i5-3210M @ 2.5GHz
【OS】Windows 7 Ultimate SP1 64bit
【バージョン】MERIKEN's Tripcode Finder 0.08 Alpha 3
【トリップの種類】12桁
【1SMあたりのブロックの数(CUDA)】256
【その他のオプション】SHA-1最適化ON
【10分間の平均速度】 87.17Mtripcodes/s
【GPUの平均速度】 55.61Mtripcodes/s
【CPUの平均速度】 31.56Mtripcodes/s
【その他】5完1タゲ
>>6と比べて10%もの速度上昇だと!?

96 :
>>95
だからちゃんと速くなるといったでしょうw
なかなか順当な伸びですね。

97 :
現在検索君1号の調整中。Alpha 3で効率が上がったせいで、OC耐性は下がるという
よくわからないことになっています。なんとか通常の検索業務wで8.8G TPSあたりで
安定してくれるといいのですが…

98 :
8.8G TPSじゃなくて7.8G TPSでした。しかし10G TPSの壁は遠いですねえ。

99 :
HD7970をポチることに決定しました・・・感謝。
【GPU】GeForce580 + RadeonHD5450 (310.90 & 13.1 driver)
【CPU】Intel Xeon W3520 2.66MHz
【OS】Windows 7 Pro SP1 64bit
【バージョン】MERIKEN's Tripcode Finder 0.08 Alpha 2&3
【トリップの種類】12桁
【1SMあたりのブロックの数(CUDA)】自動
【2分間の平均速度】 790.11->889.57Mtripcodes/s
【GPUの平均速度】
CUDA0 723.8 -> 808.3TPS
OpenCL0 17.5 -> 27.2TPS
OpenCL1 18.5 -> 28.6TPS
【CPUの平均速度】 45.75 -> 48.18Mtripcodes/s

100read 1read
1read 100read
TOP カテ一覧 スレ一覧 2ch元 削除依頼
KeyHoleTV・製造10代目 (225)
Adobe Reader SpeedUp (872)
気軽に「こんなソフトありませんか?」Part.153 (672)
● アンインストールしたブラウザを報告するスレ ● (378)
【JustSystems】Shuriken Part22【メールソフト】 (642)
nFinder Part9 (275)
--log9.info------------------
【叶わぬ夢】キャロル【願いは一つ】 (399)
thee michelle gun elephant vol.759 (418)
みんなの新谷さんpart2 (916)
【小玉キョウ】イクシード【suitcase】 (771)
ジョニー大倉  (523)
     PSY・S 5     (471)
【ジュリーっ!!】愛を叫ぶスレ48【( ゚∀゚・)なんや?】 (417)
Jungle Smileと高木いくのと吉田ゐさお Part8 (421)
Valentine D.C. (650)
子供ばんど3rd GIANT HOP STEP JAMP (692)
ゆらゆら帝国12 (520)
【ザ・タイガース】加橋かつみ アンチスレ3【伝説の我儘男】 (421)
【電脳的】PINK・4th【肉体派】 (569)
再び、白浜久について語ろう (607)
hideがずっと頭から離れない 4 (780)
【音楽の神様が】山下久美子【微笑むまで】 (653)
--log55.com------------------
ダライアスコズミックコレクションは9割方コケる
東方Project総合ヲチ&アンチスレ87
東方Project総合ヲチ&アンチスレ87
東方Project総合ヲチ&アンチスレ避難所
東方プロジェクト総合ヲチ&アンチスレ87
東方Project総合ヲチ&アンチスレ Part87
東方買ったけどクソゲーでがっかり・・・72
東方買ったけどクソゲーでがっかり・・・72