音声合成プログラムを作りる (326)
TOP カテ一覧 スレ一覧 2ch元 削除依頼 ▼
JAVAってこんなことも出来ないの? (695)
★★Java質問・相談スレッド165★★ (120)
C言語なら俺に聞け(入門編)Part 121 (201)
C#, C♯, C#相談室 Part81 (271)
リーダブルコーディング技術スレ (187)
【JavaScript】スクリプト バトルロワイヤル40【pl,rb,php,py】 (801)
音声合成プログラムを作りる
1 :2007/06/14 〜 最終レス :2013/10/18 ネトラジとかで声優のしゃべた音声がたくさん出回ってきたから、 それを使って音声合成するプログラムを作りたいと思うんだけど、 そんなスレ
2 : じゃあ、一緒に作るれ
3 : しゃべた
4 : ネトラジリソース多いのんって誰かな BGMとかあんまなくって、高音質なの
5 : よし、みんなで作れろ
6 : 中原小麦が多いるれ
7 : 音声合成は難しいぜ しかもそんだけの素材じゃかなり苦労する と元国立理系大学院音声関係研究者の俺が言っておく。
8 : 音声を発するシミュレーションを まじめにやったらどうなるんだろう。 骨格、肉、声帯、云々。
9 : シミュレーションやるより、模型?を作った方が楽なんだなー
10 : でも、模型はメンテナンスが
11 : >>7 に期待
12 : いや、俺の元専門は音声認識だから・・・ そんな俺でも「声優の声」を目指す>>1 は厳しい、ということくらいはわかる。 ニュースとかで見聞きする合成音声ってみな糞でしょ? 何年も進化していないのよ。 音素切り貼り(新聞の切り抜き文字で文章作る感じ)、なら多少はいける・・・かもしれないけどね。
13 : | \ __ / _ (m) _ピコーン |ミ| / `´ \ ('A`) そうだ! 自分で喋ればいいんだ! ノヽノヽ くく
14 : >>1 が作るって言うんだから、余計な口出しはせず、 まずはお手並みを拝見する所だろう。
15 : まずは音声データベース作んないと なんで、ネトラジ落としてWAVにして文章ごとに分割してみた こんどは、音素ごとに区切る作業はじめる 専用のツールつくんないとだめかな
16 : ツールならHTKにいいのがあるんじゃね? 音声認識機に通して音素ごとに切り分ける、ってのが大量データ作成には楽かな? しかし懐かしすぎ・・・
17 : >>16 HTKおk、しらべる thx
18 : 垚
19 : 1さんに期待 しかし, カクカクとした音声が限界じゃないかね 声優のような音にするにはパラ情報なんかの 感情を表現する部分をどの程度対応できるかに よると思われ とか, ネットワーク屋さんのもれが曰ってみる
20 : HTK登録したのにパスワード送てこねー 説明書くらい登録なしで読ませてもいいのにさ 待てる間に音声db作成支援ツールでも作りる ところで音声認識の分割精度てどれくらい出んの? 0から書き起こしさせるのは全然使えねーレベルなんは分かるけど、 書き起こしテキストあれば音素位置そろえるくらいは精度いいんかな
21 : http://plusd.itmedia.co.jp/lifestyle/articles/0405/28/ts_virtual_morita.mpg 86時間コーパス。これくらいでよろ!
22 : 86時間て正味?ネトラジから集めよう思たら数年分必要だなー ところでこれNHKの森田アナだよね ところどころイントネーション変な繋がりあるから 数文節単位くらいで切り貼りしてるん?
23 : http://pc11.2ch.net/test/read.cgi/software/1119069271/
24 : 理系大学院って工学部と理学部でだいぶ違うよな
25 : >>23 さんくすです SoftalkはAeuqst社のAquesTalkを音声合成エンジンとして使っている、 web2speechは大学が作ったGalateaTalkをエンジンとして使っている、 EasySpeechはSAPI使ってエンジンを読んでるだけみたいでしね 自分で音声合成エンジン作ってる人はまだないのかな
26 : age
27 : age
28 : age
29 : ttp://www.sp.nitech.ac.jp/~demo/gtalk/demo.php
30 : 同じ金額で声優雇った方が早くね?
31 : >>30 別にセリフ読んでもらいたいわけじゃないし 合成音声で2ちゃんログとかメールとか 読んでもらったら面白くなくね?
32 : 音(声)の切り張りと云うと、コナミがときメモ3でやってなかったっけ? 未プレイ(体験版触っただけ)だから、詳しくは解らんけど。
33 : イントネーションを網羅した辞書みたいなファイルを作って 文章をAquesTalk用の音声記号列に自動変換するようにすれば、 どんな文章もきれいに読み上げることができそう。
34 : >>32 ときめも2と3でプレーヤの名前を呼んでくれる EVSという音声合成システムがのてたみたい やったことないからクオリティーは分からないよ ttp://ja.wikipedia.org/wiki/%E3%81%A8%E3%81%8D%E3%82%81%E3%81%8D%E3%83%A1%E3%83%A2%E3%83%AA%E3%82%A2%E3%83%AB2 ttp://www.konami.jp/gs/game/toki3/point/game/evs2.html
35 : "音声合成 ゲーム"で検索すると PS2 モジブリボンにNTT PS2 ダビつく3に東芝 DS お料理ナビは? DS 日本史・世界史に日立 なんてのが見つかったよ どうなん?
36 : >>33 イントネーションって網羅できるもんなの? AquesTalkってあんまりきれいな声とは思えない
37 : 以前でてた音声コーパスっていうのがそういうものじゃないのか?
38 : 同じ単語でもどう使われるかでイントネーションって変わるからな。
39 : >>38 例えば?
40 : 彼氏↑、彼氏↓
41 : 箸 端 橋 嘴 波子 梯 頑張って聞き分けてください。
42 : 無理ッス絶対無理ッス自分無理ッス
43 : >>41 それは「同じ単語」でイントネーションが「変わる」例になってないだろ。
44 : どうして>>1 は舌っ足らずなんだろう。 ていうか>>6 のせいで、 このスレの全てのレスが桃井声で脳内再生されるんだがw
45 : >>35 くまうたも忘れないでくれ
46 : 早く作りろ
47 : 「あ」の波形と「い」の波形を足して2で割ったら、「あ」と「い」の中間の声ができるってわけか!
48 : ようするに、声帯をプログラムでシミュレートすればいいんだろ 簡単ジャン
49 : じゃ期限は明日の0時だ。よろしく。
50 : オーケーベイビー 首洗って待ってな。
51 : まだぁー? もう全身洗って待ってるんだけど。
52 : 声帯って振動するだけ?声によって(高さじゃなく「あ」とか「い」)振動の仕方が異なることはないよね? 音が高くなると振動数が増えるだけだよね? 声帯が発した振動を口の形と舌でコントロールすると「あ」とか「い」になるという解釈でいいの? 舌のシミュレーションが大変そう(><;)
53 : 音声学の勉強からやらなきゃダメだね。 昔勉強したけど、もう忘れたからお役に立てないよ、ごめん。
54 : 必要な音素が全て含まれた文章を作って読んで、それから音素を抽出するようにすれば、そのうち望んだような声質の人が音を提供してくれることもあるんじゃないかと思るれ
55 : >>54 誰の声でもいいんだったら、それでもいんだけど、 やっぱ声優の誰々の声でってのが大事だから、 今はネトラジの音声からちまちま集めてるよ
56 : どっちかっつーと話者変換のほうに興味があるんだが
57 : その声優の音声ファイルはSNいいのか?
58 : >>56 話者変換って何に使うん? 自分のしゃべった声を誰かの声に似せるとかな?
59 : >>57 SNは分かんねが、音は良さげ(64kbpsの44kHz) 一人しゃべりでBGMなしなんじょ
60 : BGMなしか。それはいいな。 とりあえずHTKでその声優の音響モデルつくるところからだべ。
61 : 俺は女性のツテなしで自分ひとりでもマルチヒロイン声つき同人エロゲーを作れる環境が欲しい
62 : エロゲの音声使えば? 抜き出し出来れば、台詞も大量にあるし、テキストもあるので分割解析もしやすいしょ
63 : 北都さんの声でお願いします
64 : 結構凄いけど、まだ今一歩というところか。結構おしいところまでは行ってるな。 http://www.nicovideo.jp/tag/%E5%88%9D%E9%9F%B3%E3%83%9F%E3%82%AF
65 : >>64 藤田咲はまなストのモモ役が良かったなぁ
66 : ときめも2以降で採用された音声のプログラムってどんなアルゴリズムなのか分かる人教えて
67 : >>66 overlap add
68 : ―― 学校  ̄ ̄ ̄\ 専門学校
69 : >>67 ありがと。調べてみる。 ついでに初学者の入門書みたいなのがあったら教えてくれると嬉しい
70 : Alice Project
71 : 2007/12/19(Wed.) ◆ Julius-4.0 リリース
72 : 初音ミクが話題にならないあたり、ここはプログラム板じゃないのかと思ってしまう。 そんな、俺に、お勧めはこれ。 「エロ版初音ミク」の衝撃 - 「阿久女イク」を使ってみた - 偏読日記@はてな http://d.hatena.ne.jp/a-park/20071227/p1
73 : 音声合成というより、台詞合成だな
74 : >>72 ワロタ
75 : れこーどうえーぶ http://recwav.dip.jp/ 音声でメッセージを伝えよう http://recwav.dip.jp/M_RECWAV_Media.asp?Speech=1221925210420080106131222
76 : この板の住人じゃないんだけどAquesTalkでwav保存できるソフト あるのかな? DTM板住人なんだけど、需要ありそうだったから。 俺自身もあったら使いたい。 オーディオアウトとインをつなげばできるけど、 そんなの嫌だしw
77 : 全二十じゃないの?
78 : 全二十が全二重と気づくまでに数時間を要してしまった・・・orz 要するにサウンドキャプチャソフト使えば?ということかな? まぁ実際に配線するより数倍マシだから、それで納得するしかないか。
79 : 普通に、ライン出力を録画するんではダメなのか?
80 : >>78 スマンスマンw 二十って書いたの俺かもw
81 : >>76 API見たら、普通にAquesTalk_Synthe()を呼べば保存できそうだけど、 そういうことじゃないのか? ほとんどの人がライセンスがないから試せないと思われ。
82 : >>76 俺はここ数か月DTM板に出入りするようになった者だけど オーディオインとアウトをつなぐって言っても ハード的に結線するんじゃなくて DAWのRECボタン押下→AquesTalk再生みたいな感じで とりあえず録音はうまくいくけど 音質まではわからない
83 : 全二重に温室関係案のカナ?
84 : いまどこまで進んでいるんだ?
85 : age
86 : >>1 おーい!いまどこまで進んでいるんだ?
87 : age
88 : 「あ」の波形と「う」の波形を足して2で割ったら「い」の波形ができるのを発見して特許取った
89 : 特許番号は?
90 : どのくらい 「い」 と区別が付かないんだ? 不自然感0?
91 : じゃあ俺は「い」の波形を倍にして「あ」の波形を引いたら 「う」の波形が出来るという特許を取ろうかしらん
92 : >>88-91 もうちょっとでアヘ声が実現するな
93 : >>88 特許番号は?
94 : juliusで音素列を指定して、 強制アライメント取れますか?
95 : >>94 つ 単語・音素セグメンテーションキット&Julian
96 : >>95 ありがと juliusでディクテーションさせて、julianで強制アライメントできるようになりました。 ところで、ピッチを求めるいいアルゴリズムはありませんか?
97 : C++MIDIプログラミングっていう廃刊を店に売ろうか悩んでるんだけどいくらになるんだろう
98 : ヤフオクの方が売れるんじゃね?
99 : とりあえず、声優のラジオ番組の音声分割して、接続合成できるプログラム作ってみました juliusの認識精度ではダメですね、手修正必須ですが
100 : そうか 音声素材なんてわざわざ録音しないでも ネットラジオにいくらでも転がってるんだな 面白い発想するな
101 : これは意外な盲点。 個人(?)で使う分には十分だね。
102 : >>99 サンプルを聞いてみたいです
103 : 周波数と最初に名づけたやつは死んでいいと思うな
104 : >>102 音ってどこにアップできます? それと何話させましょ? 声優はSMです
105 : >>104 アップローダは↓でお願いします。 ttp://www.axfc.net/uploader/ セリフは↓のサンプル音声の「シナリオ」あたりでどうでしょう。 ttp://voice.pentax.jp/blog/64.html
106 : ttp://www.aoni.co.jp/actress/ma/voice/minaguchi-yuko.mp3 これで
107 : >>105 ,106 ttp://www11.axfc.net/uploader/20/so/He_103620.lzh kwdは94です
108 : >>107 サンプル拝聴しました。 音素や単音単位ではなく、単語単位の連結なんですね。 語のつながりがぶつ切りで、聞き取るにはちょっと辛いかなと思います。 音素単位なら、聞き取りやすくなるかもしれませんが、 抑揚やアクセントを指定できるようにしないといけないので、難しいですが。
109 : >>108 アドバイスありがとうございます。 使えるだけ使うので、単語より長い部分も1音素だけの部分もあります。 今はピッチ情報がないので抑揚をそろえられないです。だから最長一致。 これからはピッチをそろえられるようにしてみます。
110 : >>109 これってオープンソースにしないの?
111 : >>109 94さん >>110 の追加なんですがオープンソース化のメリットは・・・ 開発が止まっても後を継げる。 ・例えば作者が飽きたとか、あるいは交通事故にあったとかで開発が止まったとする。 そんな場合、誰かが開発を引き継いでくれる可能性がある。 誰かが他のOSに移植してくれる。 ・誰かがMacOS版を作りたいと思ったときに、ソースコードを見ずに移植した場合、どうして も互換性に問題が出る。 しかし、ソースが公開されていれば、少ない手間でほぼ完全な移植ができる。 環境に依存した部分は書き直したり、移植が難しい部分については機能を削ったりする 必要があるけど、それでも一から書くよりはずっと楽。 ちなみに、現在Windows以外の環境でサポート外の動いている場合、 それは誰かが更新履歴の仕様を見て、オリジナルのコードを使わずに クラックして移植したものだ。ありがたいことだけど、 もしソースが公開されていたらこの作業は不要だったはずで、その人はもっと別の作業ができた。 バグを修正できる ・誰かがバグを見つけ、それを報告したとする。 それをみた第三者かが、ソースコードの中から原因を見つけて、 作者に「ここを直せばいいぞ」と教えてくれる可能性がある。 ひょっとしたら修正したソースコードをupしてくれるかもしれない。
112 : >>111 続き 自分で改良して、それを作者に提案できる。 ・第三者ソフトウェアを見て「ここを改良したらもっと良くなるんじゃないのか?」 もしくは「こんな機能を追加したらもっとよくなるんじゃないの?と誰かが思ったとする。 その場合、公開されているコードを改良・追加し、作者に改良案や機能追加案を提案する ことができる。 作者がその人の方がより開発に向いていると判断した人は、作者の許可を得て改良版を 公開することができる。 第三者が改良案や機能追加案を提案して作者がそれを見て、影響を受けて、第三者の 改良版を使用しながら作者は更なる改良を加えることができる。 ソースが公開されていなかったら、作者に具体的に改良案や機能追加案を 提案することが難しい。 HDDが飛んでも即死しない ・「作者のHDDが飛んだので開発中止」っていうソフトたまにあるよね……あれはむなしい。 ソースがサーバ上にアップしていれば、作者のHDDが飛んでも、開発を続行することが できる。 とこんな感じなメリットがあります。 長文になってすいません。 ぜひご検討のほうよろしくお願いします。
113 : でたーオプソ厨
114 : >>110 >>111 >>112 それはいいアイディアですね。 ぜひやってもらいたいです。
115 : 反論するのも馬鹿馬鹿しいが。 >・「作者のHDDが飛んだので開発中止」っていうソフトたまにあるよね……あれはむなしい。 これを字義通りに受け取る(或いはそのように敢えて振舞う)人がいることに驚いた。
116 : 俺が学生時代にちまちま作ってたしょぼいソフトは まさしくその運命をたどったよ
117 : そういや昔のプログラムはフロッピーに入れてたのでもう見れなくなったなw
118 : 実はハードごとまだ生きてる 子供の頃しこしこ打ち込んでた雑誌掲載のBASICゲームは起動メニューを作っておいたので ファイル名すら覚えてなくても今でも遊べる 子供時代の自分の聡明さにしばし感動 今はもう駄目かもわからんね
119 : そこで FILES
120 : >>109 おーい。94氏 オープンソース化しないのかい? 返事をくれ。
121 : 自分の要求のために他者に負担をかけることを当然のように考えてるからオプソ「厨」って付くんだな。
122 : 某コナンの蝶ネクタイ型変声機みたいな物は作れないかなぁ 他人の声からパラメータだけ抽出して、云々
123 : 既にあるんですね...
124 : オプソ厨って、自作自演だよw シェア作家のなw
125 : >>124 そんなわけないだろうw
126 : 久々に見に来たらレス増えてた。。。 オープンソースにするのはいいんですけど、プログラムだけだと何もできませんよ? 素材の音声データが無いと。それもかなりの量で。。
127 : プログラムの権利より音声データの権利のほうが問題になりがち
128 : >>122 1.マイクの声から声帯の影響を取り除く 2.フォルマントを他人の位置に移動する でできるかも
129 : >>126 >オープンソースにするのはいいんですけど、プログラムだけだと何もできませんよ? それでもいいと思う。 自分の声のデータを入れて合成することもできるし。 オープンソースなら合成エンジンをもっと高性能化することもできるし。 使う側が改造できるだけでなく、作った側にも自分の技術を高める、新しい着想を得る といった双方にメリットがあるかもしれませんし。
130 : >>129 オープンソースって勝手に改変してくれる分にはいいけどパッチとか 送ってこられるとうざくない? 正直ソースが穢れるけど、拒否するとアンチ化しそうだし。
131 : そりゃ、コミュニケーション力がないだけだな。 適当にあしらえばいいし、ソースは参考になるなら自分で書き直して入れましたでいい。 オープンソースと、みんなで開発はまた別だよ。
132 : すべての会話音声を録音して流せば解決
133 : >>109 >>94 氏 このプログラムは「Alice Project」と同じようなことができるのかい? 又某コナンの蝶ネクタイ型変声機みたいな機能を追加する予定とかはあるのかい?
134 : >>131 参考になるものは送ってこないから。 これだけは断言できる。 勘弁してーってお願いしたくなるようなうんこ送りつけて奇妙な主張を しつこくしてくるのが関の山。 いやほんとしつこくされるよ。 住所なんか当たり前のように調べてくるしね。 それなりの覚悟がないとオープンソースは無理だよ。
135 : どうでもいいがペンタックスの合成ライブラリはかなり巧い
136 : >>134 そんなわけねえだろうよw 確かに参考になるものは送られてこないのは確かだけど、しつこくは されないだろう。 しかもメールアドレスを公開しないでオープンソース化すればいいだけの話。
137 : オープンソース化ってもごく一部のソフト以外はパッチが送られてくるどころか読まれることすらほとんどなさそーな悪寒。
138 : てか、ソース見せ合うだけなら どっかに無料のうpロダ用意してそこに勝手にソースをうpしたり、落としたりすれば良いんでは?
139 : 反オプソ厨は、言い訳が稚拙なのがなw 普通に、手柄を独り占めしたい、ソースを見せたくない、でいいんだよw
140 : >>136 じゃぁそうしてみろよ。 どっかのロダに匿名で上げて見れ。 おれの創作物を勝手にオープンソースにしやがったってやつが3人は 出てくるから。 そうすればオープンソース厨の怖さが少しは理解できるだろ。 奴らは(無料も含めた)金のためなら何でもするからな。
141 : >>139 バカなオプソ厨を装った釣りとかネタか? 作った人間が手柄を独り占めできるのは当然の権利で言い訳とかいらんだろ? むしろオプソ厨のほうが「あなたの手柄をタダ取りしたいんでソース見せてください」ってのを いかにオブラートにくるんでうまく言えるか工夫しなきゃいけない立場なのに。
142 : >>141 だったら言い訳しなくていいよw 言い訳するってのは、何らかの心の働きだから。 いちいち、オプソ厨がウザイとか、ソースが汚いから見せるのが嫌だとか、しょうもない言い訳はいらんから。 まぁ、他の人のソースパクってて本当に見せられない奴も中にはいるだろうけどw
143 : >>142 え?マジなの?本当はオプソ厨のふりしたネガキャンだよな?
144 : >>140 だったらGPLもしくはGNU等のライセンスで公開すれば? ちなみに、俺もオープンソースで公開したんたが、そんなことはなかったと思うな。
145 : 誰か再うpしてくれないか 間違えて削除してしまった
146 : >>144 匿名でGPL等でうぷした場合の話だろ。 おまえは都合の悪い話は一切読めないのか? クレクレ言ってる時点でオプソ厨のニオイがプンプンしてるんだよ。 匿名じゃない場合は過去ログ参照。
147 : こういう流れを作ってグダグダにするのがオプソ厨の狙いなんだから相手するなよw
148 : 嫌なら嫌だって言えば良いだけだしな。 つーか、厨はクローズドの方がよってくると思うがw あれしてくれ、これしてくれってw オープンソース・フリーソフトなら、自分でやれ!で終わるw
149 : もし公開するならある程度完成度をあげてからの方がいいよ。オリジナルは俺だと主張できるくらいにね。 中途半端なソースを公開する必要なんて無い。
150 : 実際の声からサンプリングするんじゃなくて、人間の声帯を物理モデリングして作れよ。
151 : 式うpしてくれ
152 : まずは模型を作るところから始めるんだ
153 : >>146 >勘弁してーってお願いしたくなるようなうんこ送りつけて奇妙な主張を >しつこくしてくるのが関の山。 >いやほんとしつこくされるよ。 >住所なんか当たり前のように調べてくるしね。 匿名なのにどうやって送りつけるんだい? 話が矛盾してるぞ。
154 : Shut the fuck up and write some code.
155 : >>153 ほんとに頭の悪い子だな。 頭の悪さは公表しなくていいからそっと隠しておけよ。 100回読みなおせばお前でも理解できるかも知れんから読みなおせ。
156 : とりあえず Win + U×2 しとけ
157 : 自分の声から音声を合成し、入力したテキストを読み上げられるソフトを、OKIが発売した。病気などで声を失った人に、自分の声の代わりに使ってもらいたいという。 http://www.itmedia.co.jp/news/articles/0807/25/news011.html
158 : 声を失った人が、自分の声から音声を合成することは出来ないと思うのだが
159 : って書いてから記事を読んで理解した。すまそ。
160 : >>146 そんなの匿名でやればいい話
161 : まだ作ってないのかおまえら
162 : >>160 だからお前がやればいいだろ。 オプソ厨の最大の欠点は、人が作ったものはクレクレ言って、オプソにしなければ ならないと一生懸命言うけど、自分では何も作らないことだな。 社会正義のためとか言うけど、そんなものに興味があるなら自分でやれ。 おれは全然興味ない。
163 : ところでバーローの蝶ネクタイ型変声機みたいな物はできるのかね?
164 : ぼかりすは似たようなもんだと思う。
165 : 韻律も含めて他人の声に変換してもらいたいなー
166 : しかし、オープンソースにするとパッチとかがウザイとか言うけど、 どう考えてもクローズドの方が、オープンにしろって要望も含めて、あれやってくれこれやってくれって五月蝿いと思うがw まぁ、かまってちゃんならそっちの方がいいんだろうけどw
167 : 某コナンの蝶ネクタイ型変声機みたいな物はどうやって作るんだい? そのアルゴリズム等を提案してみてください。
168 : 変声機はどっちかというと、元の音声をいかに消すかが肝だと思うw
169 : 音声認識して音声合成しなおせばいいんじゃね?
170 : ところで音声合成ってどうやって作るんだい? アルゴリズムを提案してくれ。
171 : 基本は、サンプリングのツギハギ。 声帯を物理シミュレーションしてるのは、あるのかな?
172 : >>170 ttp://recognition.web.fc2.com/synthe/ >>171 党・本多
173 : 94氏 この掲示板みてたら、現状を報告してくれ。
174 : 変声機つくっても犯罪用途しか思いつかないなぁw
175 : マイナー分野である音声合成技術が、オレオレ詐欺に使われることで一躍世間の注目を浴びる、と。
176 : それ既にあるぞ
177 : こんなんみつけた ttp://d.hatena.ne.jp/shoozhoo/20080712 やっぱ英語用の音声合成は日本語じゃ役立たずなのか?
178 : ところで誰か音声合成プログラムを作っている人いるかね?
179 : ボイーン
180 : >>171 面白い特許を見つけました。シンセサイザーの方では表現力が高いとして 90年代に研究され尽くされた物理モデリングアルゴリズムDWGを 音声シンセサイザーに応用するものです。 http://www.patentgenius.com/patent/5528726.html
181 : よく見つけたな。ちょっと読んでみるか
182 : http://prius.hitachi.co.jp/prius/pc/2005may/yomiwaza/index.html >※本ソフトウェアが出力する読み上げ音声の著作権は株式会社 日立製作所が保有します。 これってどうなの? ここまで著作権を主張できるもんなの?
183 : フォントの著作権の問題に似てるな
184 : そろそろ何か作りれたか?
185 : 日本語でおk
186 : >>94 氏へ この掲示板みてたら、なんでもいいから報告をしてくれ。
187 : http://iwasete.net/
188 : age
189 : 保守
190 : >>182 しかし読み上げた結果の音声を自由に使えなきゃ意味ないよな。
191 : そういえば、ちょっと前にアニメのキャラクターで音声合成するのがあったけど、あのベースになっているアルゴリズムはなんなんだろ。 藤崎モデルだっけ、あれとはちょっと違うでしょ?
192 : 波形接続だろ
193 : でも、通常の波形接続リソースとは変えないとキャラっぽいしゃべりは無理だろ?
194 : キャラ声でキャラせりふを録音しておくんだからOKだろ?
195 : それじゃうまくいかないんじゃないか? とはいえ、音声リソースに手作業で情報追加すれば何とかなるのかや。
196 : 量を確保できればなんとかなる。それが波形接続のメリット。 韻律モデルが重要になるが、機械学習のアルゴリズムも確立してきてるし、 そこそこのクオリティはすぐ出せるはず。
197 : >>196 統計だから最適なデータを用意すればそこそこできるのはわかるけど、 ウェブサービスだったのは意外とすぐに出てきた感じがしたんだ。 大量に用意したら、波形を分割するて作業とか増えるじゃん。 韻律モデルは声優の真似ができるほどのものはまだないと思ってたけど。
198 : overlap add
199 : >>198 わからんな、単語並べられてもさ。
200 : >>191 のアルゴリズムがoverlap additionだと言いたいんだろうな
201 : 簡単な波形接続プログラム作ってみた Ne_46114 makaron
202 : ttp://www1.axfc.net/uploader/Ne/so/46114 みんながみんなお前や俺のようなワレザーじゃないんだからURLを併記するべき それはそうと入力した語句がwavに反映されない。 buliding database done input text こんにちわ。 1 sp /*/ 614 400 242
203 : 申し訳ない。上でそこ使ってたから、デフォかと思ったよ。 で、音が出ないってのだけど、dataフォルダの中にポッドキャストの wavファイルは作ってあるんだよね?んー、なんでだろう。
204 : もちろん 全てREADMEの通りに行った 原因が思いつかないなら結構場所食うし消すわ
205 : >>202 すいません。それをもう一度うpしてくれませんか? 後このソフトはオープンソースですか?
206 : おっと盗賊が現れた。
207 : >>201 >>202 のURLからダウンロードできないんだが・・・ もう一度うpしてくれるか?
208 : もうなくなっているようだな。
209 : だれでもいいからうpしてくれ
210 : そういえば、声を好きな人の声に変換するものがあったけど、あのアルゴリズムはどうなっているんだろう?
211 : 好きな人の声ってなんだよ?
212 : 俺で言えば佐伯香織ちゃんの声だよ
213 : 音声認識して音声再生してるだけじゃないの?
214 : >>210 それって声質変換のことじゃないの? 声質変換って声の周波数で他人の声に変えることかな?
215 : ふぉるまんと0の成分を上げ下げすればいいんじゃね?
216 : >>215 それで本当に他人の声に変えることができるの? だれか詳しい人教えて
217 : >>216 おとこ、おんな、こども、 っぽく変換はできる。 でも、20年前の技術だぞ?
218 : 声質変換技術で他人の声の変換するにはどのようにすればいいのかな?
219 : んなの英語の論文調べなよ。
220 : 声優いわく、BIGLOBEのコエラボは5日間の収録だそうだぞ
221 : ttp://pinpon.okilab.jp/potential.html ワロタww
222 : >>221 ちょーやばくねー。
223 : >>221 なんかムカつく。でもそれがいい
224 : age
225 : なぜ、VOICE TEXTがでてこない・・・ 市販の音声合成ではあれの出来がかなりよい
226 : Harukaってコメント程度ならいいけど、 聞き続けるとムカつきそうw
227 : >>226 確かにw 最初は可愛いと思うがだんだんゆとりの女子高生に思えてきたw
228 : 声質を変換できる方法ってあるのかな?
229 : うん
230 : Q. 自動保守#K9K?_D[L とは一体何なのか? A. 外部サイトへの突撃大好きな真性厨房 韓国突撃でお馴染みの自動保守 最近は自動焼人 ★として2ちゃんねるのボランティアにも精を出す日々 だがそんな彼にも、人間らしい部分はあったのだ… 名言集 『アパッチ砲はワシが作った』 『お前が規制系キャップ取れるか審査してやるよ』 『いつもサボってばかりのキャップがウゼえ』 『俺、100人規模の集団サイバーテロの主犯だったこともあるんだぜ』 『俺の経歴カックイイだろ?』 最近のニュース 8月15日の韓国突撃の際に歴史的大敗を喫する。ラジオでの敗戦宣言のときに声が震えていた 本人は体調不良と言っているが… ---------------------------------------------- この自動焼人 ★メールマガジンの配信停止をご希望される方は http://qb5.2ch.net/test/read.cgi/sec2chd/1250169591/ にて自動焼人 ★までご連絡ください
231 : 声質を変換できる方法ってあるの?
232 : うん
233 : ほしゅ
234 : VOCALOID2 シーケンス (VSQ) ファイルのフォーマット (推定) ttp://www5d.biglobe.ne.jp/~noocyte/Programming/FileFormat/VSQ.html
235 : つOpenJtalk
236 : 肖像画から頭蓋骨のCGを作成して声を再現する奴があったと思うんだがあれはどうやるんだろう? 誰か教えて
237 : あったね
238 : >>237 どうやるの?
239 : やっぱり音響モデルじゃないのかな
240 : >>239 音響モデル? 詳しく教えて
241 : 肖像画から頭蓋骨のCGを作成して声を再現する奴があったと思うんだがあれはどうやるんだろう? 誰か教えて
242 : あったね
243 : >>242 どうやるの?
244 : やっぱり音響モデルじゃないのかな
245 : >>244 日本音響研究所に肖像画から頭蓋骨のCGを作成して声を再現するものがあったと思うがあれはどうやるの?
246 : 肖像画からCGを作成するのは六角大王の手法でできるんじゃね
247 : 涼宮ハルヒのエンドレス夏休みを見ている気分ですねわかります
248 : >>246 どうやってやる?
249 : マジレスすると、頭蓋のサイズから声道長を推定して、 フォルマント位置を決めるって感じか。 ま、肖像画とかから復元した声ってほとんど当てにならないけどな。
250 : >>249 肖像画からどうやって頭蓋のサイズを出してるの?
251 : 俺の写真から声を復元したとして、 俺の声にどこまで近くなるんだろうか?
252 : >>251 そもそも顔写真から頭蓋のサイズを割り出すにはどうやって割り出せばいいの?
253 : その写真に写りこんでいる、寸法の判っているものを基準にすればいいんじゃね
254 : ネッシーの捏造写真だってサイズ割り出されてたもんな
255 : 波紋の伝播周期からサイズが決定できるってことかな。
256 :
257 : w
258 : >>253 でも肖像画に寸法の判っているものがなかったらどうするの?
259 : 何でお前らそんなに世話焼きなの?
260 : >>258 そんときは、目玉の大きさとか目の感覚とか、統計的手法に頼ればいいんじゃね >>259 暇なんじゃね?
261 : >>258 声のキャラクタってのは体格以外の要素も絡むわけで、 例えば故人の歌声を再現、とかやりたい場合は大抵残念な結果になるよ。 そもそもここで聞くより元の論文探して見当つけたほうが早くね? >>260 こういうのも頭部画像だけで測れちゃったり? ttp://m.onet.pl/_m/94cfc8bff0ea6227e4a8547781d30f45,35,1.jpg ttp://image.blog.livedoor.jp/laba_q/imgs/1/9/19f92fc1.jpg
262 : サイズはパラメータにしておいて、 平均値を使った場合と その前後の値を使った場合と全部試してみて この中のどれかですって言えばいいんじゃない
263 : >>261 ググッても見つからないんだが・・・
264 : >>261 探しても見つからないよ
265 : 一卵性双生児の場合、声(歌声も)は全く同じではないだろ だから頭部の数値だけでは不十分な気がする
266 : >>265 でも↓を見ると http://www.onkyo-lab.com/mv.html >そこで肖像画、写真、銅像等があれば、性別、身長、年齢、顔形を特定してその人の発声器官をコンピュータ上で電子回路に置き換え、 >シミュレーションして声を合成することが出来るのです。 って書かれているんだが・・・・ てかそもそも肖像画からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているんだろう?
267 : 声を合成できる事と その声が実際の声と一致している事とは別だよ
268 : >>267 うん。だけど肖像画からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているの?
269 : 日本音響研究所に不可能はない
270 : >>269 だからどうやってやったの?
271 : 日本音響研究所のおっさんに直接聞けよ
272 : >>271 直接聞いても企業秘密で答えてくれない おまえらの力で考えるしかない
273 : >>266 肖像画が残るような人物なら性別は記録からすぐ分かるだろ 低脳 顔の各部分の寸法に関しては、 肖像画とその人物の民族平均を比較するんだよ。 低脳
274 : 【歴史】169センチ、62キロだった龍馬 大男伝説に一石 山梨 http://tsushima.2ch.net/test/read.cgi/newsplus/1272325001/ 甲州の研究家襟幅から算出 甲州市塩山上井尻の郷土史研究家、矢崎勝巳さんが写真から体格を測定する方法を 考案し、幕末の志士・坂本龍馬(1835〜67年)の身長を169センチ、体重を62・1キロと 算出した。平均身長が150センチ台だった幕末当時、龍馬の身長は5尺7寸(173センチ) とも6尺(182センチ)とも伝えられ、長い間大男だったとされてきたが、一石を投じそうだ。 矢崎さんは、当時の着物の襟幅が6センチか6・5センチの2種類しかないことに着目した。 6センチとすると背が低くなりすぎるため、6・5センチとして龍馬の立位の肖像写真で算出した。 2007年10月の日本人類学会で、龍馬の身長は170センチに満たなかったとの試算を 紹介したのに続き、昨年10月の同学会では体格指数BMIで体重を試算する方法も発表した。 このほど、龍馬のBMI指数を標準体形の「18・5以上25未満」と仮定し、標準値の (以下省略) ソース:読売新聞 http://www.yomiuri.co.jp/e-japan/yamanashi/news/20100426-OYT8T01349.htm 画像:坂本龍馬の肖像写真 http://www.yomiuri.co.jp/photo/20100426-932069-1-L.jpg
275 : ところで証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているんだろう?
276 : おーい証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているんだろう?
277 : ねえねえ証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているの?
278 : そして誰もいなくなった
279 : ところで証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているんだろう?
280 : 男の声をピッチ上げるだけだと、女っぽくならないのは何故だろう
281 : ボカロで言うGENとかUTAUでいうgフラグを調整する必要がある
282 : ところで証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているんだろう?
283 : ねえねえ証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているんだろう?
284 : おーい証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているんだろう?
285 : 発声時における声帯から口までの空気の流れを粒子法でモデル化して 音声合成を作ってみたいと急に思い立ったんだが、右も左も分からない。 とりあえず、これは圧縮性流れと見なしてシミュレートすればいいのか
286 : ところで証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出すの?
287 : >>286 一般的には統計を利用する。
288 : >>287 どうやってやるの? 具体的に教えてくれる?
289 : てかそもそも証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出すの?
290 : 証明写真などの顔写真から統計を使ってどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出すの?
291 : ところで証明写真などの顔写真から統計を使ってどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出すの?
292 : >>291 とりあえず証明写真見て性別を5割以上の確率で当てられないバカはお前くらいじゃねーの
293 : ところで証明写真などの顔写真から統計を使ってどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出すの?
294 : きっと後ろの壁に横線が並んでるんだよ。
295 : うん。だけど証明写真などの顔写真から統計を使ってどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出すの?
296 : >>1 を見て 鏡の国のレジェンドでのりぴーの声を1音ずつ喋らすことができるんだけど それを録音してX68にADPCMで取り込んでおいて順次再生して「おR」とか 「ちんちんいれて」とか喋らせて大喜びしてたのを思い出した
297 : 音について質問です 例で Windows Wave 無圧縮 PCM 16 bit 44kHz サンプリング ステレオ wav format http://www.kk.iij4u.or.jp/~kondo/wave/#wav http://hooktail.org/computer/index.php?Wave%A5%D5%A5%A1%A5%A4%A5%EB%A4%F2%C6%FE%BD%D0%CE%CF%A4%B7%A4%C6%A4%DF%A4%EB 波形データはステレオの場合LRLR・・ と並ぶなどの説明までは沢山の日本語サイトであるんですけど その多くがWAV ファイルヘッダ情報ばかり詳しく述べて肝心のデータ部分の説明がおざなりで解りません。 波形データ符号付き整数 (-32768 - 32767) 16ビットの場合 FFFF8000 〜 0 〜 7FFF リトルエンディアン にすると 00 80 FF FF 〜 00 00 00 00 〜 FF 7F 00 00 ですよね。 data (波形データのバイト数) 波形データL 波形データR 波形データL 波形データR ですよね。 解らないのは、リニア PCM の場合 整数16bit / リトルエンディアン L0L1L2L3 / L3 L2 L1 L0 R0R1R2R3 / R3 R2 R1 R0 格納順番は これ?> data (波形データのバイト数) L3 R3 L2 R2 L1 R1 L0 R0 L3 R3 L2 R2 L1 R1 L0 R0 L3 R3 L2 R2 L1 R1 L0 R0 コレ?> data (波形データのバイト数) L3 L2 L1 L0 R3 R2 R1 R0 L3 L2 L1 L0 R3 R2 R1 R0 L3 L2 L1 L0 R3 R2 R1 R0 日本語サイトでここが詳しいとリンクしている英語サイト https://ccrma.stanford.edu/courses/422/projects/WaveFormat/ では矢印のつけ方がどちらとも受け取れるので 音が変
298 : >リトルエンディアン にすると 00 80 FF FF 〜 00 00 00 00 〜 FF 7F 00 00 ですよね。 それ32bitじゃね?
299 : >>297 16ビットは2バイトだと気がつけば格納順番も分かると思います。 波形データ符号付き整数 (-32768 - 32767) 16ビットの場合 8000 〜 0 〜 7FFF リトルエンディアン にすると 00 80 〜 00 00 〜 FF 7F data (波形データのバイト数) 波形データL 波形データR 波形データL 波形データR 整数16bit/リトルエンディアン L0L1 / L1 L0 R0R1 / R1 R0 格納順番はこうなります。 data (波形データのバイト数) L1 L0 R1 R0 L1 L0 R1 R0 L1 L0 R1 R0
300 : SAPIの話かと思ったらすれ違いみたい
301 : ありがと やっと謎がとけたよ 音声組替えで音の基本配置がわかんなかったから音声合成のこのスレにきたんですが スレ違いごめんなさい 変調なんかもドコのスレだろ?
302 : グーグル検索 ↓ 念のためうぷ(´・ω・`)まわいが重要 グーグル検索 ↓ やらなくてもやられるし 日本語以外話せないし テレビやネットで説明
303 : >>1 何という手間のかかる事を...。 波型とかエンベロープとか、学ばなきゃいけない事が、 山ほどあるのに。
304 : これの話者適応とか使えそうなんだけど、具体的なやり方がわからん http://www.sp.nitech.ac.jp/index.php?%A5%DB%A1%BC%A5%E0%2F%B8%A6%B5%E6%C6%E2%CD%C6%2F%B2%BB%C0%BC%B9%E7%C0%AE
305 : >>304 話者適応は英語で Speaker Adaptation です。 HMM音声合成ツールキット HTS 2.0以降に その機能があるのでソースを読めばわかると思います。 HMM-based Speech Synthesis System (HTS) - History http://hts.sp.nitech.ac.jp/?History#z5d7dda6 >December 29, 2006 > HTS version 2.0 was finally released :-) > The new features are > * Speaker adaptation, adaptive training, and semi-tied covariance transforms are supported for multi-stream HMMs/MSD-HMMs. > * MLLRMEAN, MLLRCOV, and CMLLR-based adaptation. > * CMLLR-based adaptive training. > * Decision trees for context clustering can be used to define regression classes for adaptation. > * HMGenS can read MLLRMEAN, MLLRCOV, CMLLR, and SEMIT transforms for adaptation.
306 : >>305 サンクス。ドキュメント見ながら色々試してみようと思う とりあえずHTSの話者適応デモ動かしてるけど、終わらないし、2〜3日かかるらしい 最終的にはwavファイルとその文章を与えたらその声で音声合成できるようにしたい
307 : 統計学と信号処理と音声言語処理と機械学習を 勉強すれば何とかなるかな。
308 : >>306 できた?興味あるんだけど
309 : >>308 できてない とりあえず、デモのデータを使って音響モデルを作成するところまでできた 音響モデルができたらテキストからその声で音声の再生もできる 今は、自作のデータからモデル作る途中でエラーが出てるからそれの対処中
310 : Rubyバカにしてる子ってさ 変数に$ついてる言語触ってるって事だよね いちいちSHIFT+4キーおして $ 打ちまくってる感触はどう? でもお前はゴミなのにねw
311 : これ ; デリミタっていうんだけどさ、これをつけなきゃエラーになるような そんな言語使ってる奴ってどうみてもゴミだと思うんだけど もしかして「;」これ打ち忘れてコンパイルエラー出すのが楽しいの? そうか、二度と話かけんなよ Rよゴミ
312 : ゆっくり声のライブラリって規則合成ってのらしいんだけど、これは素片接続法やHMM合成とは全く違う方法なの?素片接続の一種?
313 : 規則合成は、規則に基づいて音声合成することなので、合成方式が波形接続かHMM合成かとは別。というか、上の分類。 ゆっくりは、たぶん、LPCとかのパラメータからのボコーダ方式。ボコーダという点ではHMM合成と同じ。
314 : >>313 ありがとう。勉強になります。
315 : NHK Eテレ Rの法則という番組にて歌声合成が取り上げられるようです. また,その企画に伴い,4/25から番組HPでUTAU音源がDL出来るようになります. 男声と女声の2音源です.その音源作りを担当させていただきました!
316 : UTAUよりまともな音声合成ソフトないの?
317 : 日本音響研究所が開発したモンタージュボイスっていうやつどうやればできるの? 詳しく教えてくれ
318 : 日本音響研究所が開発したモンタージュボイスっていうやつどうやればできるの? 詳しく教えてくれ
319 : 誰かHMM音声合成を語れ
320 : フジテレビの杏梨ルネってどこの技術?
321 : >>320 なんかの記事でドコモのiコンシェルと同じを使ってるって言ってたな それが確かならHOYAのVoiceTextってことになる
322 : なるほど
323 : おれの98は、ピポッと起動するから現在形
324 : 難しいな
325 :
326 :2013/10/18 http://www.nicovideo.jp/watch/sm21933917 http://www.nicovideo.jp/watch/sm21947823
TOP カテ一覧 スレ一覧 2ch元 削除依頼 ▲
■暗号技術【ROUNDsurea】■ (574)
Git 7 (190)
Excel VBA 質問スレ Part32 (377)
音声合成プログラムを作りる (326)
【JavaScript】スクリプト バトルロワイヤル40【pl,rb,php,py】 (801)
簡単なプログラム言語って何? (142)
--log9.info------------------
【EUR/USD】ユーロドルはどうなる?4049【ユロドル専用】 (1001)
専業トレーダーの生活【47】 (227)
【入門】FX初心者質問スレPart70【Noob】 (245)
【AUD/USD】豪ドルスト専用スレpart113 (1001)
【USD/JPY】新ドル円スレ2029【雑談・コテ禁止】 (1001)
【NY原油】誰かが凄い勢いでリアルを書くスレ$4273 (450)
【USD/JPY】新ドル円スレ2028【雑談・コテ禁止】 (1001)
【USD/JPY】新ドル円スレ2027【雑談・コテ禁止】 (1001)
【USD/JPY】ドル円専用スレ Part22206【$\】 (1001)
【EUR/JPY】ユーロ円専用スレ4680【雇用統計直前】 (1001)
【USD/JPY】新ドル円スレ2025【雑談・コテ禁止】 (1001)
【EUR/USD】ユーロドルはどうなる?4048【ユロドル専用】 (1001)
【USD/JPY】新ドル円スレ2025【雑談・コテ禁止】 (1001)
【ZAR】南アフリカランドPart274【11円】 (1001)
【AUD】豪ドルのレートに一喜一憂するスレpart2999 (1001)
【USD/JPY】ドル円専用スレ Part22206【$\】 (1001)
--log55.com------------------
何年間同じMacをメインで使い続けていますか?
OS X 10.11 El Capitan Part 17
WhatRoute 1.8
Macのワープロソフト 総合スレッド part2
ティム・クック総合 ★2
【Final Cut Pro X】Motion 5
スレッドを立てるまでもない質問 Part82
Macのテキストエディタ総合 Part13