ピックワールド(PIC World)

インフォメーション

この記事は 2021年08月18日 に以下のカテゴリに投稿されました Others (その他).

この記事のタグ

, , , , , ,


「音声合成」の基礎から実装までを解説した、中級者以上向けの実践的な技術書『Pythonで学ぶ音声合成』を8月12日(木)に発売

ほぉぅ。

Python でできるとは、興味ありですな。

実はもう、数十年も前だけど、KDDI の研究所で仕事をしていたときに、こんなことに携わった。

音声合成もそうだったのだが、国際電話の音声をどうやったら明瞭にかつ圧縮してリアルタイムに伝送できるかという実験プロジェクト。

それまでは、アナログ伝送が主流だったが、デジタル化すると言う目的もあったようだけれどね。

論理とか、計算とか、まぁ、それに基づいて行うのだが、最後には人間の耳で聞いてってことになるわけだが、個人的には、それぞれ使っている言語も違うのだし、結構難しいなって感じがしていたけどね。

もちろんその際には、MELCOM 700III とか言うメインフレームと FORTRAN の組み合わせだっけど。

磁気テープにデータを書き出して、それを聞くのだが、ちゃんと聞こえたときには、なかなか感動したよ。

そんな思いが、こんな書籍で、しかも Python でできるなんて、それは面白そうですよね。

「音声合成」の基礎から実装までを解説した、中級者以上向けの実践的な技術書『Pythonで学ぶ音声合成』を8月12日(木)に発売
株式会社インプレスホールディングス

インプレスグループでIT関連メディア事業を展開する株式会社インプレス(本社:東京都千代田区、代表取締役社長:小川 亨)は、音声合成の基礎から実装までを解説した書籍『Pythonで学ぶ音声合成』を2021年8月12日(木)に発売いたします。

Pythonで学ぶ音声合成 - インプレス

Pythonで学ぶ音声合成 – インプレス

■音声合成の基礎から最新手法までカバー
「音声合成」とは、人間の音声を人工的に作り出す音声情報処理の一分野です。近年、深層学習(deep learning)の発展に伴い、機械学習による音声合成の技術は飛躍的に進歩しています。また、PyTorch、TensorFlowをはじめとした、深層学習のためのオープンソースソフトウェアとオープンソースコミュニティの発展により、研究者や技術者が公開しているソフトウェアやソースコードを無償で誰もが手に入れることができるようになったことで、専門家でなくても取り組みやすくなってきているといえます。

しかしその一方で、音声合成の最新手法について書かれた日本語の書籍は限られており(執筆当時)、初学者にはハードルが高い、という声もありました。本書はその問題を解決したいとの思いで誕生しました。全章を通して、従来の統計的音声合成システムの基礎から深層学習による近年の音声合成の発展まで詳説しています。

■日本語の音声合成システムの作り方を丁寧に解説
また、Pythonを使って深層学習に基づく日本語の音声合成システムを作る方法も丁寧に解説しています。ソースコードはすべてGitHub(https://github.com/r9y9/ttslearn)で公開しているので、初学者も実際に手を動かしながら学ぶことができます。

本書は、2020年8月24日刊行『Pythonで学ぶ音源分離』(戸上真人著)、2021年5月20日刊行『Pythonで学ぶ音声認識』(高島遼一著)に続く「機械学習実践シリーズ」の3冊目です。

■本書の章立て
序章
第1章 音声合成とは?
第2章 音声の情報と物理
第3章 統計的音声合成
第4章 Pythonによる音声信号処理
第5章 深層学習に基づく統計的パラメトリック音声合成
第6章 日本語DNN音声合成システムの実装
第7章 WaveNet:深層学習に基づく音声波形の生成モデル
第8章 日本語WaveNet音声合成システムの実装
第9章 Tacotron 2:一貫学習を狙った音声合成
第10章 日本語Tacotronに基づく音声合成システムの実装
第11章 音声合成システムを新たに作るときに

〈本書はこんな人におすすめです〉音声処理のエンジニア、研究者
理系の大学生
機械学習や音声処理に興味のある人

〈紙面イメージ〉

Pythonで学ぶ音声合成 - インプレス

Pythonで学ぶ音声合成 – インプレス

第6章では、深層学習に基づく統計的パラメトリック音声合成の枠組みに則り、日本語音声合成システムを実装する方法について解説しています。

Pythonで学ぶ音声合成 - インプレス

Pythonで学ぶ音声合成 – インプレス

第10章では、前章までで解説したTacotron 2に基づき、日本語音声合成システムの実装について解説しています。

■書籍の詳細

Pythonで学ぶ音声合成 - インプレス

Pythonで学ぶ音声合成 – インプレス

書名:Pythonで学ぶ音声合成 機械学習実践シリーズ
著者:山本龍一・高道慎之介
発売日:2021年8月12日(木)
ページ数:352ページ
サイズ:B5変型版
定価:3,850円(本体3,500円+税10%)
電子版価格:3,850円(本体3,500円+税10%)  ※インプレス直販価格
ISBN:978-4-295-01227-6
◇Amazonの書籍情報ページ:

◇インプレスの書籍情報ページ:https://book.impress.co.jp/books/1120101073/

■著者プロフィール
山本龍一(やまもと・りゅういち)
LINE株式会社Voiceチーム、音声処理開発者・研究者。2013年に名古屋工業大学大学院博士前期課程修了。チームラボ株式会社を経て、2018年2月にLINE株式会社に入社(現職)。2018年9月から2019年7月までNAVER Corp. Clova Voiceチームにて音声研究を行う。音声合成の研究開発に従事。WaveNetやTacotronに代表される音声合成に関するオープンソースソフトウェアを多数公開。

高道慎之介(たかみち・しんのすけ)
東京大学大学院情報理工学系研究科助教。2011年に長岡技術科学大学を卒業。2013年・2016年それぞれに奈良先端科学技術大学院大学博士前期・後期課程を修了。2018年より東京大学助教(現職)。博士(工学)。音声合成変換、音声信号処理の研究に従事。

■「機械学習実践シリーズ」とは
本書を通して「実際に動くものが作れる」ことを目指して、特定の技術のアルゴリズムと、それを実装するためのコードを豊富に紹介するシリーズです。機械学習の基本から実装までを学ぶことができます。

以上

なかなかおもしろそうな書籍ですね。

(多分)基礎は覚えていると思うので、興味あるので、購入してみようか・・

でも、まだ、やろうと思ってやってないことがたくさんある。

さて、どうするか。

少し考えよう。


コメントを残す

最近の投稿

最近のコメント

アーカイブ