NTTデータ先端技術株式会社
日本語に特化した大規模言語モデルがもたらすAIサービスの進化
語学
~高精度化する新聞記事「見出し」の自動生成~
近年、人間の言語(自然言語)をコンピュータで処理し内容を抽出する自然言語処理の分野において、汎用的な大規模言語モデルの開発が世界中で活発に行われています。言語モデルとは、自然言語による質問応答や文章生成などができるAIで、米OpenAIが開発した「GPT-3」が代表的ですが、2022年5月には、米Metaが「GPT-3」に匹敵する大規模言語モデル「Open Pretrained Transformer(OPT-175B)」を研究者向けに公開するなど、英語圏を中心に開発競争を繰り広げています。こうしたなか、日本語に特化した大規模言語モデルの開発も盛んになってきており、今後の動向が注目されています。
言語モデルの大規模化が性能向上に直結
2020年5月の「GPT-3」リリース以降、言語モデルの大規模化は加速しています。言語モデルの性能を表す一つの指標であるパラメータ数は「GPT-3」で1750億個に上り、前バージョン「GPT-2」の約117倍以上となりました。また2021年6月には、中国政府による資金援助を受けている北京智源人工知能研究院が1兆7500億ものパラメータを持つ「悟道2.0」を発表するなど、言語モデルの大規模化は引き続き効果的だと判断されています。日本語に特化した大規模言語モデルは、LINE社がNAVER社と共同開発を進めている「HyperCLOVA」や、rinna社が開発した「日本語GPT言語モデル」などがありますが、現時点では、先述した英語圏などの言語モデルに比べると規模が小さいと言えます。
日本語に特化した大規模言語モデルの開発が加速
英語圏の言語モデルで日本語を使用する際、コーパス(言語資源データ)が少なく、さらにノイズが多いため、上手く除去しなければならないという課題があり、またインターネット上のテキストは、ウィキペディアのコピーが多いことから適切な教師データも少ないという状況でした。さらに日本語は、語順の自由度が高いことや日常における必須語が多いこと、様々な表記や同じ音で異なる言葉が存在すること、方言の多様性から同じ意味の単語でも異なる単語の組み合わせになること、また、話し言葉では文中の主語や目的語を省略したりしがちなので、テキストを読む際に文中の単語の省略を考慮しながら意味を解釈していく必要があることなど、独自の難しさがあります。それゆえに、これらの課題を解消しようと日本語に特化した言語モデルの進化が期待されているのです。
こうしたなか、LINE社とNAVER社が日本語に特化した言語モデルを「GPT-3」レベルで開発すると力を注いでいるのが「HyperCLOVA」です。「HyperCLOVA」は、膨大なデータを学習させたモデルにより、少量の言語をインプットすることで文脈にあった言語処理を可能とし、人間との自然でスムーズな対話を実現しています。現在、パラメータ数が67億・130億・390億の3つのモデルがあり、390億モデルでは、会話の滑らかさ、そしてトピックの追従度は98パーセントの性能を誇っています。また、2022年1月時点で820億モデルの開発が進んでおり、さらに2022年中には、2040億以上のモデルが活用されていくということです。これらのモデル構築に使われているコーパス「LINE LM Corpus」は、2019年以降「BERT(言語モデル)」のモデル構築のために作られたコーパスをベースにしており、現在、約100億サンプル・約1.8テラバイト・約5000億トークンに達し、徐々にサイズと品質が向上しているそうです。現在、「HyperCLOVA」以外にも、日本語に特化した大規模言語モデルの開発は活発に行われており、フリーで使用できるモデルの公開からコミュニティ形成が広がりつつあります。
新聞記事本文から高精度な「見出し」を自動生成
自然言語処理を活用したAIサービスのビジネス適用が様々な業界で進むなか、NTTデータ先端技術は河北新報社と、新聞記事の「本文」を読み込ませることで自動的に「見出し」を生成させる実証実験を行っています。これには、「GPT-3」と同様のテキスト生成を得意とする言語モデル「日本語版MASS」が活用されており、過去の新聞記事6万件を学習していることから、生成された見出しは日本語として自然で、人間が書いたものと見分けがつかないぐらい高精度です。
またNTTデータ先端技術では、ナレッジマネジメントの分野でも自然言語処理の活用に取り組んでいます。社内情報共有サイトにアップロードされている資料の検索性向上や内容理解の効率化を目的に、アップロードされた資料の内容を「日本語版MASS」が認識して3行に要約する実験を行い、実用的な要約品質が得られることを確認しました。
NTTデータ先端技術は、バックオフィス業務の自動化・効率化に向けた自然言語処理ソリューション「INTELLILINKバックオフィスNLP」を提供しています。「INTELLILINKバックオフィスNLP」は、バックオフィス業務に必要となる文書分類・知識読解・自動要約など様々な言語理解が可能な各種AI機能を具備し、必要に応じた機能のみを組み合わせて活用できることで、コストを抑えながら業務への迅速なAI適用を実現します。
参考情報
・ソリューション:INTELLILINK バックオフィスNLP
https://www.intellilink.co.jp/business/software/backofficenlp.aspx
・コラム:世界で開発が進む大規模言語モデルとは(前編)
https://www.intellilink.co.jp/column/ai/2022/070800.aspx
・コラム:自然言語処理モデル「GPT-3」の紹介
https://www.intellilink.co.jp/column/ai/2021/031700.aspx
※記載されている商品名、会社名、団体名は、各社の商標または登録商標です
本件に関するお問い合わせ先
NTTデータ先端技術株式会社
ソフトウェアソリューション事業本部
デジタルソリューション事業部 AIソリューション担当
E-Mail:aid-sales@intellilink.co.jp
言語モデルの大規模化が性能向上に直結
2020年5月の「GPT-3」リリース以降、言語モデルの大規模化は加速しています。言語モデルの性能を表す一つの指標であるパラメータ数は「GPT-3」で1750億個に上り、前バージョン「GPT-2」の約117倍以上となりました。また2021年6月には、中国政府による資金援助を受けている北京智源人工知能研究院が1兆7500億ものパラメータを持つ「悟道2.0」を発表するなど、言語モデルの大規模化は引き続き効果的だと判断されています。日本語に特化した大規模言語モデルは、LINE社がNAVER社と共同開発を進めている「HyperCLOVA」や、rinna社が開発した「日本語GPT言語モデル」などがありますが、現時点では、先述した英語圏などの言語モデルに比べると規模が小さいと言えます。
表1:代表的な言語モデルとパラメータ数
英語圏の言語モデルで日本語を使用する際、コーパス(言語資源データ)が少なく、さらにノイズが多いため、上手く除去しなければならないという課題があり、またインターネット上のテキストは、ウィキペディアのコピーが多いことから適切な教師データも少ないという状況でした。さらに日本語は、語順の自由度が高いことや日常における必須語が多いこと、様々な表記や同じ音で異なる言葉が存在すること、方言の多様性から同じ意味の単語でも異なる単語の組み合わせになること、また、話し言葉では文中の主語や目的語を省略したりしがちなので、テキストを読む際に文中の単語の省略を考慮しながら意味を解釈していく必要があることなど、独自の難しさがあります。それゆえに、これらの課題を解消しようと日本語に特化した言語モデルの進化が期待されているのです。
こうしたなか、LINE社とNAVER社が日本語に特化した言語モデルを「GPT-3」レベルで開発すると力を注いでいるのが「HyperCLOVA」です。「HyperCLOVA」は、膨大なデータを学習させたモデルにより、少量の言語をインプットすることで文脈にあった言語処理を可能とし、人間との自然でスムーズな対話を実現しています。現在、パラメータ数が67億・130億・390億の3つのモデルがあり、390億モデルでは、会話の滑らかさ、そしてトピックの追従度は98パーセントの性能を誇っています。また、2022年1月時点で820億モデルの開発が進んでおり、さらに2022年中には、2040億以上のモデルが活用されていくということです。これらのモデル構築に使われているコーパス「LINE LM Corpus」は、2019年以降「BERT(言語モデル)」のモデル構築のために作られたコーパスをベースにしており、現在、約100億サンプル・約1.8テラバイト・約5000億トークンに達し、徐々にサイズと品質が向上しているそうです。現在、「HyperCLOVA」以外にも、日本語に特化した大規模言語モデルの開発は活発に行われており、フリーで使用できるモデルの公開からコミュニティ形成が広がりつつあります。
表2:フリーで利用可能な日本語に特化した大規模言語モデル
自然言語処理を活用したAIサービスのビジネス適用が様々な業界で進むなか、NTTデータ先端技術は河北新報社と、新聞記事の「本文」を読み込ませることで自動的に「見出し」を生成させる実証実験を行っています。これには、「GPT-3」と同様のテキスト生成を得意とする言語モデル「日本語版MASS」が活用されており、過去の新聞記事6万件を学習していることから、生成された見出しは日本語として自然で、人間が書いたものと見分けがつかないぐらい高精度です。
またNTTデータ先端技術では、ナレッジマネジメントの分野でも自然言語処理の活用に取り組んでいます。社内情報共有サイトにアップロードされている資料の検索性向上や内容理解の効率化を目的に、アップロードされた資料の内容を「日本語版MASS」が認識して3行に要約する実験を行い、実用的な要約品質が得られることを確認しました。
NTTデータ先端技術は、バックオフィス業務の自動化・効率化に向けた自然言語処理ソリューション「INTELLILINKバックオフィスNLP」を提供しています。「INTELLILINKバックオフィスNLP」は、バックオフィス業務に必要となる文書分類・知識読解・自動要約など様々な言語理解が可能な各種AI機能を具備し、必要に応じた機能のみを組み合わせて活用できることで、コストを抑えながら業務への迅速なAI適用を実現します。
参考情報
・ソリューション:INTELLILINK バックオフィスNLP
https://www.intellilink.co.jp/business/software/backofficenlp.aspx
・コラム:世界で開発が進む大規模言語モデルとは(前編)
https://www.intellilink.co.jp/column/ai/2022/070800.aspx
・コラム:自然言語処理モデル「GPT-3」の紹介
https://www.intellilink.co.jp/column/ai/2021/031700.aspx
※記載されている商品名、会社名、団体名は、各社の商標または登録商標です
本件に関するお問い合わせ先
NTTデータ先端技術株式会社
ソフトウェアソリューション事業本部
デジタルソリューション事業部 AIソリューション担当
E-Mail:aid-sales@intellilink.co.jp