Skip to content

4. 自然语流

43 / 85

音素是构成自然语流的最基础单位随后

  • 一个或者多个音素构成音节
  • 一个或者多个音节构成词汇
  • 一个或者多个词汇构成意群
  • 一个或者多个词汇构成句子
  • 一个或者多个词汇构成对话或者篇章

—— 而这基本上就是自然语流的构成过程

自然语流每个音素都可能存在一定的变化

任何一个音素都一样实际上并不存在一个像音乐音符那样可以 100% 精确的标准时时刻刻每个音素或其组合音节都可能有长短强弱高低起伏轻重缓急等等各个维度上并不统一的变化

不仅如此说话的每个人又有着各自的特质包括但不限于无法一致的音质音域音量语速腔调情绪等等等等…… 也正因如此最终每个人的说话方式都各不相同 —— 实际上是没办法完全相同其实不仅英语如此地球上的所有语言都是如此

即便是相同的单词在同一句话里都常常读法并不完全相同也无法完全相同 —— 注意两个相同的词的每个音节的音高声调的不同

  • communication kəˌmjuː.nəˈkeɪ.ʃən: Her communication skills are excellent, but her communication of the project details needs work.
  • explanation ˌek.spləˈneɪ.ʃən: The explanation you gave was clear, but I need a more detailed explanation.

1974 美国密西根州立大学(Michigan State University)的人工语言实验室的研究人员曾经打电话用机器生成的语音订购一块披萨1…… 以下是机器语音合成 50 年前后的对比

Text: Would you please phrase that question so that I can answer it with yes or no?

  • 1974
    • Michigan State University
  • 2024
    • OpenAI TTS (Alloy)
    • Microsoft Edge TTS (en-US-GuyNeural)

显然模拟真人的自然语流并不只是把每个音素朗读标准” —— 除此之外需要考虑的因素实在是太多而各个维度的不同再组合起来就是天文数字的量级…… 乃至于需要将近 50 年的时间以计算机算力的提高算法的改良进步为前提而后还要配合着大规模神经网络以及基于大语言模型的人工智能才有了如此极其接近真实的效果

我们用自己的嗓音说话也是如此要做的事情不仅仅是把每个音素读准读好也不仅仅是把每个单词读得像词典里的真人发音一样”,我们需要从多个维度调整自己 —— 当然很麻烦不过事实证明也的确是能做到做好的事情

Footnotes

  1. https://www.youtube.com/watch?v=94d_h_t2QAA