TTML2 的配音和音频描述配置文件

摘要

本规范定义 DAPT，这是一种基于 TTML 的文件格式，用于交换定时文本内容，这些内容用于制作配音脚本、音频描述、翻译字幕和听障字幕（也称为隐藏字幕）的转录和翻译工作流。

本节为非规范性内容。

在一般用法中，script 一词的含义之一是电影、电视节目、戏剧等的书面文本。脚本既可以是已完成作品的记录，也称为转录文本，也可以是尚待创作作品的计划。在本文档中，我们使用领域专用术语，并更具体地定义如下：

转录文本是以另一种形式 预先存在的媒体的文本表示，例如视频中的对话；
脚本是在媒体创建之前，对其预期内容的文本表示，例如用于指导演员录制音轨。

术语 DAPT 脚本泛指转录文本和脚本，并且是符合本规范形式要求的合规点。 DAPT 脚本由定时文本和关联元数据组成，例如正在说话的角色。

在配音工作流中，会生成转录文本并将其翻译，以创建脚本。在音频描述工作流中，转录文本描述视频图像，然后被直接用作录制音频等效内容的脚本。

DAPT 是一种基于 TTML 的格式，用于在本地化和音频描述流程中的创作、提词和播放工具之间交换转录文本和脚本（即 DAPT 脚本）。 DAPT 文档是 DAPT 脚本的一种可序列化形式，设计用于承载与配音或音频描述相关的信息，例如 DAPT 脚本的类型、对白、描述、定时、元数据、原始语言转录文本、翻译文本、语言信息和音频混音指令，并且可扩展，以允许用户定义注释或未来的附加特性。

本规范定义 DAPT 脚本的数据模型，以及它作为 [TTML2] 文档的表示（见 4. DAPT 数据模型和对应的 TTML 语法），并带有一些约束和限制（见 5. 约束）。

DAPT 脚本预期用于使视听媒体对无法以其原始形式理解该媒体的用户可访问或本地化，并且用作满足涉及转录文本的用户需求的解决方案的一部分，包括 [media-accessibility-reqs] 中描述的无障碍需求，以及支持需要通过配音将对白翻译成不同语言的用户。

DAPT 脚本内容的每一部分都要求通过表示对象属性，标记出它在相关媒体中表示什么；同样，DAPT 脚本作为一个整体，要求列出它所表示的所有内容类型，例如它是否表示音频内容或视觉内容，如果是视觉内容，则表示文本还是非文本等。本规范提供了一个分层内容描述符注册表。

配音和音频描述的创作工作流都涉及相似阶段，这些阶段共享 [DAPT-REQS] 中描述的共同要求。在这两种情况下，作者都会审阅内容，并写下正在发生的内容，无论是对白还是视频图像中的内容，以及它发生的时间。后续转换过程可以将文本改为不同语言，并调整措辞以适应精确的定时约束。然后进入一个阶段，在该阶段生成脚本的音频呈现，以最终混入节目音频。该混音可以在分发之前进行，也可以直接在播放器中进行。

配音过程，即创建配音脚本的过程，是一个复杂的多步骤过程，涉及：

从已完成节目中转录其原始语言的对白并为其计时，以创建转录文本；
使用角色信息和其他注释标注对白；
生成本地化说明，以指导进一步改编；
将对白翻译为目标语言脚本；
为配音调整译文；例如在配音的情况下匹配演员的唇部动作。

配音脚本是用于录制翻译对白的转录文本或脚本（取决于工作流阶段），这些对白将与节目的非对白音频混合，以生成该节目另一种语言的本地化版本，称为配音版本，简称配音。

配音脚本可作为创建替代语言字幕或隐藏式字幕的起点。本规范旨在促进在 TTML 的其他配置文件中添加字幕和说明字幕文档，以及转换为这些文档，例如 [ttml-imsc1.3]，例如通过允许字幕样式语法携带在DAPT 文档中。或者，可以应用样式，以在配音演员录制脚本对白时提供辅助。

创建音频描述内容也是一个多阶段过程。音频描述，也称为视频描述，或在 [media-accessibility-reqs] 中称为描述型视频，是一种音频服务，用于帮助无法完整看见视觉呈现的观众理解内容。它是将主节目音频与每个描述的音频呈现混合后的结果，这些描述被编写为在不与对白冲突的时间点出现，以交付混合了音频描述的音轨。主节目音频是指在任何进一步混合之前与节目相关联的音频。描述是一组词语，用于描述节目呈现的某个方面，适合通过发声和录制呈现为音频，或用作文本到语音转换的文本替代源，如 [WCAG22] 中所定义。关于音频描述是什么以及它如何工作的更多信息，可见 [BBC-WHP051]。

编写音频描述脚本通常涉及：

观看节目的视频内容，或一系列节目的内容，
确定有机会说出描述的关键时刻，
编写描述文本，以解释节目在该时刻的重要可见部分，
通过录制真人演员或使用文本到语音，创建描述的音频版本，
定义用于将音频与节目音频组合的混合说明（使用 [TTML2] 音频样式来应用）。

音频混合可以在媒体分发之前发生，也可以在客户端中发生。如果音频描述脚本被交付给播放器，则文本可用于提供替代呈现，例如在盲文显示器上，或使用用户配置的屏幕阅读器。

DAPT 脚本在其他工作流和场景中也可能有用。例如，原始语言转录文本可用作：

语音转文本系统的输出格式，即使其并非用于翻译，或用于制作字幕或说明字幕；
广播行业中称为“后期制作脚本”的文档，主要用于预览、编辑审阅和销售目的；

原始语言转录文本和翻译转录文本都可用作：

在网页或应用中与音频或视频一起呈现的无障碍转录文本；在这种用法中，定时可以保留并用于与媒体同步，或在媒体内导航，也可以舍弃，以呈现整个时间线的纯文本版本。

文档的顶层结构如下：

命名空间 http://www.w3.org/ns/ttml 中的 <tt> 根元素表明这是一个 TTML 文档，而 ttp:contentProfiles 属性表明它遵循本规范定义的 DAPT 内容配置文件。
daptm:scriptRepresents 属性表明文档内容在原始节目中替代什么。
daptm:scriptType 属性表明转录文本或脚本的类型，但在这个空示例中，它并不相关，因为这里只展示文档结构。
daptm:langSrc 属性表明默认文本语言来源，例如内容的原始语言，而 xml:lang 属性表明此脚本中的默认语言，在本例中二者相同。这两个属性都会被继承，并可在文档内容内被覆盖。

该结构适用于所有类型的 DAPT 脚本，无论是配音还是音频描述。

示例 1

<tt xmlns="http://www.w3.org/ns/ttml" 
    xmlns:ttp="http://www.w3.org/ns/ttml#parameter"
    xmlns:daptm="http://www.w3.org/ns/ttml/profile/dapt#metadata"
    ttp:contentProfiles="http://www.w3.org/ns/ttml/profile/dapt1.0/content"
    xml:lang="en"
    daptm:langSrc="en"
    daptm:scriptRepresents="audio"
    daptm:scriptType="originalTranscript">
  <head>
    <metadata>
      <!-- Additional metadata may be placed here -->
      <!-- Any characters must be defined here as a set of ttm:agent elements -->
    </metadata>
    <styling>
      <!-- Styling is optional and consists of a set of style elements -->
    </styling>
    <layout>
      <!-- Layout is optional and consists of a set of region elements -->
    </layout>
  </head>
  <body>
    <!-- Content goes here and consists of a div for each Script Event -->
    <div xml:id="d1" begin="..." end="..." daptm:represents="audio.dialogue">
      <p>
        <!-- Text blocks are contained in p elements -->
      </p>
      <p xml:lang="fr" daptm:langSrc="en">
        <!-- Translation text is related to the source language for the translation -->
      </p>
    </div>
  </body>
</tt>

以下示例对应于 [DAPT-REQS] 中描述的工作流各阶段产生的定时文本转录文本和脚本。

第一个示例展示了早期阶段的转录文本，其中已经识别出用于描述或转录的定时机会，但尚未写入任何文本；这里存在于 <body> 元素上的 daptm:represents 属性会被 <div> 元素继承，因为它们未指定不同的值：

示例 2

...
  <body daptm:represents="...">
    <div xml:id="id1" begin="10s" end="13s">
    </div>
    <div xml:id="id2" begin="18s" end="20s">
    </div>
  </body>
...

以下示例将演示配音和音频描述工作流中的不同用法。

添加描述后，这会成为录制前脚本。请注意，在这种情况下，为了反映大多数音频描述内容转录的是没有固有语言的视频图像，文本语言来源，由 daptm:langSrc 属性表示，在文档顶层设为 zxx，它是 [bcp47] 定义的语言代码，用于标识不适用语言分类的内容：

示例 3

<tt xmlns="http://www.w3.org/ns/ttml"
  xmlns:ttp="http://www.w3.org/ns/ttml#parameter"
  xmlns:daptm="http://www.w3.org/ns/ttml/profile/dapt#metadata"
  xmlns:xml="http://www.w3.org/XML/1998/namespace"
  ttp:contentProfiles="http://www.w3.org/ns/ttml/profile/dapt1.0/content"
  xml:lang="en"
  daptm:langSrc="zxx"
  daptm:scriptRepresents="visual.nonText"
  daptm:scriptType="preRecording">
  <body>
    <div begin="10s" end="13s" xml:id="a1" daptm:represents="visual.nonText">
      <p>
        A woman climbs into a small sailing boat.
      </p>
    </div>
    <div begin="18s" end="20s" xml:id="a2" daptm:represents="visual.nonText">
      <p>
        The woman pulls the tiller and the boat turns.
      </p>
    </div>
  </body>
</tt>

音频描述内容通常包括视觉图像中存在的文本，例如图像中包含书面标牌、地点等。以下示例演示了这种情况：脚本表示对象被扩展，以显示脚本内容除非文本视觉信息外，还表示文本视觉信息。这里在脚本事件上指定了更精确的表示对象值，以反映该文本实际上是一个地点，这是允许的，因为该更精确的值是脚本表示对象中新值的一个子类型。最后，由于该文本具有固有语言，文本语言来源被设置为反映该语言。

示例 4

<tt xmlns="http://www.w3.org/ns/ttml"
  xmlns:ttp="http://www.w3.org/ns/ttml#parameter"
  xmlns:daptm="http://www.w3.org/ns/ttml/profile/dapt#metadata"
  xmlns:xml="http://www.w3.org/XML/1998/namespace"
  ttp:contentProfiles="http://www.w3.org/ns/ttml/profile/dapt1.0/content"
  xml:lang="en"
  daptm:langSrc="zxx"
  daptm:scriptRepresents="visual.nonText visual.text"
  daptm:scriptType="preRecording">
  <body>
    <div begin="7s" end="8.5s" xml:id="at1"
         daptm:represents="visual.text.location" daptm:langSrc="en">
      <p>
        The Lake District, England
      </p>
    </div>
    <div begin="10s" end="13s" xml:id="a1"
         daptm:represents="visual.nonText">
      <p>
        A woman climbs into a small sailing boat.
      </p>
    </div>
    <div begin="18s" end="20s" xml:id="a2"
         daptm:represents="visual.nonText">
      <p>
        The woman pulls the tiller and the boat turns.
      </p>
    </div>
  </body>
</tt>

创建音频录制后，如果未使用文本到语音，可以插入用于播放混音的指令。例如，可以在混入从 <span> 元素内部播放的音频之前，更改“接收”音频的增益，使其在进入时平滑地动画化该值，并在退出时恢复该值：

示例 5

<tt ...
  daptm:scriptRepresents="visual.nonText"
  daptm:scriptType="asRecorded"
  xml:lang="en"
  daptm:langSrc="zxx">
  ...
    <div begin="25s" end="28s" xml:id="a3" daptm:represents="visual.nonText">
      <p>
        <animate begin="0.0s" end="0.3s" tta:gain="1;0.39" fill="freeze"/>
        <animate begin="2.7s" end="3s" tta:gain="0.39;1"/>
        <span begin="0.3s" end="2.7s">
          <audio src="clip3.wav"/>
          The sails billow in the wind.</span>
      </p>
    </div>
...

在文档级别，daptm:scriptRepresents 属性表明文档表示相关媒体中的视觉文本内容和视觉非文本内容。可能实际上没有任何脚本事件表示视觉文本，例如因为视频图像中没有文本。

在上面的示例中，<div> 元素的 begin 属性定义了其子元素的“syncbase”时间，因此这里 <animate> 和 <span> 元素上的时间相对于 25s。第一个 <animate> 元素在 0.3s 内将增益从 1 降到 0.39，并在结束后冻结该值，第二个元素在该描述的最后 0.3s 内将其升回。然后 <span> 元素被定时为仅在第一次音频衰减完成后开始。

如果音频录制很长而只需要播放一个片段，可以使用 clipBegin 和 clipEnd 来实现。如果我们只想播放文件中从 5s 到 8s 的音频部分，它将如下所示：

示例 6

...
  <span><audio src="long_audio.wav" clipBegin="5s" clipEnd="8s"/>
  A woman climbs into a small sailing boat.</span>
...

或者，可以添加音频属性以触发文本被朗读：

示例 7

...
    <div begin="18s" end="20s" xml:id="a2">
      <p>
        <span tta:speak="normal">
          The woman pulls the tiller and the boat turns.</span>
      </p>
    </div>
...

也可以直接嵌入音频，使单个文档同时包含脚本和录制音频：

示例 8

...
    <div begin="25s" end="28s" xml:id="a3">
      <p>
        <animate begin="0.0s" end="0.3s" tta:gain="1;0.39" fill="freeze"/>
        <animate begin="2.7s" end="3s" tta:gain="0.39;1"/>
        <span begin="0.3s" end="2.7s">
          <audio><source><data type="audio/wave">
            [base64-encoded audio data]
          </data></source></audio>
          The sails billow in the wind.</span>
      </p>
    </div>
...

从示例 1的基本结构出发，转录音频会产生一个原始语言配音转录文本，其可能如下所示。未定义特定样式或布局，这里重点在于对白的转录。角色在 <metadata> 元素中标识。请注意，语言和文本语言来源分别使用 xml:lang 和 daptm:langSrc 属性定义，它们具有相同的值，因为该转录文本未被翻译。

示例 9

<tt xmlns="http://www.w3.org/ns/ttml" 
    xmlns:ttm="http://www.w3.org/ns/ttml#metadata"
    xmlns:ttp="http://www.w3.org/ns/ttml#parameter"
    xmlns:daptm="http://www.w3.org/ns/ttml/profile/dapt#metadata"
    ttp:contentProfiles="http://www.w3.org/ns/ttml/profile/dapt1.0/content"
    xml:lang="fr"
    daptm:langSrc="fr"
    daptm:scriptRepresents="audio.dialogue"
    daptm:scriptType="originalTranscript">
  <head>
    <metadata>
      <ttm:agent type="character" xml:id="character_1">
        <ttm:name type="alias">ASSANE</ttm:name>
      </ttm:agent>
    </metadata>
  </head>
  <body>
    <div begin="10s" end="13s" xml:id="d1" daptm:represents="audio.dialogue">
      <p ttm:agent="character_1">
        <span>Et c'est grâce à ça qu'on va devenir riches.</span>
      </p>
    </div>
  </body>
</tt>

翻译文本之后，文档会被修改。它包含译文文本，在这种情况下原文被保留。主文档的默认语言被更改，以表明重点在翻译后的语言。 xml:lang 和 daptm:langSrc 属性的组合用于将文本标记为原文或译文。在这种情况下，它们同时出现在 <tt> 和 <p> 元素上，以使示例更易阅读，但在某些情况下也可以省略它们，转而使用继承模型：

示例 10

<tt xmlns="http://www.w3.org/ns/ttml"
    xmlns:ttm="http://www.w3.org/ns/ttml#metadata"
    xmlns:ttp="http://www.w3.org/ns/ttml#parameter"
    xmlns:daptm="http://www.w3.org/ns/ttml/profile/dapt#metadata"
    ttp:contentProfiles="http://www.w3.org/ns/ttml/profile/dapt1.0/content"
    xml:lang="en"
    daptm:langSrc="fr"
    daptm:scriptRepresents="audio.dialogue"
    daptm:scriptType="translatedTranscript">
  <head>
    <metadata>
      <ttm:agent type="character" xml:id="character_1">
        <ttm:name type="alias">ASSANE</ttm:name>
      </ttm:agent>
    </metadata>
  </head>
  <body>
    <div begin="10s" end="13s" xml:id="d1" ttm:agent="character_1" daptm:represents="audio.dialogue">
      <p xml:lang="fr" daptm:langSrc="fr"> <!-- original -->
        <span>Et c'est grâce à ça qu'on va devenir riches.</span>
      </p>
      <p xml:lang="en" daptm:langSrc="fr"> <!-- translated -->
        <span>And thanks to that, we're gonna get rich.</span>
      </p>
    </div>
  </body>
</tt>

录制前的改编过程可以调整措辞并/或添加进一步的定时，以协助录制。 daptm:scriptType 属性也会被修改，如以下示例所示：

示例 11

<tt xmlns="http://www.w3.org/ns/ttml"
    xmlns:ttm="http://www.w3.org/ns/ttml#metadata"
    xmlns:ttp="http://www.w3.org/ns/ttml#parameter"
    xmlns:daptm="http://www.w3.org/ns/ttml/profile/dapt#metadata"
    ttp:contentProfiles="http://www.w3.org/ns/ttml/profile/dapt1.0/content"
    xml:lang="en"
    daptm:langSrc="fr"
    daptm:scriptRepresents="audio.dialogue"
    daptm:scriptType="preRecording">
  <head>
    <metadata>
      <ttm:agent type="character" xml:id="character_1">
        <ttm:name type="alias">ASSANE</ttm:name>
      </ttm:agent>
    </metadata>
  </head>
  <body>
    <div begin="10s" end="13s" xml:id="d1" ttm:agent="character_1" daptm:onScreen="ON_OFF" daptm:represents="audio.dialogue">
      <p xml:lang="fr" daptm:langSrc="fr">
        <span>Et c'est grâce à ça qu'on va devenir riches.</span>
      </p>
      <p xml:lang="en" daptm:langSrc="fr">
        <span begin="0s">And thanks to that,</span><span begin="1.5s"> we're gonna get rich.</span>
      </p>
    </div>
  </body>
</tt>

本节指定 DAPT 的数据模型及其对应的 TTML 语法。在该模型中，存在一些对象，它们可以具有属性并与其他对象关联。在 TTML 语法中，这些对象和属性被表示为元素和属性，尽管并不总是对象表示为元素、属性表示为属性。

图 1 展示了 DAPT 数据模型，并将每个对象和属性超链接到本文档中对应的章节。共享属性以斜体显示。图中的所有其他约定均遵循 [uml]。

图 1 （资料性）显示 DAPT 数据模型中主要实体的类图。

Issue 116: 将非内联的嵌入式音频资源添加到数据模型？ question CR-exit-must-have

另见 #115 - 如果我们要支持非内联的嵌入式音频资源，是否应该为它们创建一个对象并将其添加到数据模型中？

DAPT 脚本是一个转录文本或脚本，对应于在创作工作流中处理或由客户端处理的文档，并符合本规范的约束。它具有以下章节中定义的属性和对象：脚本表示对象、脚本类型、默认语言、文本语言来源、脚本事件，以及对于配音脚本，还包括角色。

DAPT 文档是一个 [TTML2] 定时文本内容文档实例，表示一个DAPT 脚本。 DAPT 文档具有本节和以下各节中定义的结构和约束。

注

[TTML2] 定时文本内容文档实例具有一个位于 TT 命名空间中的根 <tt> 元素。

脚本表示对象属性是 DAPT 脚本的强制属性，它指示文档内容表示相关媒体对象的哪些组成部分。文档内容可以作为一种机制的一部分使用，为这些组成部分提供可访问的替代内容。

注

脚本事件具有一个相关属性：表示对象，并且对该属性允许值存在一些约束，这些约束取决于脚本表示对象的值。

为表示此属性，daptm:scriptRepresents 属性必须出现在 <tt> 元素上，其值符合以下语法：

daptm:scriptRepresents
: <content-descriptor> ( <lwsp>+ <content-descriptor>)*

<lwsp>                # as TTML2

默认语言是 DAPT 脚本的强制属性，它表示脚本事件的文本内容的默认语言。该语言可以是原始语言之一，或是翻译语言。当它表示翻译语言时，它可以是正在准备的配音或音频描述脚本所面向的最终语言，称为目标录制语言；也可以是工作流中使用的中间语言或枢轴语言。

默认语言在 DAPT 文档中由以下结构和约束表示：

xml:lang 属性必须出现在 <tt> 元素上，且其值不得为空。

注

DAPT 脚本中的所有文本内容都有指定语言。当使用多种语言时，默认语言可以对应于大多数脚本事件的语言，或持续说话时间最长的语言，或作者任意选择的语言。

示例 13

为包含丹麦语和瑞典语对白的视频准备对白的原始语言转录文本。通过在 <tt> 元素上设置 xml:lang="da"，将默认语言设置为丹麦语。包含瑞典语文本的脚本事件通过在 <p> 元素上设置 xml:lang="sv" 来覆盖该值。包含丹麦语文本的脚本事件可以设置 xml:lang 属性，也可以省略它，因为继承的语言就是文档的默认语言。在这两种情况下，脚本事件的文本对象都是 <p> 元素，表示未翻译的内容，这些内容具有固有语言（在本例中为对白），因此会将 daptm:langSrc 属性设置为其来源语言，这意味着它们处于原始语言。

脚本类型属性是 DAPT 脚本的强制属性，它描述配音和音频描述工作流中使用的文档类型，包括以下类型：原始语言转录文本、翻译转录文本、录制前脚本、已录制脚本。

为表示此属性，daptm:scriptType 属性必须出现在 <tt> 元素上：

daptm:scriptType
  : "originalTranscript"
  | "translatedTranscript"
  | "preRecording"
  | "asRecorded"

文档类型及对应的 daptm:scriptType 属性值定义如下：

原始语言转录文本：
当 daptm:scriptType 属性值为 originalTranscript 时，文档是对白和/或屏幕文本以其固有口语/书面语言进行的文字转录，或是非对白声音和非语言视觉内容的文字转录。

此类转录文本中的脚本事件：
- 应当包含原始文本对象；
- 不应包含翻译文本对象。
示例 14
如果一个节目包含英语和希伯来语对白，则原始语言转录文本将包含一些英语脚本事件和一些希伯来语脚本事件，它们都包含原始文本对象。该文档不包含任何翻译文本对象。
翻译转录文本：
当 daptm:scriptType 属性值为 translatedTranscript 时，文档表示原始语言转录文本被翻译成通用语言后的结果。

它可以被改编以生成录制前脚本，并/或用作进一步翻译成目标录制语言的基础。

此类转录文本中的脚本事件：
- 应当包含翻译文本对象；
- 也可以包含原始文本对象。
示例 15
如果一个节目包含英语和希伯来语对白，则法语翻译转录文本将至少包含所有脚本事件的法语译文。它仍可以保留希伯来语和英语文本内容，以协助后续处理。

示例 16
如果一个音频描述原始语言转录文本包含描述图像内文本内容的原始语言脚本事件，且期望的音频描述输出需要采用不同语言，则这些文本对象可以是翻译文本对象。在这种情况下，将该转录文本标记为翻译转录文本是合适的。作为翻译活动的一部分，在翻译后的文本内容中描述该文本的原始语言以告知受众也可能是合适的，例如：“一条日文报纸标题，意思是：水手完成海洋穿越”。
录制前脚本：
当 daptm:scriptType 属性值为 preRecording 时，文档表示为录制而改编原始语言转录文本或翻译转录文本的结果，例如为了在配音工作流中获得更好的唇形同步，或确保在音频描述工作流中，词语能够适配可用时间。

此类脚本中的脚本事件：
- 应当包含目标录制语言中的文本对象；
- 也可以包含来自原始语言转录文本的原始文本对象，当其语言不是目标录制语言时，可作为上下文以协助后续处理；
- 不应包含音频对象。
注

DAPT 脚本的脚本类型不一定能通过检查文档的文本内容来检测。例如，将翻译转录文本改编为录制前脚本，可能仅包含替换某个脚本事件文本内容中的某些词语，而不改变文档其余部分。在任一情况下，翻译文本对象都会将其文本语言来源属性设置为其翻译来源语言。

注

音频描述脚本事件中的原始文本对象，如果表示场景中没有固有语言的视觉元素，则具有空的文本语言来源属性。否则，如果它们确实表示具有固有语言的视觉元素，例如图像内文本，则要求它们具有指定语言的文本语言来源。如果音频描述脚本被翻译，则其译文将由翻译文本对象表示。
已录制脚本：
当 daptm:scriptType 属性值为 asRecorded 时，文档表示实际音频录制。

此类脚本中的脚本事件：
- 应当包含目标录制语言中的文本对象；
- 也可以包含来自原始语言转录文本的原始文本对象，或其他语言中的翻译文本对象，以用于上下文和质量验证；
- 也可以包含指向音频和混音指令的链接，用于生成包含录音的音轨；
- 应当包含音频录制对象；
- 不应包含合成音频对象。
注

已录制脚本中的翻译文本对象会保留其文本语言来源，以便其翻译来源语言仍然可用。

编辑注

以下示例是孤立的——是否移至本节顶部、列举脚本类型之前？

示例 17

<tt daptm:scriptType="originalTranscript">
...
</tt>

DAPT 脚本可以包含零个或多个脚本事件对象，每个对象对应给定时间间隔内的对白、屏幕文本或描述。

如果存在任何脚本事件，则 DAPT 文档必须具有一个作为 <tt> 元素子元素的 <body> 元素。

DAPT 脚本可以包含零个或多个角色对象，每个对象描述一个可被脚本事件引用的角色。

如果存在任何角色对象，则 DAPT 文档必须具有一个作为 <tt> 元素子元素的 <head> 元素，并且该 <head> 元素必须具有至少一个 <metadata> 子元素。

注

4.2 角色建议所有角色对象都位于单个 <metadata> 父元素中，并且当 <head> 元素具有多个 <metadata> 子元素时，角色对象位于第一个这样的子元素中。

DAPT 数据模型中的某些属性在多种对象类型中通用，并且在它们出现的任何地方都承载相同语义。这些共享属性列于本节。

DAPT 中的某些值集在多个属性之间复用，并且在它们出现的任何地方都具有相同约束。这些共享值集也列于本节。

编辑注

是否最好创建一个“定时对象”类，并让脚本事件、混音指令和音频录制从它派生？

以下定时属性定义包含它们的实体何时处于活动状态：

开始属性定义对象何时变为活动状态，并且相对于父对象的活动开始时间。 DAPT 脚本在媒体时间轴的时间零处开始。
结束属性定义对象何时停止活动，并且相对于父对象的活动开始时间。
持续时间属性定义对象的最大持续时间。

注

如果同时存在结束和持续时间属性，则结束时间是结束与开始 + 持续时间二者中较早的一个，如 [TTML2] 所定义。

注

如果省略任何定时属性，则适用以下规则，这些规则转述了 [TTML2] 中定义的定时语义：

开始的默认值为零，即与父对象的开始时间相同。
结束的默认值为不定，即如果存在父定时对象，则解析为与该父定时对象的结束时间相同。
持续时间的默认值为不定，即结束时间解析为与父对象的结束时间相同。

注

DAPT 脚本的结束时间在实践上是相关媒体对象的结束时间。

脚本表示对象和表示对象属性中允许的值取决于 <content-descriptor> 语法定义及其关联的注册表。

<content-descriptor> 的值符合以下语法：

<content-descriptor>  # see registry table below
: <descriptor-token> ( <descriptor-delimiter> <descriptor-token> )*

<descriptor-token>
: (descriptorTokenChar)+

descriptorTokenChar  # xsd:NMtoken without the "."
: NameStartChar | "-" | [0-9] | #xB7 | [#x0300-#x036F] | [#x203F-#x2040]

<descriptor-delimiter>
: "."  # FULL STOP U+002E

<content-descriptor> 的值是以定界符分隔的有序令牌列表。

如果另一个 <content-descriptor> 值 A 的有序descriptor-tokens列表出现在 B 的有序descriptor-tokens列表的开头，则 <content-descriptor> 值 B 是 A 的内容描述符子类型（子类型）。

示例 18

演示 `<content-descriptor>` 示例值以及每个值是否为另一个值的子类型的表。
`<content-descriptor>` A	`<content-descriptor>` B	B 是否为 A 的子类型？
`visual.text`	`visual`	否
`visual.text`	`visual.text`	是
`visual.text`	`visual.text.location`	是

例如，在此表中，A 可以是脚本表示对象属性中列出的值之一，而 B 可以是表示对象属性的值。

<content-descriptor> 的允许值要么是以下注册表中列出的值，要么可以是用户定义的值。

有效的用户定义值必须以 x- 开头，或是 content-descriptor 注册表中值的子类型，其中第一个附加 <descriptor-token> 组成部分以 x- 开头。

注册表表格，用于 `<content-descriptor>` 组件，其注册表定义位于 H.2.2 `<content-descriptor>` 注册表表格定义
`<content-descriptor>`	状态	描述	示例用法
`audio`	临时	表示 DAPT 内容表示音频节目中的任何部分。	配音、翻译以及听障字幕和说明字幕、前期和后期制作脚本
`audio.dialogue`	临时	表示 DAPT 内容表示音频节目中的言语交流，例如一段口头对话。	配音、翻译以及听障字幕和说明字幕、前期和后期制作脚本
`audio.nonDialogueSounds`	临时	表示 DAPT 内容表示音频节目中对应于非言语交流声音的部分，例如重要声音，如一扇门被愤怒地摔上。	翻译以及听障字幕和说明字幕、前期和后期制作脚本
`visual`	临时	表示 DAPT 内容表示节目视觉图像中的任何部分。	音频描述
`visual.dialogue`	临时	表示 DAPT 内容表示节目视觉图像中的言语交流，例如一段手语对话。	配音或音频描述、翻译以及听障字幕和说明字幕、前期和后期制作脚本
`visual.nonText`	临时	表示 DAPT 内容表示节目视觉图像中的非文本部分，例如场景中的一个重要物体。	音频描述
`visual.text`	临时	表示 DAPT 内容表示节目视觉图像中的文本内容，例如一个路标、一个时钟、一条报纸标题、一条即时消息等。	音频描述
`visual.text.title`	临时	`visual.text` 的一个子类型，其中该文本是相关媒体的标题。	音频描述
`visual.text.credit`	临时	`visual.text` 的一个子类型，其中该文本是演职员表项，例如演员姓名。	音频描述
`visual.text.location`	临时	`visual.text` 的一个子类型，其中该文本指示内容发生的位置。	音频描述

注

注册表条目在版本控制系统中以 JSON 形式提供，位于 /registries/content-descriptor.json。

数据模型中的一些实体包含唯一标识符。唯一标识符具有以下要求：

它在 DAPT 脚本中是唯一的，即唯一标识符的值在文档中只能使用一次，无论它是哪种具体类型的标识符。

如果一个角色标识符的值为 "abc"，并且同一文档中的一个脚本事件标识符具有相同的值，那就是一个错误。
其值必须符合 Name 的要求，如 [XML] 所定义。
注
它不能以数字、组合附加符号（重音符号），或以下任何字符开头：
```
    .
    -
    ·  // #xB7
    ‿  // #x203F
    ⁀  // #x2040
```
但这些字符可以在其他位置使用。

实体的唯一标识符在 DAPT 文档中通过相应元素上的 xml:id 属性来表示。

注

xml:id 的语义和处理的正式要求在 [xml-id] 中定义。

本节主要与配音工作流相关。

节目中的角色可以使用一个角色对象来描述，该对象具有以下属性：

一个强制性的角色标识符，它是一个唯一标识符，用于从文档的其他位置引用该角色，例如指示某个角色何时参与某个脚本事件。
一个强制性的名称，即节目中该角色的名称
一个可选的演员名称，即为该角色说对白的演员姓名。

角色在 DAPT 文档中由以下结构和约束表示：

角色在 DAPT 文档中由一个出现在路径 /tt/head/metadata/ttm:agent 处的 <ttm:agent> 元素表示，并具有以下约束：
- type 属性必须设为 character。
- xml:id 属性必须出现在 <ttm:agent> 元素上，并设为角色标识符。
- <ttm:agent> 元素必须包含一个 <ttm:name> 元素，其 type 属性设为 alias，其内容设为角色名称。
- 如果该角色具有演员名称，它必须包含一个 <ttm:actor> 子元素。该子元素必须具有一个 agent 属性，其值设为单独的 <ttm:agent> 元素的 xml:id 属性值，该元素对应于演员名称，也就是说，其 type 属性设为 person。
  
  注
  
  对一个附加 <ttm:agent> 元素的要求，该元素对应于演员名称，定义在以下项目列表中。
示例 19
```
...
<metadata>
  <ttm:agent type="character" xml:id="character_1">
    <ttm:name type="alias">DESK CLERK</ttm:name>
  </ttm:agent>
</metadata>
...
```
示例 20
```
...
<metadata>
  <ttm:agent type="person" xml:id="actor_A">
    <ttm:name type="full">Matthias Schoenaerts</ttm:name>
  </ttm:agent>
  <ttm:agent type="character" xml:id="character_2">
    <ttm:name type="alias">BOOKER</ttm:name>
    <ttm:actor agent="actor_A"/>
  </ttm:agent>
</metadata>
...
```
如果角色具有演员名称属性：
- 一个对应于演员名称的 <ttm:agent> 元素必须出现在路径 /tt/head/metadata/ttm:agent 处，并具有以下约束：
  - 其 type 属性必须设为 person
  - 其 xml:id 属性必须设置。
  - 它必须具有一个 <ttm:name> 子元素，其 type 必须设为 full，其内容设为演员名称
- 如果多个角色与同一个演员名称关联，则应当只有一个对应该演员名称的 <ttm:agent> 元素，并由每个角色分别引用。
- 每个对应于演员名称的 <ttm:agent> 元素应当出现在任何 <ttm:actor> 子元素引用它的角色 <ttm:agent> 元素之前。
所有 <ttm:agent> 元素应当包含在 <head> 元素中的第一个 <metadata> 元素中。

注

<head> 元素中可以有多个 <metadata> 元素，例如用于包含专有元数据，但上述内容建议仅使用一个来定义角色。

编辑注

该组正在考虑更新关于使用哪个 metadata 元素来承载 DAPT 信息的规则。该组希望在实现简单性（例如，将 DAPT 元数据放在一个位置）与创作灵活性（例如，为系列与剧集使用不同的 metadata 元素）之间取得平衡。一种做法是当前做法： “只使用一个 metadata 元素，即第一个”。另一种做法是“只使用一个 metadata 元素，由一个属性标识”。另一种做法是“任意数量的 metadata 元素”。该组欢迎实现者和用户反馈。

注

如 5.2.1 无法识别的词汇中所述，ttm:agent 元素可以具有外来属性和元素。这可用于提供附加的专有角色信息。

Issue 44：定义 DAPT 专用的合规实现类型 CR must-have

我们应定义自己的合规实现类型类别，以避免使用通用的“呈现处理器”或“转换处理器”类别。我们可以链接到它们。
目前，我能想到以下类别：

DAPT 创作工具：生成合规 DAPT 文档或消费 DAPT 合规文档的工具。我不认为它们映射到 TTML2 处理器。
DAPT 音频录制器/渲染器：接收 DAPT 音频描述脚本的工具，例如带有混音指令，并生成音频输出，例如 WAVE 文件。我认为它是“呈现处理器”
DAPT 验证器：验证 DAPT 文档是否符合规范的工具。我不确定它在 TTML2 术语中映射到什么。

脚本事件对象表示要说出的对白、屏幕文本或音频描述，并具有以下属性：

一个强制性的脚本事件标识符，它是一个唯一标识符。
一个可选的开始属性、一个可选的结束属性，以及一个可选的持续时间属性，它们共同定义脚本事件在节目时间轴中的时间间隔

注

通常脚本事件在时间上不会重叠。但是，也可能存在重叠的情况，例如在配音脚本中，当不同角色同时说不同文本时。
一个表示对象属性，用于标识该事件表示什么内容（例如对白、屏幕文本等）。每个脚本事件必须具有有效的表示对象属性。

注

表示对象属性是可继承的，因此不需要在每个脚本事件上显式指定该值。
零个或多个角色标识符，指示参与此角色所涉及的脚本事件。

注

通常，一个脚本事件对应于单个角色，但也存在多个角色可以与一个脚本事件关联的情况。这是在所有角色同时说相同文本时。

注

在转录文本中，当事件对应于图像内内容时，例如音频描述，不需要角色标识符。但是，在录制前脚本或已录制脚本语境中，指示表示谁为录制配音的角色可能会有帮助。
零个或多个文本对象，每个对象要么是原始，要么是翻译。

注

没有文本对象的脚本事件可以作为创作初始阶段的一部分创建，在某些工作流中，划定可能存在某些内容的时间间隔会很有帮助。例如，可以创建一个具有定时属性的空脚本事件，以标识创建音频描述的机会。另见 [DAPT-REQS] 流程步骤 1。

注

空的文本对象，即没有文本内容的对象，可用于明确指示没有文本内容。建议不要将空的文本对象用作工作流占位符来指示未完成的工作。
零个或多个脚本事件描述对象，每个对象都是脚本事件的人类可读描述。
一个可选的屏幕上属性，它是一个注释，指示脚本事件主体（例如角色）的位置
零个或多个混音指令对象，用于在脚本事件期间调整节目音频的播放。

脚本事件在 DAPT 文档中表示于路径 /tt/head/body//div，并具有以下结构和约束：

Issue 233：考虑改进与脚本事件对应的 div 的识别 CR must-have

基于 #216（评论）中的讨论，我认为我们应该有一个显式信号来指示 div 何时表示脚本事件。

在 <body> 元素和与脚本事件对应的 <div> 元素之间的路径中，可以有任意数量的嵌套 <div> 元素祖先。不为此类元素定义进一步语义。
必须有一个 <div> 元素对应于脚本事件，并具有以下约束：
- xml:id 属性必须存在，并包含脚本事件标识符。
  
  注
  
  有关处理器如何处理没有 xml:id 属性、因此不被视为脚本事件的 <div> 元素的详细信息，见6.3 处理 <div> 和 <p> 元素。
- begin、end 和 dur 属性分别表示开始、结束以及持续时间，它们属于脚本事件。
  
  begin 和 end 属性应该存在。 dur 属性可以存在。
  
  注
  
  有关时间属性的附加说明，见4.1.6.1 时间属性。
- ttm:agent 属性可以存在；如果存在，则必须包含对每个表示关联角色的 ttm:agent 属性的引用。
  
  注
  
  多个引用使用以空格分隔的列表指定。
  示例 21
```
...
<div xml:id="event_1"
     begin="9663f" end="9682f"
     ttm:agent="character_4">
...
</div>
...
```
- daptm:represents 属性可以存在，表示表示属性。
  示例 22
```
...
<div xml:id="event_1"
     begin="9663f" end="9682f"
     daptm:represents="audio.dialogue">
...
</div>
...
```
- daptm:represents 属性的计算值必须是有效的非空值。
  
  注
  
  可以在祖先元素上指定 daptm:represents 属性，因为表示是可继承属性。
- 它可以包含零个或多个表示每个文本对象的 <p> 元素。
- 它可以包含一个表示屏幕上属性的 <metadata> 元素。
- 它不得包含任何 <div> 元素子元素。

文本对象包含通常使用单一语言的文本内容。该语言可以是原文语言或译文语言。

文本在符合以下任一情况时被定义为原文：

以与对白相同的语言转录节目音频中的对白；
以与该文本相同的语言转录节目视频中可见的文本；
非对白声音的未翻译表示；
节目视频中场景的未翻译描述；
语言尚未确定的内容的未翻译表示（这不推荐）；

注

文本在它是另一种语言中原文文本对象的表示时，被定义为译文。

文本可以通过同时检查其语言及其文本语言来源，根据文本语言来源中定义的语义，被识别为原文或译文。

译文文本对象以及在适用情况下原文文本对象的源语言，使用文本语言来源属性来指示。

如果文本对象或其一部分，相对于其父脚本事件，表示的是更具体或不同的内容，则它可以具有不同的表示属性。

文本对象及其每一个部分，必须具有有效的表示属性。该属性本身的存在被视为可选，因为如果文本对象省略了该属性，则该属性从父脚本事件继承。

注

在可能的情况下，表示相关媒体对象不同部分的文本应放入不同脚本事件中的文本对象，每个对象都具有自己的表示属性。直接将表示赋给文本对象或文本对象部分的选项是在此做法不可行时提供的。

例如，考虑一个脚本事件，其编写目的是同时描述视频图像中的非文本部分和可视文本内容，并且预期一次性发声。如果将其拆分为两个或更多脚本事件，则需要为第一个分配结束时间，并为第二个分配开始时间，这可能并不简单。

在这种情况下，可以改为拆分文本，拆分为单独的文本对象，或拆分为子部分，每个子部分都有自己不同的表示属性，从而保持准确性。

文本对象可以被样式化。

在文本期间用于修改节目音频的零个或多个混合指令对象可以存在。

文本对象在DAPT 文档中由路径 /tt/head/body//div/p 上的 <p> 元素表示，并具有以下约束：

脚本事件的文本由 <p> 元素及其所有 <span> 后代元素的字符内容表示，在剪除 <metadata> 元素和外来元素之后，在将 <br> 元素替换为换行符之后，并在应用 [XML] 中定义的空白处理之后。

注

段落的文本内容可以使用 TTML 元素来结构化，例如 <br> 或 <span>，这些元素可以包含或引用 TTML 样式属性，例如用于改变每个段落内文本部分的布局或样式的 tts:ruby。混合方向文本，例如交错的从左到右（ltr）和从右到左（rtl）文本，可以通过在 <span> 元素上使用 tts:direction 属性来指定。类似地，也可以使用属性或 <metadata> 元素添加元数据。
<p> 元素应该具有一个 daptm:langSrc 属性，表示文本对象的文本语言来源，即指示文本是原文还是译文，以及其来源是否具有固有语言。

注

如果 <p> 元素省略了 daptm:langSrc 属性，则其计算值由其父元素继承而来，并依此向上直到根 <tt> 元素。

在源语言变化很少的脚本中， daptm:langSrc 属性可以设置在根元素上，并从 <p> 元素中省略，除非其值不同。

使用这种方法时应当小心，尤其是在脚本类型之间移动时，因为在根元素上更改它可能会意外影响后代元素的解释。在允许细粒度控制的工具中，作者可以通过在所有 <p> 元素上显式设置 daptm:langSrc 属性来降低此风险。

实现者应注意确保，在更改元素上的 daptm:langSrc 属性时，他们检查树的下层，并在适当时在后代元素上指定该属性，以免其含义无意中改变。

注

为了表示没有固有语言的内容，例如未转录图像中文本的原文音频描述，可以使用值 zxx。

如果该音频描述随后被翻译，则译文会将daptm:langSrc 设置为原文的 xml:lang。
daptm:langSrc 的计算值 不应该为空字符串或 und。

注

完全没有指定 daptm:langSrc 属性的文档具有空字符串的默认值，这意味着文本所表示内容的语言尚未确定。
<p> 元素应该具有一个 xml:lang 属性，对应于文本对象的语言。

注

如果 <p> 元素省略了 xml:lang 属性，则其计算语言由其父元素继承而来，并依此向上直到根 <tt> 元素，该元素要求通过其 xml:lang 属性设置默认语言。

如果更改默认语言，则应当小心；对DAPT 脚本这样做可能会意外影响后代元素。在允许细粒度控制的工具中，作者可以通过在所有 <p> 元素上显式设置 xml:lang 属性来降低此风险。

实现者应注意确保，在更改元素上的 xml:lang 属性时，他们检查树的下层，并在适当时在后代元素上指定该属性，以免其含义无意中改变。
示例 23
```
<div xml:id="event_3"
     begin="9663f" end="9682f"
     ttm:agent="character_3">
  <p xml:lang="pt-BR">Você vai ter.</p>
  <p xml:lang="fr" daptm:langSrc="pt-BR">Bah, il arrive.</p>
</div>
```
注

在某些情况下，单段未翻译对白可以包含多种语言的文本。与其将一个脚本事件拆分为多个脚本事件来处理这种情况，一种语言的文本对象也可以包含一些不同语言的词语。这在DAPT 文档中通过在内部 <span> 元素上设置 xml:lang 和 daptm:langSrc 属性来表示。

注

<span> 元素可用于添加特定时间，如示例 10所示，以指示相关文本部分的音频呈现时间。根据 [TTML2]， <span> 元素的时间相对于父元素的计算开始时间。
daptm:represents 属性可以存在于 <p> 元素或其任一后代 <span> 元素上，表示表示属性。
它可以包含零个或多个表示每个音频录制对象的 <audio> 元素。
它可以包含零个或多个表示每个混合指令对象的 <animate> 元素。

文本语言来源属性是一种注释，用于指示文本对象的源语言，如果适用，或指示源内容没有固有语言：

如果它为空，则文本表示没有固有语言的内容，例如视觉场景的未翻译描述，或表示非对白声音的说明字幕。
如果它具有不表示语言的值，例如空字符串、und 或 zxx，则文本是原文。

注

应使用空字符串而不是值 und 来表示其固有语言尚未确定的内容。

注

值 zxx 表示没有固有语言的内容，例如视觉场景的未翻译描述，或表示非对白声音的说明字幕。[bcp47] 对其用法解释如下：

“zxx”（非语言，不适用）主语言子标签标识那些不适合或不适用进行语言分类的内容。一些示例可能包括器乐或电子音乐；由非言语声音组成的声音录制；没有旁白、对白、印刷标题或字幕的视听材料；由机器语言或字符代码组成的机器可读数据文件；或编程源代码。
否则（如果它具有表示语言的值）：
- 如果其值与文本对象的语言相同，则文本是原文。
- 否则（如果该值不同于文本的语言），则文本是译文，其源语言是文本语言来源属性的值。

文本语言来源是一个可继承属性。

文本语言来源属性在DAPT 文档中由一个 daptm:langSrc 属性表示，具有以下语法、约束和语义：

daptm:langSrc
: <empty-string> | <language-identifier>

<empty-string>
: ""                    # default

<language-identifier>   # well-formed BCP-47 language tag

该值必须是空字符串，或如 [BCP47] 所定义的格式良好的语言标识符。
它适用于 <p> 和 <span> 元素。
它可以指定在以下元素上： <tt>、 <body>、 <div>、 <p> 和 <span>。
daptm:langSrc 属性的继承模型如下：
- 如果它存在于某个元素上，则计算值为指定值。
- 否则（如果它不存在于某个元素上），该元素上该属性的计算值为其父元素上同一属性的计算值；如果该元素没有父元素，则为默认值。
注

daptm:langSrc 属性的继承模型旨在匹配 xml:lang 属性的继承模型 [XML]。
计算值的语义如下：
- 如果计算值是不表示语言内容的值，则它指示文本是原文。此类别中的示例值包括：
  - 用于语言尚未确定内容的空字符串；
  - 用于没有固有语言内容的 zxx。
- 否则，如果计算值表示语言内容，则：
  - 如果计算值与 xml:lang 属性的计算值相同，则它指示文本是原文，并来源于具有固有语言的内容。
  - 否则（计算值不同于 xml:lang 属性的计算值），它指示文本是译文，并且该计算值是文本所译自的语言。

注

在文档中使用文本语言来源的示例可见文本一节。

示例 24

列举 `xml:lang` 和 `daptm:langSrc` 属性示例值的表格，用于不同原文转录来源及其固有语言。
转录来源	转录来源的固有语言	`xml:lang`	`daptm:langSrc`
图像内文本	英语	`en`	`en`
视频图像（非文本）	无	`en`	`zxx`
音效	无	`en`	`zxx`
对白	阿拉伯语	`ar`	`ar`

如果这些转录中的任何一个被翻译，则生成的文本会将其 daptm:langSrc 属性设置为源的 xml:lang 属性的计算值。

例如，如果阿拉伯语对白被翻译成日语，则会得到 xml:lang="ja" 和 daptm:langSrc="ar"。

屏幕上属性是一个注释，指示与脚本事件主体相关的场景中位置，例如正在说话的角色的位置：

ON - 脚本事件的主体在整个持续时间内都在屏幕上
OFF - 脚本事件的主体在整个持续时间内都不在屏幕上
ON_OFF - 脚本事件的主体开始时在屏幕上，但在某个时刻离开屏幕
OFF_ON - 脚本事件的主体开始时不在屏幕上，但在某个时刻进入屏幕

如果省略，则默认值为 "ON"。

注

当 daptm:represents 属性值以 visual 开头时，每个脚本事件的主体，即被描述的对象，预期位于视频图像中，因此默认值 "ON" 允许在这些情况下省略该属性，而不会歪曲含义。

屏幕上属性在 DAPT 文档中由 <div> 元素上的 daptm:onScreen 属性表示，并具有以下约束：

可以存在以下对应于屏幕上脚本事件属性的属性：

daptm:onScreen
  : "ON"     # default
  | "OFF"
  | "ON_OFF"
  | "OFF_ON"

表示对象属性指示脚本事件或文本（或其一部分）表示相关媒体对象的哪个组成部分。

表示对象属性在 DAPT 文档中由 daptm:represents 属性表示，其值必须是单个 <content-descriptor>。

daptm:represents 属性可以出现在以下任一元素上： <tt>、 <body>、 <div>、 <p> 和 <span>。

表示对象属性是可继承的。如果某个元素上不存在该属性，则其计算值为其父元素上表示对象属性的计算值；或者，如果它没有父元素，则为空字符串。如果某个元素上存在该属性，则其计算值为指定值。

注

由于不存在空的 <content-descriptor>，这意味着空的计算表示对象属性永远不可能有效；构造有效 DAPT 文档的一种方式是在DAPT 脚本上指定表示对象属性，使其由所有没有表示对象属性的后代继承。

如果表示对象属性值不是脚本表示对象属性中的至少一个值的内容描述符子类型，则这是错误。

脚本事件描述对象是一个注释，提供对脚本事件内容某个方面的人类可读描述。脚本事件描述本身可以使用描述类型进行分类。

脚本事件描述对象在 DAPT 文档中由 <div> 元素级别的 <ttm:desc> 元素表示。

可以存在零个或多个 <ttm:desc> 元素。

脚本事件描述不应为空。

注

脚本事件描述不需要是唯一的，即它不需要对每个脚本事件都具有不同值。例如，可以复用某个特定值，以人类可读的方式标识一个或多个预期一起处理的脚本事件，例如在批量录制中。

<ttm:desc> 元素可以使用 xml:lang 属性指定其语言。

注

在缺少 xml:lang 属性时，脚本事件描述的语言继承自父脚本事件对象。

示例 25

...
  <body daptm:langSrc="zxx">
    <div begin="10s" end="13s" xml:id="a1">
      <ttm:desc>Scene 1</ttm:desc>
      <p xml:lang="en">
        <span>A woman climbs into a small sailing boat.</span>
      </p>
      <p xml:lang="fr" daptm:langSrc="en">
        <span>Une femme monte à bord d'un petit bateau à voile.</span>
      </p>
    </div>
    <div begin="18s" end="20s" xml:id="a2">
      <ttm:desc>Scene 1</ttm:desc>
      <p xml:lang="en">
        <span>The woman pulls the tiller and the boat turns.</span>
      </p>
      <p xml:lang="fr" daptm:langSrc="en">
        <span>La femme tire sur la barre et le bateau tourne.</span>
      </p>
    </div>
  </body>
...

每个脚本事件描述都可以使用一个或多个描述类型进行注释，以进一步分类脚本事件描述的目的。

每个描述类型在 DAPT 文档中由 <ttm:desc> 元素上的 daptm:descType 属性表示。

<ttm:desc> 元素可以具有零个或一个 daptm:descType 属性。 daptm:descType 属性定义如下。

daptm:descType : string

daptm:descType 的允许值要么是以下注册表中列出的值，要么可以是用户定义的值：

注册表表格，用于 `daptm:descType` 属性，其注册表定义位于 H.2.1 `daptm:descType` 注册表表格定义
`daptm:descType`	状态	描述	备注
`pronunciationNote`	临时	关于如何发音内容的注释。
`scene`	临时	包含场景标识符
`plotSignificance`	临时	定义内容对情节重要程度的度量。	内容未定义，可以是低、中或高，也可以是数值尺度。

注

注册表条目在版本控制系统中以 JSON 形式提供，位于 /registries/descType.json。

有效的用户定义值必须以 x- 开头。

示例 26

...
  <body>
    <div begin="10s" end="13s" xml:id="a123">
      <ttm:desc daptm:descType="pronunciationNote">[oːnʲ]</ttm:desc>
      <p>Eóin looks around at the other assembly members.</p>
    </div>
  </body>
...

在同级的一组 <ttm:desc> 元素中，对 daptm:descType 属性的唯一性没有约束，但它可用作区分项，如以下示例所示。

示例 27

...
  <body daptm:langSrc="zxx">
    <div begin="10s" end="13s" xml:id="a1">
      <ttm:desc daptm:descType="scene">Scene 1</ttm:desc>
      <ttm:desc daptm:descType="plotSignificance">High</ttm:desc>
      <p xml:lang="en">
        <span>A woman climbs into a small sailing boat.</span>
      </p>
      <p xml:lang="fr" daptm:langSrc="en">
        <span>Une femme monte à bord d'un petit bateau à voile.</span>
      </p>
    </div>
    <div begin="18s" end="20s" xml:id="a2">
      <ttm:desc daptm:descType="scene">Scene 1</ttm:desc>
      <ttm:desc daptm:descType="plotSignificance">Low</ttm:desc>
      <p xml:lang="en">
        <span>The woman pulls the tiller and the boat turns.</span>
      </p>
      <p xml:lang="fr" daptm:langSrc="en">
        <span>La femme tire sur la barre et le bateau tourne.</span>
      </p>
    </div>
  </body>
...

音频对象用于指定文本的音频呈现。音频呈现可以是已录制的音频资源，作为音频录制对象，或是通过文本转语音引擎合成文本呈现的指令，即合成音频对象。二者都是音频对象的类型。

如果音频与其文本不使用相同语言，则这是错误。

支持音频的呈现处理器在相关媒体对象的时间轴上，在指定时间播放或插入音频。

注

音频对象是“抽象”的：它只能作为其子类型之一存在，即音频录制或合成音频。

音频录制是引用音频资源的音频对象。它具有以下属性：

一个或多个替代来源，其中每个来源要么是 1) 指向外部音频资源的链接，要么是 2) 嵌入式音频录制；
对于每个来源，一个强制性的类型，用于指定音频资源的类型（[MIME-TYPES]），例如 audio/basic；
一个可选的开始属性、一个可选的结束属性和一个可选的持续时间属性，它们共同定义音频录制在节目时间轴中的时间间隔，该时间间隔相对于父元素的时间间隔；
一个可选的入点时间和一个可选的出点时间属性，它们共同定义音频资源的一个时间子段；
默认入点时间是音频资源的开头。

默认出点时间是音频资源的结尾。

如果音频资源的时间子段长于音频录制时间间隔的持续时间，则播放必须截断，在音频录制的时间间隔结束时结束。

注

“扩展描述”（在 [media-accessibility-reqs] 中称为 “扩展视频描述”）比相关媒体中分配的时间更长。支持扩展描述的呈现处理器可以允许音频资源的有效播放速率不同于相关媒体对象的播放速率，以便生成的时间间隔具有足够长的持续时间来容纳音频资源的时间子段。例如，它可以暂停或减慢相关媒体对象的播放，同时继续播放音频资源；或者可以加快音频资源的播放，使音频录制的时间间隔不会在音频资源的时间子段之前结束。此行为目前未指定，因此由实现定义。

如果音频资源的时间子段短于音频录制时间间隔的持续时间，则音频资源播放一次。
零个或多个混音指令，用于修改音频录制的播放特性。

当提供来源列表时，呈现处理器必须对每个音频录制播放不超过一个来源。

此特性可能有助于浏览器指纹识别。实现可以使用类型，以及在存在时任何相关的附加格式信息，来决定播放哪个来源。例如，给定两个来源，一个是 WAV 文件，另一个是 MP3，只能播放这些格式之一的实现，或配置为偏好其中之一的实现，将选择可播放或偏好的版本。

音频录制在 DAPT 文档中由一个<audio> 元素表示，该元素是与其适用的文本相对应的 <p> 或 <span> 元素的子元素。以下约束适用于 <audio> 元素：

begin、end 和 dur 属性分别表示开始、结束和持续时间属性；
clipBegin 和 clipEnd 属性分别表示入点时间和出点时间属性，如示例 5所示；
对于每个来源，如果它是指向外部音频资源的链接，则来源和类型属性正好由以下之一表示：
1. 一个不是片段标识符的 src 属性，以及一个 type 属性，分别表示二者；
  如果存在多个来源，则不能使用此机制。
  示例 28
```
<audio src="https://example.com/audio.wav" type="audio/wave"/>
```
2. 一个<source>子元素，该子元素带有一个不是片段标识符的 src 属性和一个 type 属性，分别表示二者；
  示例 29
```
<audio>
  <source src="https://example.com/audio.wav" type="audio/wave"/>
  <source src="https://example.com/audio.aac" type="audio/aac"/>
</audio>
```
不是片段标识符的 src 属性是一个引用外部音频资源的 URL，即一个未嵌入在DAPT 脚本内的音频资源。 DAPT 中未指定对该资源是否可定位的验证。

编辑注

这里是否需要两种机制？目前不清楚在这种情况下，子 <source> 元素承载了什么语义优势。是否考虑将该子 <source> 元素的使用标记为“有风险”？
Issue 113：支持 `@src` 和 `<audio>` 的 `<source>` 子元素（外部资源）？question CR-exit-must-have
```
          While working on the specification for adding audio recordings I reminded myself of the various ways in which an audio recording can be embedded and referenced, of which there are at least 5 in total. Requirement R15 of [DAPT](https://www.w3.org/TR/dapt-reqs/#requirements) is clear that both referenced and embedded options need to be available, but should we be syntactically restricting the options for each? Will raise as separate issues.
```
最初由 @nigelmegitt 发布于 #105 （评论）

TTML2 中存在以下两种用于引用外部音频资源的选项：
1. <audio> 元素中的 src 属性。
```
<audio src="https://example.com/audio_recording.wav" type="audio/wave"/>
```
1. <audio> 元素的 <source> 子元素。
```
<audio>
    <source src="https://example.com/audio_recording.wav" type="audio/wave"/>
</audio>
```
第二个选项还有一种额外可能性：在 type 不足以表达时指定 format 属性。它还允许多个<source> 子元素，并且我们规定在这种情况下实现必须选择不超过一个。

[2023-03-29 编辑，以反映问题提出后增加的“播放不超过一个”约束]
Issue 218：有风险：支持 `<audio>` 中用于外部资源的 `src` 属性 CR-exit-must-have At risk feature

#113 的可能解决方案。

Issue 219：有风险：支持 `<audio>` 的 `<source>` 子元素用于外部资源 CR-exit-must-have At risk feature

#113 的可能解决方案。
对于每个来源，如果它是嵌入式音频资源，则来源和类型属性共同由以下之一准确表示：
1. 一个作为片段标识符的 src 属性，该片段标识符引用一个<audio> 元素，其中被引用的元素是 /tt/head/resources 的子元素，并指定一个 type 属性和用于引用它的 xml:id 属性；
  如果存在多个来源，则不能使用此机制。
  示例 30
```
<tt>
  <head>
    <resources>
      <audio type="audio/wave" xml:id="audio1">
        <source><data>[base64-encoded WAV audio resource]</data></source>
      </audio>
    </resources>
  </head>
  <body>
    ..
    <audio src="#audio1"/>
    ..
  </body>
</tt>
```
2. 一个<source>子元素，该子元素带有一个作为片段标识符的 src 属性，该片段标识符引用一个<data> 元素，其中被引用的元素是 /tt/head/resources 的子元素，并指定一个 type 属性和用于引用它的 xml:id 属性；
  示例 31
```
<tt>
  <head>
    <resources>
      <data type="audio/wave" xml:id="audio1wav">
        [base64-encoded WAV audio resource]
      </data>
      <data type="audio/mpeg" xml:id="audio1mp3">
        [base64-encoded MP3 audio resource]
      </data>
    </resources>
  </head>
  <body>
    ..
    <audio>
      <source src="#audio1wav"/>
      <source src="#audio1mp3"/>
    </audio>
    ..
  </body>
</tt>
```
3. 一个<source>子元素，它带有一个 <data> 子元素，该子元素指定一个 type 属性并包含音频录制数据。
  示例 32
```
<audio>
  <source>
    <data type="audio/wave">
        [base64-encoded WAV audio resource]
    </data>
  </source>
</audio>
```
在上述每种情况下，type 属性表示类型属性。

作为片段标识符的 src 属性是一个指针，指向嵌入在DAPT 脚本内的音频资源。

如果定义了 <data> 元素，则每个元素必须包含 #PCDATA 或 <chunk> 子元素，并且不得包含任何 <source> 子元素。

<data> 和 <source> 元素可以包含 format 属性，在选择适当的音频资源时，实现可以将其值与 type 属性值一起使用。

编辑注

这里是否需要全部 3 种机制？是否需要其中任何一种？嵌入音频数据可能存在用例，因为它使单个文档成为可移植的（尽管很大的）实体，可以进行交换和传输，而不必担心资源缺失，也不需要例如清单文件。如果我们不需要支持引用式嵌入音频，则只需要最后一个选项，并且它可能是实现起来最简单的。引用式嵌入音频的一种理由是，它更容易允许在不同文档位置重用相同音频，尽管在此用例中这似乎是不太可能的需求。另一种理由是，这意味着所有嵌入音频都位于文档中易于定位的部分 tt/head/resources 中，这可能会带来实现方面的好处？是否考虑将嵌入式数据特性标记为“有风险”？
Issue 114：支持 `@src` 和 `<audio>` 的 `<source>` 子元素（嵌入式资源）？question CR-exit-must-have
```
          While working on the specification for adding audio recordings I reminded myself of the various ways in which an audio recording can be embedded and referenced, of which there are at least 5 in total. Requirement R15 of [DAPT](https://www.w3.org/TR/dapt-reqs/#requirements) is clear that both referenced and embedded options need to be available, but should we be syntactically restricting the options for each? Will raise as separate issues.
```
最初由 @nigelmegitt 发布于 #105 （评论）

给定一些嵌入式音频资源：
```
<head>
  <resources>
    <audio xml:id="audioRecording1" type="audio/wave">
      <source>
        <data>[base64 encoded audio data]</data>
      </source>
    </audio>
    <data xml:id="audioRecording2" type="audio/wave">
      [base64 encoded audio data]
    </data>
  </resources>
</head>
```
TTML2 中存在以下两种用于引用 嵌入式音频资源的选项：
1. <audio> 元素中的 src 属性，引用嵌入的 <audio> 或 <data>：
```
<audio src="#audioRecording1"/>
...
<audio src="#audioRecording2"/>
```
1. <audio> 元素的 <source> 子元素。
```
<audio>
    <source src="#audioRecording1"/>
</audio>
```
第二个选项还有一种额外可能性：在 type 不足以表达时指定 format 属性。它还允许多个<source> 子元素，不过如果指定多个资源，其预期语义尚不清楚——大概是实现以某种方式选择其中一个。
Issue 115：支持引用式和内联式嵌入音频录制？question CR-exit-must-have
```
          While working on the specification for adding audio recordings I reminded myself of the various ways in which an audio recording can be embedded and referenced, of which there are at least 5 in total. Requirement R15 of [DAPT](https://www.w3.org/TR/dapt-reqs/#requirements) is clear that both referenced and embedded options need to be available, but should we be syntactically restricting the options for each? Will raise as separate issues.
```
最初由 @nigelmegitt 发布于 #105 （评论）

如果我们要支持嵌入式音频资源，它们可以定义在 /tt/head/resources 中然后被引用，或者数据可以以内联方式包含。

这两个选项都需要吗？

嵌入式示例：
```
<head>
  <resources>
    <audio xml:id="audioRecording1" type="audio/wave">
      <source>
        <data>[base64 encoded audio data]</data>
      </source>
    </audio>
    <data xml:id="audioRecording2" type="audio/wave">
      [base64 encoded audio data]
    </data>
  </resources>
</head>
```
然后可使用类似以下内容在正文内容中引用它（另见 #114）：
```
<audio src="#audioRecording2"/>
```
内联示例：
```
<audio type="audio/wave">
  <source type="audio/wave">
    <data>[base64 encoded audio data]</data>
  </source>
</audio>
```
Issue 220: 有风险：支持指向嵌入式资源的 `<audio>` 元素的 `src` 属性 CR-exit-must-have At risk feature

对 #114 和 #115 的可能解决方案。

与 #115 的关联在于，这意味着还存在某种可引用的嵌入式音频资源，这也是 #115 中描述的选项之一。

Issue 221: 有风险：支持作为 `<audio>` 元素子元素且指向嵌入式资源的 `<source>` CR-exit-must-have At risk feature

对 #114 和 #115 的可能解决方案。

与 #115 的关联在于，这意味着还存在某种可引用的嵌入式音频资源，这也是 #115 中描述的选项之一。

Issue 222: 有风险：支持内联音频资源 CR-exit-must-have At risk feature

对 #115 的可能解决方案。

Issue 116: 将非内联的嵌入式音频资源添加到数据模型？ question CR-exit-must-have

另见 #115 - 如果我们要支持非内联的嵌入式音频资源，是否应该为它们创建一个对象并将其添加到数据模型中？
Issue 117: 嵌入式数据：我们是否需要支持所有允许的编码？length 呢？ question CR-exit-must-have

在 TTML2 的 <data> 元素中，可以指定一个 encoding，它可以是以下之一：
- base16
- base32
- base32hex
- base64
- base64url
我们是否需要要求处理器支持所有这些编码，还是默认的 base64 就足够？

此外，还可以指定一个 length 属性，它为错误检查提供了一定可行性，因为解码后的数据必须具有指定的字节长度。要求支持此属性是否总体有益？它会被使用吗？
Issue 223: 有风险：`<data>` 中 `encoding` 的每个潜在值 CR-exit-must-have At risk feature

对 #117 的可能解决方案。

Issue 224: 有风险：支持 `<data>` 上的 `length` 属性 CR-exit-must-have At risk feature

对 #117 的可能解决方案。
混音指令可以按其 TTML 表示中的指定方式应用；
xml:lang 属性的计算值必须与父元素以及任何子 <source> 元素和任何被引用的嵌入式 <data> 元素的 xml:lang 属性的计算值相同。

合成音频是一个音频对象，它表示父文本内容的机器生成音频呈现。它具有以下属性：

一个强制性的速率，用于指定语速，其值为 normal、 fast 或 slow；
一个可选的音高，允许调整语音的音高。

合成音频在 DAPT 文档中通过在表示要说出的文本对象的元素上应用 tta:speak 样式属性来表示，其中该属性的计算值为 normal、fast 或 slow。该属性也表示速率属性。

tta:pitch 样式属性表示音高属性。

合成音频的 TTML 表示如示例 7所示。

注

如果某个元素的 tta:rate 属性计算值为 none，则该元素上的 tta:pitch 属性没有效果。该元素不被视为具有关联的合成音频。

注

DAPT 的合成音频词汇的语义派生自 [SSML] 中的等效特性，如 [TTML2] 中所示。本规范的此版本未指定 [SSML] 的其他特性如何从 DAPT 生成，或嵌入到DAPT 文档中。未来版本本规范扩展 [SSML] 支持的选项被有意保留开放。

混音指令对象是对与包含对象相关的音频进行的静态或动画调整。它具有以下属性：

零个或多个增益属性。增益作为要应用于相关音频的乘数；
零个或多个声像属性。声像调整立体声（左/右）位置；
一个可选的开始、一个可选的结束和一个可选的持续时间属性，它们共同定义混音指令适用的时间间隔；
一个可选的填充属性，用于指定在动画混音指令的结束时间，指定的增益和声像属性应当被保留（freeze）还是还原（remove）。

混音指令通过将音频样式属性应用到与相关对象对应的元素来表示，可以是内联方式、通过引用 <style> 元素，或在子（内联） <animate> 元素中：

tta:gain 属性表示增益属性；
tta:pan 属性表示声像属性。

如果混音指令是动画的，也就是说，如果调整属性在包含对象的活动时间间隔期间发生变化，则它由一个或多个子<animate>元素表示。如果需要多个增益或声像属性，或者需要任何定时属性，则需要这种表示。

<animate> 元素必须是与包含对象对应的元素的子元素，并具有以下约束：

begin、end 和 dur 属性分别表示开始、结束和持续时间属性；
fill 属性表示填充属性；
tta:gain 属性表示增益属性，并使用animation-value-list 语法来表达动画期间要应用的值列表；
tta:pan 属性表示声像属性，并使用animation-value-list 语法来表达动画期间要应用的值列表。

动画混音指令的 TTML 表示如示例 4所示。

另见E. 音频混音。

DAPT 文档必须序列化为一个格式良好的 XML 1.0 [xml] 文档，并按 [UNICODE] 中规定使用 UTF-8 字符编码进行编码。

所得的 [xml] 文档不得包含以下任何物理结构：

实体声明；以及
除预定义实体之外的实体引用。

注

所得的 [xml] 文档可以包含字符引用，以及指向预定义实体的实体引用。

预定义实体如下（包括前导与号和尾随分号）：

& 表示与号 &（Unicode 码点 U+0026）
' 表示撇号 '（Unicode 码点 U+0027）
> 表示大于号 >（Unicode 码点 U+003E）
< 表示小于号 <（Unicode 码点 U+003C）
" 表示引号符号 "（Unicode 码点 U+0022）

注

DAPT 文档也可以用作处理的内存中模型，在这种情况下，序列化要求不适用。

本节中的要求旨在促进向前和向后兼容性，具体允许：

面向规范某一版本的 DAPT 处理器处理包含未来版本中定义的词汇或语义的DAPT 文档，尽管不支持后续特性；
面向规范某一版本的 DAPT 处理器处理为较早版本创作的DAPT 文档，并表现出与面向该较早版本的 DAPT 处理器相似或相同的行为。

符合规范多个版本的DAPT 文档可以指定对多个 DAPT 内容配置文件的符合性。

无法识别的词汇是指不与处理器所支持的特性关联的元素和属性集合。

转换处理器必须剪除既不是属性、也不是 <metadata> 元素后代的无法识别的词汇。

转换处理器应当保留是属性或 <metadata> 元素后代的无法识别的词汇。

注

另见5.6.2 ttp:contentProfiles，它禁止发出对转换处理器不支持的配置文件的配置文件符合性信号。

在属性值计算之后，呈现处理器应当忽略无法识别的词汇。

注

之所以将上述约束指定为在属性值计算之后，是因为实现可能识别并支持仅出现在特定元素上的属性，例如那些与 DAPT 数据模型对应的属性。如6.4 使用计算属性值中所述，处理器实现在这些属性出现在其他元素上时，不忽略它们非常重要。

外来词汇是无法识别的词汇的子集，它由命名空间不是5.3 命名空间中列出的命名空间之一的元素和属性，以及其命名空间没有值且未在 DAPT 或 [TTML2] 中另行定义的属性组成。

DAPT 文档可以包含既未被ttp:contentProfiles 中发出信号的配置文件明确允许、也未被禁止的外来词汇。

注

出于验证目的，良好实践是为DAPT 文档中使用的所有外来词汇定义并使用一个规范，例如一个内容配置文件。

许多配音和音频描述工作流允许使用专有元数据注释脚本事件或文档。可以包含本规范或 [TTML2] 中定义的元数据词汇。也可以包含外来词汇，可以作为 <metadata> 元素的属性，或作为 <metadata> 元素的后代元素。

注

可以使用 [TTML2] 构造添加节目标题等信息。

示例 33

...
  <head>
    <metadata>
      <ttm:title>A example document title</ttm:title>
    </metadata>
  </head>
...

注

可以使用外来命名空间添加工作流特定的信息。在以下示例中，使用来自“示例供应商”的虚构命名空间 vendorm 来提供 DAPT 未定义的文档级信息。

示例 34

...
  <metadata xmlns:vendorm="http://www.example-vendor.com/ns/ttml#metadata">
    <vendorm:programType>Episode</vendorm:programType>
    <vendorm:episodeSeason>5</vendorm:episodeSeason>
    <vendorm:episodeNumber>8</vendorm:episodeNumber>
    <vendorm:internalId>15734</vendorm:internalId>
    <vendorm:information>Some proprietary information</vendorm:information>
  </metadata>
...

强烈建议不要将其语义依赖于文档内容的数据放置在 <metadata> 元素中。

此类数据可能会被修改文档内容但保留元数据、同时不了解其语义的转换处理器置为无效。

本节是非规范性的。

如果外来词汇包含在 <metadata> 元素以外的位置，则不支持与该词汇关联的特性的转换处理器将按 5.2.1 无法识别的词汇中的要求将其剪除。

提供了一种机制，用于防止这种剪除，并为此类外来词汇定义语义，允许其位于 <metadata> 元素之外而不被剪除，并指示内容和处理器符合性：

定义一个配置文件，其中包括该语义和词汇的特性定义，并带有配置文件指示符。
使用5.6.2 ttp:contentProfiles发出文档符合该配置文件的信号

这允许支持该特性的处理器以任何适当方式处理该词汇，以避免剪除它，并允许不支持该特性的处理器采取适当操作，例如警告用户某些功能可能会丢失。

本规范中使用以下命名空间（见 [xml-names]）：

名称	前缀	值	定义规范
XML	`xml`	`http://www.w3.org/XML/1998/namespace`	[xml-names]
TT	`tt`	`http://www.w3.org/ns/ttml`	[TTML2]
TT 参数	`ttp`	`http://www.w3.org/ns/ttml#parameter`	[TTML2]
TT 音频样式	`tta`	`http://www.w3.org/ns/ttml#audio`	[TTML2]
TT 元数据	`ttm`	`http://www.w3.org/ns/ttml#metadata`	[TTML2]
TT 特性	无	`http://www.w3.org/ns/ttml/feature/`	[TTML2]
DAPT 元数据	`daptm`	`http://www.w3.org/ns/ttml/profile/dapt#metadata`	本规范
DAPT 扩展	无	`http://www.w3.org/ns/ttml/profile/dapt/extension/`	本规范
EBU-TT 元数据	`ebuttm`	`urn:ebu:tt:metadata`	[EBU-TT-3390]

上面定义的命名空间前缀值是为方便而提供，DAPT 文档可以使用任何符合 [xml-names] 的前缀值。

本规范定义的命名空间是可变的，如 [namespaceState] 中所述；这些命名空间中的所有未定义名称都保留给 W3C 将来标准化。

在 DAPT 中，通用语言术语音频和视频在节目的语境中使用。音频和视频各自都是 [TTML2] 中定义为相关媒体对象的一部分，该对象提供媒体时间轴，是主节目音频的来源，并提供在调整与视频图像相关的定时时所需的任何视觉定时参考，例如用于唇同步。

注

DAPT 文档可以使用元数据标识充当相关媒体对象的节目。例如，可以使用 [EBU-TT-3390] 中定义的 <ebuttm:sourceMediaIdentifier> 元素。

示例 35

<tt xmlns="http://www.w3.org/ns/ttml" 
    xmlns:ttp="http://www.w3.org/ns/ttml#parameter"
    xmlns:daptm="http://www.w3.org/ns/ttml/profile/dapt#metadata"
    xmlns:ebuttm="urn:ebu:tt:metadata"
    xml:lang="en" 
    ttp:contentProfiles="http://www.w3.org/ns/ttml/profile/dapt1.0/content"
    daptm:scriptRepresents="audio.dialogue"
    daptm:scriptType="originalTranscript">
  <head>
    <metadata>
      <ebuttm:sourceMediaIdentifier>https://example.org/programme.mov</ebuttm:sourceMediaIdentifier>
    </metadata>
  </head>
  <body>
    ...
  </body>
</tt>

如果DAPT 文档旨在用作生成 [ttml-imsc1.3] 文档的基础，则 [ttml-imsc1.3] 的同步规定适用于与视频相关的情况。

DAPT 文档中的定时内容旨在从特定音频采样开始和结束来呈现。

注

在本规范的上下文中，呈现可以是文本的视觉呈现，例如向演员显示要说出的词语，也可以是音频资源的可听播放，或者可以是物理或触觉呈现，例如盲文显示器。

在受限应用中，例如实时音频混合和播放，如果在呈现输出中无法实现与音频采样的精确同步，则在呈现的定时变化中，创作和播放不准确性的综合影响应该满足 [EBU-R37] 的同步要求，即音频变化不得早于图像变化超过 40ms，也不得晚于图像变化超过 60ms。

同样，创作应用程序应该允许作者满足 [EBU-R37] 的要求，通过以一定精度定义时间，使音频变化晚于视频图像中任何相关变化的时间少于 15ms，并早于视频图像中任何相关变化的时间少于 5ms。

综合来看，上述关于整体呈现以及关于旨在用于实时播放的DAPT 文档的两个约束意味着，内容处理器应该完成音频呈现变化的时间不早于DAPT 文档中指定时间超过 35ms，且不晚于指定时间超过 45ms。

本节定义 TTML 文档实例如何发出它是DAPT 文档的信号，以及如何发出适用的任何处理要求信号。另见7.1 DAPT 文档的符合性，该节定义如何确定DAPT 文档符合本规范。

此配置文件与以下配置文件指示符关联：

配置文件名称	配置文件类型	配置文件指示符
DAPT 1.0 内容配置文件	内容配置文件	`http://www.w3.org/ns/ttml/profile/dapt1.0/content`
DAPT 1.0 处理器配置文件	处理器配置文件	`http://www.w3.org/ns/ttml/profile/dapt1.0/processor`

ttp:contentProfiles 属性用于声明文档所符合的 [TTML2] 配置文件。

DAPT 文档必须在 <tt> 元素上指定 ttp:contentProfiles 属性，其中至少包括一个等于5.6.1 配置文件指示符中指定的内容配置文件指示符的值。可以存在其他值，用于声明符合 [TTML2] 的其他配置文件，并且可以包括专有命名空间中的配置文件指示符。

如果DAPT 文档发出符合某个其并不符合的内容配置文件的信号，则这是错误。

转换处理器不得在 ttp:contentProfiles 属性中包含与其（处理器）不支持的配置文件关联的值；按定义，它们无法验证内容对这些配置文件的符合性。

ttp:profile 属性是 [TTML1] 中用于声明文档实例处理要求的一种机制。它实际上已在 [TTML2] 中由 ttp:processorProfiles 取代。

DAPT 文档不得在 <tt> 元素上指定 ttp:profile 属性。

ttp:processorProfiles 属性用于声明文档实例的处理要求。

DAPT 文档可以在 <tt> 元素上指定 ttp:processorProfiles 属性。如果存在，则 ttp:processorProfiles 属性必须至少包括一个值，该值等于 5.6.1 配置文件指示符中指定的处理器配置文件指示符。可以存在其他值，用于声明附加处理约束，并且可以包括专有命名空间中的配置文件指示符。

注

ttp:processorProfiles 属性可用于发出信号，表明需要支持附加配置文件中的特性和扩展，才能成功处理文档实例。例如，本地工作流可能引入特定的元数据要求，并通过使用附加处理器配置文件指示符来发出处理器需要支持这些要求的信号。

注

如果内容作者不需要发出信号表明处理 DAPT 文档需要超出 DAPT 定义之外的附加处理器要求，则 ttp:processorProfiles 属性预期不会存在。

[TTML2] 指定了一种可用于定义文档实例可使用的、或处理器需要支持的特性集合的词汇和语义，这称为配置文件。

除非另有规定，DAPT 不要求处理器支持此配置文件词汇；但仍允许这种支持。

此配置文件词汇的大部分用于指示处理器如何计算为成功处理文档实例而需要支持的特性集合。该词汇本身是根据 TTML2 特性定义的。这些与配置文件相关的特性在F. 配置文件中列为可选。处理器可以实现它们，并且其关联词汇可以出现在DAPT 文档中。

注

除非已经安排（使用带外协议）处理器支持这些特性和词汇，否则不预期出现该词汇。

DAPT 中不要求（但允许）处理器支持的附加配置文件相关词汇包括：

在 DAPT 脚本中，以下约束适用于时间属性和时间表达式：

唯一允许的 ttp:timeBase 属性值是 media，因为F. 配置文件禁止除#timeBase-media 之外的所有 timeBase 特性。

这意味着文档时间轴的开头，即时间“零”，是相关媒体对象的开头。

timeContainer 属性唯一允许的值是默认值 par。

文档应当在所有元素上省略 timeContainer 属性。

文档不得在任何元素上将 timeContainer 属性设置为 par 以外的任何值。

注

这意味着每个定时元素的 begin 属性值相对于其父元素的计算开始时间，或者对于 <body> 元素，相对于时间零。

如果文档包含任何使用 f 度量的时间表达式，或任何包含帧组成部分的时间表达式，则 ttp:frameRate 属性必须出现在 <tt> 元素上。

注

[TTML2] 指定了 ttp:frameRateMultiplier 属性，用于定义非整数帧率。

如果文档包含任何使用 t 度量的时间表达式，则 ttp:tickRate 属性必须出现在 <tt> 元素上。

文档中的所有时间表达式应当使用相同语法，即 [TTML2] 中定义的 clock-time 或 offset-time，并应用DAPT 约束。

注

DAPT clock-time 具有以下形式之一：

hh:mm:ss.sss
hh:mm:ss

其中 hh 为小时， mm 为分钟， ss 为秒，且 ss.sss 为带秒的小数部分的秒（任意精度）。

注

使用帧组成部分的时钟时间表达式看起来类似“时间码”，但由于在其他地方观察到使用它们时会造成语义混淆，尤其是在非整数帧率、“丢帧模式”和子帧率下，因此被禁止。

注

offset-time 具有以下形式之一：

nn metric
nn.nn metric

其中 nn 是整数， nn.nn 是带小数部分的数字（任意精度），且 metric 是以下之一：

h 表示小时，
m 表示分钟，
s 表示秒，
ms 表示毫秒，
f 表示帧，以及
t 表示滴答。

当将媒体时间表达式 M 映射到视频的帧 F 时，例如用于精确定时唇同步，内容处理器应当将 M 映射到呈现时间最接近但不小于 M 的帧 F。

媒体时间表达式 00:00:05.1 对应于帧率为 1000 / 1001 × 30 ≈ 29.97 的视频的第 ceiling( 5.1 × ( 1000 / 1001 × 30) ) = 153 帧。

本规范不对 [ttml-imsc1.3] 中定义的布局和呈现特性施加额外约束。

注

段落的布局可以依赖默认的 TTML 区域（即如果 <head> 元素中没有使用 <layout> 元素），也可以通过使用 region 属性显式指定，以引用位于 /tt/head/layout/region 的 <region> 元素。

可以使用样式引用或内联样式，使用 style 属性、 <style> 元素以及 [TTML2] 或 [ttml-imsc1.3] 中定义的内联样式属性的任意组合。

以下元数据元素在 DAPT 中是允许的，并且在 [TTML2] 中被指定为包含 #PCDATA，即仅包含文本数据而没有元素内容。在此类元素内的字符内容中需要双向文本时，可以使用 Unicode 控制字符在任意文本范围内定义基方向。

<ttm:copyright>
<ttm:desc>
<ttm:item>
<ttm:name>
<ttm:title>

注

关于此机制用法的更多指导可见于HTML 中的内联标记和双向文本。

<p> 和 <span> 内容元素允许使用 tts:direction 和 tts:unicodeBidi 属性指定文本方向。文档作者应使用这种更健壮的机制，而不是使用 Unicode 控制字符。

注

以下取自 [TTML2] 的示例演示了 <p> 和 <span> 元素内双向文本标记的语法。

示例 36

<p>
The title of the book is
"<span tts:unicodeBidi="embed" tts:direction="rtl">نشاط التدويل، W3C</span>"
</p>

上述片段的示例渲染如下所示。

4. DAPT 数据模型及相应的 TTML 语法定义了 DAPT 数据模型的对象和属性如何在 [TTML2] 中表示，即在DAPT 文档中表示。然而，一个 DAPT 数据模型实例可以由多个 [TTML2] 文档实例表示。

例如，4. DAPT 数据模型及相应的 TTML 语法并未强制要求表示脚本事件的 <div> 元素必须是 <body> 元素的直接子元素。该 <div> 元素可以嵌套在另一个 <div> 元素中。因此，可以将DAPT 脚本的对象和属性序列化为各种DAPT 文档。本节定义如何从一个DAPT 文档中可互操作且无歧义地重建一个 DAPT 模型实例。

注

DAPT 出于可扩展性原因，没有定义 DAPT 数据模型的完整序列化，以便在需要时允许未来版本这样做。此外，DAPT 文档可以包含未在 DAPT 对象或属性的表示中提及的元素或属性。这可能是因为它由符合 DAPT 未来某个版本的处理器生成，或是通过通用 [TTML2] 流程生成，或者因为它使用了可选特性，例如添加样式或布局。本节定义如何处理这些元素或属性。

注

也可以使用通用 [TTML2] 处理器处理DAPT 文档，这些处理器不一定会将文档映射到 DAPT 数据模型。例如，通用 TTML2 呈现处理器可以基于 DAPT 文档渲染音频混音，而不需要对脚本事件本身建模。在这种情况下，可以忽略本节。

本节是非规范性的。

与本节相关的规范性规定定义于 [TTML2] 中。

由于 DAPT 要求 DAPT 文档在根元素上包含 ttp:contentProfiles 属性，并且该属性包含一个 DAPT 内容配置文件指示符，如5.6.2 ttp:contentProfiles中所规定，因此任何未包含此类属性、或未包含此类配置文件指示符的 TTML 文档，都可以被视为不是DAPT 文档；因此，需要严格遵循 DAPT 的处理器可以停止处理这样的文档。

如果处理器以一个DAPT 文档作为输入，该文档包含与其确实支持的特性相关的词汇，但该文档声称符合的内容配置文件排除了对这些特性的支持，则在该文档的上下文中，处理器不应实现这些特性。

[TTML2] 允许 <div> 元素包含任意组合的 <div> 元素和 <p> 元素。 DAPT 数据模型描述了每个脚本事件如何由一个包含零个或多个 <p> 元素的 <div> 元素表示。它还允许在 <body> 元素和这些脚本事件 <div> 元素之间的路径中存在其他中间 <div> 元素。此外，也允许使用不对应于 DAPT 数据模型中属性的属性。

这会产生如下可能性：

<div> 元素包含不是文本对象的子项，例如其他 <div> 元素或 <metadata> 元素；
<div> 元素不具有脚本事件所需的属性，例如 xml:id；
<div> 元素具有不存在于 DAPT 数据模型的脚本事件中的属性，例如 xml:space；
<p> 元素的父 <div> 元素看起来不是一个脚本事件。

以下处理规则解决这些情况。

用于识别脚本事件的规则：

没有 <div> 元素子项、并包含脚本事件所有非元数据强制属性的 TTML 表示的 <div> 元素，必须映射到脚本事件，例如具有表示脚本事件标识符的有效 xml:id，即使它还包含额外的无法识别的词汇；

就本条款而言，如果一个属性的 TTML 表示位于daptm 命名空间或ttm 命名空间中，则该属性被认为是元数据。
包含任何 <div> 元素子项的 <div> 元素不得映射到脚本事件；处理器反而必须遍历这些 <div> 元素子项（递归地，以深度优先遍历），并考虑其中每个子项是否满足脚本事件的要求；
任何剩余的未映射 <div> 元素不得映射到脚本事件。

用于识别文本对象的规则：

作为映射到脚本事件的 <div> 元素的子元素的 <p> 元素，必须映射到文本对象。
不是映射到脚本事件的 <div> 元素的子元素的 <p> 元素，不得映射到文本对象。

注

DAPT 的未来版本可能包含以不同方式使用这些结构可能性的特性，因而定义与这里定义的规则相互排斥的其他处理规则。

示例 37

此示例演示上述可能性，以及规则的应用：

<body>
    <div xml:id="d1"> <!-- This is a Script Event -->
        <p> <!-- This is a Text --> </p>
    </div>
    <div> <!-- This cannot be a Script Event because it has no xml:id -->
        <p> <!-- Would be a Text if its parent were a Script Event --> </p>
    </div>
    <div xml:id="d2_1"> <!-- div parent of another div -->
        <div xml:id="d2"> <!-- Possibly a Script Event --></div>
    </div>
    <div xml:id="d3_1"> <!-- double layer of nesting -->
        <div xml:id="d3_1_1">
            <div xml:id="d3" begin="..." end="..." xml:lang="ja" foo:bar="baz">
                <!-- A Script Event with possibly unexpected attributes -->
            </div>
        </div>
    </div>
    <div xml:id="d4_1"> <!-- mixed div and p children -->
        <div xml:id="d4_2"> <!-- This possible Script Event has a sibling <p> --> </div>
        <p> <!-- Possible Text, but not if its parent is not a Script Event --> </p>
    </div>
</body>

将上述规则应用于此示例的结果是：

d1 是脚本事件，其子 <p> 元素是一个文本对象；
d1 与 d2 的父 <div> 元素之间的 <div> 元素不是脚本事件，其子 <p> 元素也不是文本对象；
d2 是脚本事件，而其父 <div> 元素不是；
d3 是脚本事件，而其父元素和祖父 <div> 元素都不是；
d4_1 不是脚本事件，其子 <p> 元素也不是文本对象；
d4_2 是脚本事件。

某些属性具有用于计算其值的语义，该语义取决于其他某个元素上该属性的计算值。例如，如果某个元素上未指定 xml:lang 属性，则其计算值为该元素父元素上同一属性的计算值。

可以在除其定义所在的 DAPT 数据模型实体所对应元素之外的元素上指定的属性表。请注意，其他允许的属性，例如样式属性（包括 `fill`、`tta:gain` 和 `tta:pan`），未在此列出。
属性	DAPT 数据模型实体	可以指定于	对子元素或后代元素的影响
`xml:lang`	默认语言、语言	任意元素	继承，如 [XML] 中定义
`xml:id`	唯一标识符	任意元素	无
`begin`	开始	`<body>`、 `<div>`、 `<p>`、 `<span>`、 `<audio>`、 `<animate>`	为其子元素上的定时属性设置纪元，如 [TTML2] 中定义
`end`	结束	`<body>`、 `<div>`、 `<p>`、 `<span>`、 `<audio>`、 `<animate>`	约束其后代的计算结束时间，如 [TTML2] 中定义
`dur`	持续时间	`<body>`、 `<div>`、 `<p>`、 `<span>`、 `<audio>`、 `<animate>`	约束其后代的计算结束时间，如 [TTML2] 中定义
`daptm:langSrc`	文本语言来源	`<tt>`、 `<body>`、 `<div>`、 `<p>`、 `<span>`	继承，如本节中定义
`daptm:represents`	表示对象	`<tt>`、 `<body>`、 `<div>`、 `<p>`、 `<span>`	继承，如本节中定义

daptm:scriptRepresents、 daptm:onScreen 和 daptm:descType 属性仅在指定于特定元素上时才有定义。

或者，再举一个例子，DAPT 文档中某个元素的计算时间相对于该元素父元素的开始时间。如果 <div> 元素指定了 begin 属性，则其子 <div> 元素的计算时间相对于该父 <div> 元素的开始时间，并沿层级依次类推。即使处理目标是 DAPT 数据模型的一个实例，且这些“中间”<div> 元素在其中没有直接等价物，也必须在计算中包含这些元素的时间；否则脚本事件的开始和结束时间将会错误。

更一般地考虑这种情况，在 DAPT 文档中，可能存在一些 TTML 元素，它们不直接对应于 DAPT 数据模型中的对象，并且这些元素可以指定一些属性，这些属性会影响适用于那些确实对应于 DAPT 数据模型对象的元素的属性值计算。

在这种情形中，由 [TTML2] 定义的语义，或者对于本文定义的词汇，由本规范定义的语义，具有优先权。实现必须基于文档实例的内容计算属性值，然后再将这些计算值应用于 DAPT 数据模型对象。例如，支持 TTML2 样式特性的处理器需要实现 TTML2 关于继承和计算相对值的语义，例如 tts:fontSize 等属性的语义。

示例 38

此示例演示处理器可能需要处理的这些可能性：

<tt ... xml:lang="en">
    <body>
        <div xml:id="d1" begin="00:01:00" end="00:01:10">
            <!-- Script Event beginning at 1 minute, duration 10 seconds -->
            <p> <!-- This is a Text, language "en" --> </p>
        </div>
        <div begin="00:10:00" xml:lang="fr"> <!-- div that is not a Script Event -->
            <div xml:id="d2" begin="00:01:00" end="00:01:10">
                <!-- Script Event beginning at 11 minutes, duration 10 seconds -->
                <p> <!-- This is a Text, language "fr" --> </p>
            </div>
        </div>
    </body>
</tt>

这里，对应于脚本事件的 <div> 元素，其 id 分别为 d1 和 d2，除了其标识符之外本来是相同的，但由于在 d2 的父 <div> 元素上指定的属性，它们的语言和开始属性具有不同的计算值。

如果实现内部创建 DAPT 数据模型对象，例如上例所示的脚本事件，为实现互操作性，重要的是它们使用计算值。

本节是非规范性的。

按照5.2.1 无法识别的词汇，鼓励 DAPT 处理器的实现者在DAPT 文档的 <metadata> 元素内保留无法识别的词汇。在实践中，一个既输入 DAPT 文档又输出 DAPT 文档的实现可能会修改输入文档结构和内容，并在此过程中实际上从输出文档中剪除了那些具有无法识别的词汇的实体。

与本节相关的规范性规定定义于 [TTML2] 中。

[TTML2] 定义了验证处理器，这是一类实现，其目的是评估文档实例并决定其是否有效。通常，这会在处理工作流中使用，用于检查文档是否可被后续使用所接受。真实世界的示例很可能不会仅返回“好”或“坏”，而还会输出信息性、警告和错误消息，描述输入文档中异常、意外或有问题的内容。

在为DAPT 文档实现验证处理器时，可以应用严格的 [TTML2] 验证处理规则。这样做涉及检查配置文件中定义的必需或可选特性所关联的语法和内容是否存在且语义有效，以及检查是否不存在与被禁止特性关联的语法。

[TTML2] 用于处理无法识别命名空间中的词汇的机制是在验证之前剪除它。可以使用这种方法；此外，对于已被剪除的那些属性和元素，实现将其作为信息报告也是合理的。

注

此处的术语“词汇”指 XML 元素和属性。

当在剪除之后遇到已识别命名空间中的不支持或已弃用词汇时，或者当受支持词汇包含意外但并非无效的内容时，可以发出验证警告，但在这些情形中不预期出现错误。

当存在被禁止的词汇，或者在允许的词汇中遇到语义无效的内容时，预期会出现验证错误。

本节通过针对一组特性和扩展表达处置，定义一个 [TTML2] 内容配置文件和一个处理器配置文件。 DAPT 扩展定义于G. 扩展。

[TTML2] 中指定的配置文件语义适用。

TTML 配置文件规范是一个文档，它列出在“文档实例”（文件）和“处理器”（处理这些文件的事物）中必需 / 可选 / 禁止的所有 TTML 特性，以及任何扩展或约束。

符合本文所定义内容配置文件的定时文本内容文档实例：

必须满足配置文件指定的所有规范性规定；
可以包括与在该配置文件中处置为允许或可选的特性或扩展关联的任何词汇、语法或属性值；
必须包括与在该配置文件中处置为必需的特性或扩展关联的任何词汇、语法或属性值。
不得包括与在该配置文件中处置为禁止的特性或扩展关联的任何词汇、语法或属性值。

注

根据定义，定时文本内容文档实例满足 [TTML2] 第 3.1 节的要求，因而符合本文所定义配置文件的定时文本内容文档实例也是符合要求的 TTML2 文档实例。

符合本规范所定义处理器配置文件的呈现处理器：

必须满足 [TTML2] 第 3.2.1 节中的通用处理器符合性要求
必须满足配置文件指定的所有规范性规定；以及
必须为配置文件指定为允许或必需的每个特性或扩展实现呈现语义支持，但受配置文件为每个特性指定的任何附加约束限制。
可以为配置文件指定为可选或禁止的每个特性或扩展实现呈现语义支持，但受配置文件为每个特性指定的任何附加约束限制。

符合本规范所定义处理器配置文件的转换处理器：

必须满足 [TTML2] 第 3.2.1 节中的通用处理器符合性要求；
必须满足配置文件指定的所有规范性规定；以及
必须为配置文件指定为允许或必需的每个特性或扩展实现转换语义支持，但受配置文件为每个特性指定的任何附加约束限制。
可以为配置文件指定为可选或禁止的每个特性或扩展实现转换语义支持，但受配置文件为每个特性指定的任何附加约束限制。

本规范中使用的必需、允许、可选和禁止处置按如下方式映射到 [TTML2] <ttp:feature> 和 <ttp:extension> 元素的 value 属性值：

DAPT 处置	`<ttp:feature>` 或 `<ttp:extension>` 元素 `value` 属性值，位于
DAPT 处置	内容配置文件	处理器配置文件
必需	required	required
允许	optional	required
可选	optional	optional
禁止	prohibited	optional

注

本文档中使用术语呈现处理器和转换处理器，并不意味着本身符合 [TTML2] 中定义的任何标准配置文件。换句话说，呈现处理器或转换处理器符合本文档中定义的配置文件，但并不同时符合 TTML2 呈现配置文件或 TTML2 转换配置文件，不被认为是错误。

注

本规范使用 [TTML2] 配置子系统来描述 DAPT 符合性，并不意味着要求 DAPT 处理器支持该系统中除 DAPT 明确要求支持的特性之外的任何特性。

注

本文档未指定呈现处理器或转换处理器在处理或转换不符合要求的定时文本内容文档实例时的行为。

注

允许和禁止处置并不是指将 <ttp:feature> 或 <ttp:extension> 元素指定为在 <ttp:profile> 元素内允许或禁止。

本节列出的特性和扩展表达了对DAPT 文档、呈现处理器和转换处理器的最低要求。 DAPT 文档可以另外符合其他配置文件，并包含未被 DAPT 内容配置文件禁止的语法。呈现处理器和转换处理器可以支持与其他配置文件相关的附加语法和语义。

注

例如，DAPT 脚本可以包含 [TTML2] 的 IMSC（[ttml-imsc1.3]）文本配置文件所允许的语法，以增强向录制音频的演员呈现脚本的效果，或添加对后续创建字幕或说明字幕很重要的样式。

编者注

编辑任务：逐一检查此特性列表，并检查每一项的处置情况。不应存在 IMSC 中允许但在此被禁止的特性。

特性或扩展	处置	附加规定
相对于 TT 特性命名空间
`#animate-fill`	允许
`#animate-minimal`	允许
`#animation-out-of-line`	禁止	见4.10 混音指令。
`#audio`	允许
`#audio-description`	允许
`#audio-speech`	允许
`#bidi`	允许
`#bidi-version-2`	允许
`#chunk`	允许
`#clockMode`	禁止
`#clockMode-gps`	禁止
`#clockMode-local`	禁止
`#clockMode-utc`	禁止
`#content`	允许
`#contentProfiles`	允许	见5.6.2 `ttp:contentProfiles` 和G.3 #contentProfiles-root。
`#contentProfiles-combined`	可选	见5.6.5 其他 TTML2 配置文件词汇。
`#core`	允许
`#data`	允许
`#direction`	允许
`#dropMode`	禁止
`#dropMode-dropNTSC`	禁止
`#dropMode-dropPAL`	禁止
`#dropMode-nonDrop`	禁止
`#embedded-audio`	允许
`#embedded-data`	允许
`#frameRate`	允许	见5.7.3 `ttp:frameRate`。
`#frameRateMultiplier`	允许
`#gain`	允许
`#markerMode`	禁止
`#markerMode-continuous`	禁止
`#markerMode-discontinuous`	禁止
`#metadata`	允许
`#metadata-item`	允许
`#metadata-version-2`	允许
`#pan`	允许
`#permitFeatureNarrowing`	可选	见5.6.5 其他 TTML2 配置文件词汇。
`#nested-div`	允许	这是4.3 脚本事件中所述允许嵌套 `<div>` 元素的配置文件表达。
`#permitFeatureWidening`	可选	见5.6.5 其他 TTML2 配置文件词汇。
`#pitch`	允许
`#presentation-audio`	允许
`#processorProfiles`	可选	见5.6.4 `ttp:processorProfiles`。
`#processorProfiles-combined`	可选	见5.6.5 其他 TTML2 配置文件词汇。
`#profile`	部分允许	见5.6.3 `ttp:profile`。
`#profile-full-version-2`	部分允许	见5.6.5 其他 TTML2 配置文件词汇。
`#profile-version-2`	部分允许	见5.6.5 其他 TTML2 配置文件词汇。
`#resources`	允许
`#set`	允许
`#set-fill`	允许
`#set-multiple-styles`	允许
`#source`	允许
`#speak`	允许
`#speech`	允许
`#structure`	必需
`#styling`	允许
`#styling-chained`	允许
`#styling-inheritance-content`	允许
`#styling-inline`	允许
`#styling-referential`	允许
`#subFrameRate`	禁止
`#tickRate`	允许	见5.7.4 `ttp:tickRate`。
`#time-clock`	允许
`#time-clock-with-frames`	禁止
`#time-offset-with-frames`	允许	见5.7.3 `ttp:frameRate`。
`#time-offset-with-ticks`	允许	见5.7.4 `ttp:tickRate`。
`#time-offset`	允许
`#time-wall-clock`	禁止
`#timeBase-clock`	禁止
`#timeBase-media`	必需	见5.7.1 `ttp:timeBase`。注：[TTML1] 指定，如果未在 `<tt>` 元素上指定 `ttp:timeBase` 属性，则默认时间基准为 `"media"`。
`#timeBase-smpte`	禁止
`#timeContainer`	禁止	见5.7.2 `timeContainer`。
`#timing`	允许	见5.7.5 时间表达式。
`#transformation`	允许	见 #profile 处的约束。
`#unicodeBidi`	允许
`#unicodeBidi-isolate`	允许
`#unicodeBidi-version-2`	允许
`#xlink`	允许
相对于DAPT 扩展命名空间
`#agent`	允许	这是4.2 角色的配置文件表达。
`#contentProfiles-root`	必需	这是5.6.2 `ttp:contentProfiles`的配置文件表达。
`#daptOriginTimecode`	允许	这是D.1 DAPT 原点时间码的配置文件表达。
`#descType`	允许	这是`daptm:descType`的配置文件表达。
`#onScreen`	允许	这是4.6 屏幕上的配置文件表达。
`#profile-root`	禁止	这是对 `<tt>` 元素上的 `ttp:profile` 属性的禁止的配置文件表达，如5.6.3 `ttp:profile`中所规定。
`#represents`	必需	这是应用于脚本事件的表示对象的配置文件表达。
`#scriptEventMapping`	可选	这是6.3 处理 `<div>` 和 `<p>` 元素的配置文件表达。
`#scriptRepresents-root`	必需	这是脚本表示对象的配置文件表达。
`#scriptType-root`	必需	这是4.1.3 脚本类型的配置文件表达。
`#serialization`	必需	这是5.1 文档编码的配置文件表达。
`#source-data`	禁止	这是对 `<data>` 元素的 `<source>` 子元素的禁止的配置文件表达，如 4.9.1 音频录制中所规定。
`#textLanguageSource`	允许	这是4.5 文本语言来源的配置文件表达，如4.4 文本中所要求。
`#xmlLang-audio-nonMatching`	禁止	这是对 `<audio>` 元素上的 `xml:lang` 属性具有不同于父元素以及后代或引用的 `<source>` 和 `<data>` 元素的计算值的禁止的配置文件表达，如4.9.1 音频录制中所规定。
`#xmlLang-root`	必需	这是4.1.2 默认语言的配置文件表达。

DAPT 内容配置文件使用 [TTML2] 的配置文件机制，表达DAPT 脚本的符合性要求。支持 DAPT 处理器配置文件的验证处理器可以使用它来验证DAPT 文档。

不要求在DAPT 文档中包含 DAPT 内容配置文件。

<?xml version="1.0" encoding="utf-8"?>
<!-- This file is the TTML Profile Document representing
  the DAPT 1.0 Content Profile defined 
  by DAPT at https://www.w3.org/TR/dapt/ -->
<profile xmlns="http://www.w3.org/ns/ttml#parameter"
  designator="http://www.w3.org/ns/ttml/profile/dapt1.0/content"
  combine="mostRestrictive"
  type="content">
  <features xml:base="http://www.w3.org/ns/ttml/feature/">
    <!-- required (mandatory) feature support -->
    <feature value="required">#structure</feature>
    <feature value="required">#timeBase-media</feature>
    <!-- optional (voluntary) feature support -->
    <feature value="optional">#animate-fill</feature>
    <feature value="optional">#animate-minimal</feature>
    <feature value="optional">#audio</feature>
    <feature value="optional">#audio-description</feature>
    <feature value="optional">#audio-speech</feature>
    <feature value="optional">#bidi</feature>
    <feature value="optional" extends="#bidi">#bidi-version-2</feature>
    <feature value="optional">#chunk</feature>
    <feature value="optional">#content</feature>
    <feature value="optional">#contentProfiles</feature>
    <feature value="optional">#contentProfiles-combined</feature>
    <feature value="optional">#core</feature>
    <feature value="optional">#data</feature>
    <feature value="optional">#direction</feature>
    <feature value="optional">#embedded-audio</feature>
    <feature value="optional">#embedded-data</feature>
    <feature value="optional">#frameRate</feature>
    <feature value="optional">#frameRateMultiplier</feature>
    <feature value="optional">#gain</feature>
    <feature value="optional">#metadata</feature>
    <feature value="optional">#metadata-item</feature>
    <feature value="optional">#nested-div</feature>
    <feature value="optional" extends="#metadata">#metadata-version-2</feature>
    <feature value="optional">#pan</feature>
    <feature value="optional">#permitFeatureNarrowing</feature>
    <feature value="optional">#permitFeatureWidening</feature>
    <feature value="optional">#pitch</feature>
    <feature value="optional">#presentation-audio</feature>
    <feature value="optional">#processorProfiles</feature>
    <feature value="optional">#processorProfiles-combined</feature>
    <feature value="optional">#resources</feature>
    <feature value="optional" extends="#animation">#set</feature>
    <feature value="optional">#set-fill</feature>
    <feature value="optional">#set-multiple-styles</feature>
    <feature value="optional">#source</feature>
    <feature value="optional">#speak</feature>
    <feature value="optional">#speech</feature>
    <feature value="optional">#styling</feature>
    <feature value="optional">#styling-chained</feature>
    <feature value="optional">#styling-inheritance-content</feature>
    <feature value="optional">#styling-inline</feature>
    <feature value="optional">#styling-referential</feature>
    <feature value="optional">#tickRate</feature>
    <feature value="optional">#time-clock</feature>
    <feature value="optional">#time-offset</feature>
    <feature value="optional">#time-offset-with-frames</feature>
    <feature value="optional">#time-offset-with-ticks</feature>
    <feature value="optional">#timing</feature>
    <feature value="optional">#transformation</feature>
    <feature value="optional">#unicodeBidi</feature>
    <feature value="optional">#unicodeBidi-isolate</feature>
    <feature value="optional" extends="#unicodeBidi">#unicodeBidi-version-2</feature>
    <feature value="optional">#xlink</feature>
    <!-- prohibited feature support -->
    <feature value="prohibited">#animation-out-of-line</feature>
    <feature value="prohibited">#clockMode</feature>
    <feature value="prohibited">#clockMode-gps</feature>
    <feature value="prohibited">#clockMode-local</feature>
    <feature value="prohibited">#clockMode-utc</feature>
    <feature value="prohibited">#dropMode</feature>
    <feature value="prohibited">#dropMode-dropNTSC</feature>
    <feature value="prohibited">#dropMode-dropPAL</feature>
    <feature value="prohibited">#dropMode-nonDrop</feature>
    <feature value="prohibited">#markerMode</feature>
    <feature value="prohibited">#markerMode-continuous</feature>
    <feature value="prohibited">#markerMode-discontinuous</feature>
    <feature value="prohibited">#subFrameRate</feature>
    <feature value="prohibited">#time-clock-with-frames</feature>
    <feature value="prohibited">#time-wall-clock</feature>
    <feature value="prohibited">#timeBase-clock</feature>
    <feature value="prohibited">#timeBase-smpte</feature>
    <feature value="prohibited">#timeContainer</feature>
  </features>
  <extensions xml:base="http://www.w3.org/ns/ttml/profile/dapt/extension/">
    <!-- required (mandatory) extension support -->
    <extension value="required">#contentProfiles-root</extension>
    <extension value="required">#represents</extension>
    <extension value="required">#scriptRepresents-root</extension>
    <extension value="required">#scriptType-root</extension>
    <extension value="required">#serialization</extension>
    <extension value="required">#xmlLang-root</extension>
    <!-- optional (voluntary) extension support -->
    <extension value="optional">#agent</extension>
    <extension value="optional">#daptOriginTimecode</extension>
    <extension value="optional">#descType</extension>
    <extension value="optional">#onScreen</extension>
    <extension value="optional">#scriptEventMapping</extension>
    <extension value="optional">#textLanguageSource</extension>
    <!-- prohibited extension support -->
    <extension value="prohibited">#profile-root</extension>
    <extension value="prohibited">#source-data</extension>
    <extension value="prohibited">#xmlLang-audio-nonMatching</extension>
</extensions>
</profile>

DAPT 处理器配置文件使用 [TTML2] 的配置文件机制，表达DAPT 脚本的处理要求。支持 DAPT 处理器配置文件的必需特性和扩展的处理器，最低限度可以处理DAPT 文档内所有允许的特性。

不要求在DAPT 文档中包含 DAPT 处理器配置文件。

<?xml version="1.0" encoding="utf-8"?>
<!-- This file is the TTML Profile Document representing
  the DAPT 1.0 Processor Profile defined 
  by DAPT at https://www.w3.org/TR/dapt/ -->
<profile xmlns="http://www.w3.org/ns/ttml#parameter"
  designator="http://www.w3.org/ns/ttml/profile/dapt1.0/processor"
  combine="mostRestrictive"
  type="processor">
  <features xml:base="http://www.w3.org/ns/ttml/feature/">
    <!-- required (mandatory) feature support -->
    <feature value="required">#animate-fill</feature>
    <feature value="required">#animate-minimal</feature>
    <feature value="required">#audio</feature>
    <feature value="required">#audio-description</feature>
    <feature value="required">#audio-speech</feature>
    <feature value="required">#bidi</feature>
    <feature value="required" extends="#bidi">#bidi-version-2</feature>
    <feature value="required">#chunk</feature>
    <feature value="required">#content</feature>
    <feature value="required">#contentProfiles</feature>
    <feature value="required">#core</feature>
    <feature value="required">#data</feature>
    <feature value="required">#direction</feature>
    <feature value="required">#embedded-audio</feature>
    <feature value="required">#embedded-data</feature>
    <feature value="required">#frameRate</feature>
    <feature value="required">#frameRateMultiplier</feature>
    <feature value="required">#gain</feature>
    <feature value="required">#metadata</feature>
    <feature value="required">#metadata-item</feature>
    <feature value="required">#nested-div</feature>
    <feature value="required" extends="#metadata">#metadata-version-2</feature>
    <feature value="required">#pan</feature>
    <feature value="required">#pitch</feature>
    <feature value="required">#presentation-audio</feature>
    <feature value="required">#resources</feature>
    <feature value="required" extends="#animation">#set</feature>
    <feature value="required">#set-fill</feature>
    <feature value="required">#set-multiple-styles</feature>
    <feature value="required">#source</feature>
    <feature value="required">#speak</feature>
    <feature value="required">#speech</feature>
    <feature value="required">#structure</feature>
    <feature value="required">#styling</feature>
    <feature value="required">#styling-chained</feature>
    <feature value="required">#styling-inheritance-content</feature>
    <feature value="required">#styling-inline</feature>
    <feature value="required">#styling-referential</feature>
    <feature value="required">#tickRate</feature>
    <feature value="required">#time-clock</feature>
    <feature value="required">#time-offset</feature>
    <feature value="required">#time-offset-with-frames</feature>
    <feature value="required">#time-offset-with-ticks</feature>
    <feature value="required">#timeBase-media</feature>
    <feature value="required">#timing</feature>
    <feature value="required">#transformation</feature>
    <feature value="required">#unicodeBidi</feature>
    <feature value="required">#unicodeBidi-isolate</feature>
    <feature value="required" extends="#unicodeBidi">#unicodeBidi-version-2</feature>
    <feature value="required">#xlink</feature>
    <!-- optional (voluntary) feature support -->
    <feature value="optional">#animation-out-of-line</feature>
    <feature value="optional">#clockMode</feature>
    <feature value="optional">#clockMode-gps</feature>
    <feature value="optional">#clockMode-local</feature>
    <feature value="optional">#clockMode-utc</feature>
    <feature value="optional">#contentProfiles-combined</feature>
    <feature value="optional">#dropMode</feature>
    <feature value="optional">#dropMode-dropNTSC</feature>
    <feature value="optional">#dropMode-dropPAL</feature>
    <feature value="optional">#dropMode-nonDrop</feature>
    <feature value="optional">#markerMode</feature>
    <feature value="optional">#markerMode-continuous</feature>
    <feature value="optional">#markerMode-discontinuous</feature>
    <feature value="optional">#permitFeatureNarrowing</feature>
    <feature value="optional">#permitFeatureWidening</feature>
    <feature value="optional">#processorProfiles</feature>
    <feature value="optional">#processorProfiles-combined</feature>
    <feature value="optional">#subFrameRate</feature>
    <feature value="optional">#time-clock-with-frames</feature>
    <feature value="optional">#time-wall-clock</feature>
    <feature value="optional">#timeBase-clock</feature>
    <feature value="optional">#timeBase-smpte</feature>
    <feature value="optional">#timeContainer</feature>
  </features>
  <extensions xml:base="http://www.w3.org/ns/ttml/profile/dapt/extension/">
    <!-- required (mandatory) extension support -->
    <extension value="required">#agent</extension>
    <extension value="required">#contentProfiles-root</extension>
    <extension value="required">#daptOriginTimecode</extension>
    <extension value="required">#descType</extension>
    <extension value="required">#onScreen</extension>
    <extension value="required">#represents</extension>
    <extension value="required">#scriptRepresents-root</extension>
    <extension value="required">#scriptType-root</extension>
    <extension value="required">#serialization</extension>
    <extension value="required">#textLanguageSource</extension>
    <extension value="required">#xmlLang-root</extension>
    <!-- optional (voluntary) extension support -->
    <extension value="optional">#profile-root</extension>
    <extension value="optional">#scriptEventMapping</extension>
    <extension value="optional">#source-data</extension>
    <extension value="optional">#xmlLang-audio-nonMatching</extension>
</extensions>
</profile>

TTML2 的配音和音频描述配置文件

摘要

本文档状态

1. 范围

2. 引言

2.1 转录文本和脚本

2.1.1 配音脚本

2.1.2 音频描述脚本

2.1.3 其他用途

2.2 示例文档

2.2.1 基本文档结构

2.2.2 音频描述示例

2.2.3 配音示例

3. 文档约定

4. DAPT 数据模型和对应的 TTML 语法

4.1 DAPT 脚本

4.1.1 脚本表示对象

4.1.2 默认语言

4.1.3 脚本类型

4.1.4 脚本事件

4.1.5 角色

4.1.6 共享属性 和值集

4.1.6.1 定时属性

4.1.6.2 <content-descriptor> 值

4.1.6.3 唯一标识符

4.2 角色

4.3 脚本事件

4.4 文本

4.5 文本语言来源

4.6 屏幕上

4.7 表示对象

4.8 脚本事件描述

4.9 音频

4.9.1 音频录制

4.9.2 合成音频

4.10 混音指令

5. 约束

5.1 文档编码

5.2 无法识别或外来元素和属性的处理

5.2.1 无法识别的词汇

5.2.2 外来词汇的特殊考虑

5.2.3 专有元数据和外来词汇

5.2.3.1 定义和使用非元数据的外来词汇

5.3 命名空间

5.4 相关媒体对象

5.5 同步

5.6 配置文件信号

5.6.1 配置文件指示符

5.6.2 ttp:contentProfiles

5.6.3 ttp:profile

5.6.4 ttp:processorProfiles

5.6.5 其他 TTML2 配置文件 词汇

5.7 定时约束

5.7.1 ttp:timeBase

5.7.2 timeContainer

5.7.3 ttp:frameRate

5.7.4 ttp:tickRate

5.7.5 时间表达式

5.8 布局和样式

5.9 双向文本

6. 从 TTML 到 DAPT 数据模型的映射

6.1 早期 识别不符合的文档

6.2 不 支持内容配置文件排除的特性

6.3 处理 <div> 和 <p> 元素

6.4 使用计算属性 值

6.5 转换和验证处理器的考虑事项

6.5.1 保留 无法识别的词汇

6.5.2 验证警告 和错误

7. 符合性

7.1 DAPT 文档的符合性

7.2 DAPT 处理器的符合性

A. 索引

A.1 本规范定义的术语

A.2 通过引用定义的术语

B. 隐私考虑事项

B.1 个人信息

B.2 音频格式偏好

C. 安全考虑事项

D. 与时间码相关的元数据

D.1 DAPT 原点时间码

4.1.6 共享属性和值集

4.1.6.2 `<content-descriptor>` 值

5.6.2 `ttp:contentProfiles`

5.6.3 `ttp:profile`

5.6.4 `ttp:processorProfiles`

5.6.5 其他 TTML2 配置文件词汇

5.7.1 `ttp:timeBase`

5.7.2 `timeContainer`

5.7.3 `ttp:frameRate`

5.7.4 `ttp:tickRate`

6.1 早期识别不符合的文档

6.2 不支持内容配置文件排除的特性

6.3 处理 `<div>` 和 `<p>` 元素

6.4 使用计算属性值

6.5.1 保留无法识别的词汇

6.5.2 验证警告和错误

H.1.2.2 变更请求评估流程

H.2.1 `daptm:descType` 注册表表定义

H.2.2 `<content-descriptor>` 注册表表定义