MediaStreamTrack 内容提示

摘要

本规范扩展 MediaStreamTrack 以提供一个可选提示，用于说明在没有足够资源实现完美再现时，用户偏好媒体应如何被处理。

此可选提示允许 MediaStreamTrack 接收端，例如 RTCPeerConnection （定义于 [webrtc]）或 MediaRecorder （定义于 [mediastream-recording]），在处理某条轨道的音频或视频内容时，选择适合用户偏好的处理参数。

用于处理语音和音乐的算法差异很大。为语音类型内容开发的回声消除算法可能无法很好地处理音乐，而噪声抑制算法可能会移除小军鼓声或其他“噪声型”内容。虽然这会让语音更易懂，但对音乐信号来说并不太合适。

对于视频，网络摄像头内容通常需要去噪，并且即使被缩小或使用较高量化级别时也通常仍可辨识。对包含大量文本内容的演示文稿或网页的屏幕录制内容而言，如果量化级别过高，或内容被缩小或因其他原因变得模糊，则完全无法辨识。

在没有媒体内容自动检测的情况下，MediaStreamTrack 使用方只能进行有根据的猜测。该猜测可能基于这样的假设：屏幕录制内容，例如 chrome.desktopCapture，包含文本内容，因此必须使用较低量化级别，并大量丢弃帧以满足比特率要求。另一种假设是，常规 USB 视频设备提供的是网络摄像头视频，因此较高量化级别和缩小是可接受的。

虽然这种有根据的猜测通常是合适的，但当其不正确时，会导致次优设置。这表现为：在屏幕录制高运动内容（例如电影）或流式传输视频游戏并将其当作文本处理时，会出现大量丢帧。另一方面，将高度细节化的内容当作常规网络摄像头视频处理，则会在为满足比特率要求而进行量化或缩小时，导致内容过于模糊而无法阅读。当 HDMI 视频采集卡被视为 USB 网络摄像头，但实际上正在屏幕录制网页文本时，也可能发生这种不匹配。

缩小时丢失文本可辨性。 — 图 1 虽然在低比特率场景中可以通过缩小来保留运动，但此示例说明了将其错误地应用于细节内容时会丢失文本可辨性。示例显示了 100%、50% 和 25% 的三次缩小，分别对应于从 HD 缩小到 VGA 和 QVGA 分辨率。

在某些情况下，Web 应用可以作出更有根据的猜测，或获取用户输入，以告知使用方正在编码的是哪类内容。一个流式传输视频游戏内容的 Web 应用，能够以牺牲单个帧细节为代价，保留桌面采集中的运动。一个音乐工作室应用，能够防止噪声抑制从音乐轨道中移除小军鼓声。

这些设置并不打算完全取代编码器级别的设置，而是以一种更简单的提示来补充它们；这种提示不需要对视频编码器、音频处理步骤或更广泛的调优有广泛了解。

本规范的单独一节描述了处理 MediaStreamTrack 的特定组件的预期行为。

WebIDLpartial interface MediaStreamTrack {
  attribute DOMString contentHint;
};

本规范扩展了 MediaStreamTrack 并使用其 kind 属性，如 [GETUSERMEDIA] 中所定义。

每个 MediaStreamTrack 都有一个关联的应用设置的内容提示，其初始值为 ""，表示未设置。此应用设置的内容提示对应于 MediaStreamTrack 的 contentHint 属性， Web 应用可使用该属性提供一个提示，说明轨道中包含哪种类型的内容，以指导 MediaStreamTrack 使用方应如何处理它。

应用设置的内容提示的有效值取决于所包含 MediaStreamTrack 的 kind。在将 contentHint 设置为 value 时，

如果此 MediaStreamTrack 的 kind 属性为 "audio"，且 value 不是 ""、 "speech"、"speech-recognition" 或 "music" 之一，则中止这些步骤。
如果此 MediaStreamTrack 的 kind 属性为 "video"，且 value 不是 ""、 "motion"、"detail" 或 "text" 之一，则中止这些步骤。
将此 MediaStreamTrack 的应用设置的内容提示设置为 value。
实现应根据其应用设置的内容提示的新值，调整其对如何处理此 MediaStreamTrack 内容的决策。此适配应在合理情况下尽快发生，例如在接下来几个已采集的视频帧或音频缓冲区内。

在获取 contentHint 时，

返回此 MediaStreamTrack 的应用设置的内容提示。

注意，应用设置的内容提示的初始值为 ""，对应于未提供任何提示。它不会默认采用实现对所包含内容类型作出的最佳猜测。

音频内容提示仅在 MediaStreamTrack 包含音频轨道时适用。

音频内容提示
`""`	未提供任何提示，实现应对如何处理所包含的音频数据作出信息最充分的猜测。这可以根据轨道的打开方式推断，也可以通过进行内容分析来推断。
`"speech"`	应将该轨道视为包含语音数据。使用此信号时，应用噪声抑制或提升输入信号的可懂度可能是合适的。
`"speech-recognition"`	应将该轨道视为包含用于机器语音识别的数据。使用此信号时，提升输入信号用于转录的可懂度，并关闭用于人类收听的音频处理组件，可能是合适的。
`"music"`	应将该轨道视为包含音乐数据。通常这可能意味着调优或关闭用于处理语音数据的音频处理组件，以防止音频被失真。

视频内容提示仅在 MediaStreamTrack 包含视频轨道时适用。

视频内容提示
`""`	未提供任何提示，实现应对所包含的视频内容应如何处理作出信息最充分的猜测。例如，这可以根据轨道的打开方式推断，也可以通过进行内容分析来推断。
`"motion"`	应将该轨道视为包含运动很重要的视频。这通常是网络摄像头视频、电影或视频游戏。为了尽可能保留运动，同时仍保持目标比特率，量化伪影和缩小是可接受的。在低比特率期间必须作出折中时，会把更多精力用于保留帧率，而不是边缘质量和细节。
`"detail"`	应将该轨道视为视频细节格外重要。这通常适用于包含文本内容的演示文稿或网页、绘画或线条艺术。此设置通常会优化最终单个帧中的细节，而不是平滑播放。应避免会使小文本或线条艺术无法辨识的量化或缩小伪影。
`"text"`	应将该轨道视为视频细节格外重要，且明显锐利边缘和颜色一致的区域可能经常出现。这通常适用于包含文本内容的演示文稿或网页。此设置通常会优化最终单个帧中的细节，而不是平滑播放，并且可以利用针对文本渲染优化的编码器工具。应避免会使小文本或线条艺术无法辨识的量化或缩小伪影。注意，不同文字系统对于渲染需要多细致才能实现可读性有不同要求；此约束并不生成任何保证，保证所渲染文本对任何特定文字系统都可读。

在为 MediaStreamTrack 设置 contentHint 值时， UA MUST 按如下方式应用默认值：

对于值为 "music" 的音频轨道，以及约束 echoCancellation、autoGainControl 和 noiseSuppression，应用默认值 "false"。
对于值为 "speech" 的音频轨道，以及约束 echoCancellation 和 autoGainControl，应用默认值 "true"。
对于值为 "speech-recognition" 的音频轨道，以及约束 echoCancellation、autoGainControl 和 noiseSuppression，应用默认值 "false"。

要对约束 c 应用默认值且值为 t，执行以下步骤：

如果值 t 满足所应用的约束，则将对应于 c 的设置设为 t。
否则，为对应于 c 的设置选择一个满足所应用约束的值。
记住值 t。
并行地，用新设置更新轨道。

每当随后运行“apply constraints”算法时，如果所记住的值 t 此时是允许值， UA MUST 选择该值。

在设置 contentHint 的值为 "" 时，会移除 t 的所有已记住值。

在编码视频时，编码器会配置多个参数；在本文中，我们会特别指出分辨率、帧率和 “编码参数”；后者是实现定义的，但可以同时影响结果视频的质量、编码所需的资源，以及视频消耗的比特率。这里，我们将其描述为较高值会带来更好质量，但也带来更高比特率。通常，UA 会尝试最大化所有这些参数，以提供最佳用户体验。

当某些约束（带宽、CPU）阻止使用最佳参数进行编码时，编码器必须选择如何修改编码参数。在不受限制的场景中，较高分辨率和帧率可带来更高质量，但如果带宽受限，降低帧率和分辨率在许多情况下可以允许以某种方式调整编码参数，使得在给定目标比特率下整体视频质量得到提升。

本节定义用于描述该选择的术语，以及一个可在 API 中用于指示该选择的 enum。

WebIDLenum RTCDegradationPreference {
  "maintain-framerate",
  "maintain-resolution",
  "balanced",
  "maintain-framerate-and-resolution"
};

`RTCDegradationPreference` 枚举描述
枚举值	描述
`maintain-framerate`	降低分辨率以维持帧率。用户代理 SHOULD 偏好降低分辨率，以便在网络约束内优化视频质量和性能。
`maintain-resolution`	降低帧率以维持分辨率。用户代理 SHOULD 偏好降低帧率，以便在网络约束内优化视频质量和性能。
`balanced`	以帧率和分辨率的平衡方式降级。用户代理 SHOULD 偏好以帧率和分辨率的平衡方式进行降低，以便在网络约束内优化视频质量和性能。
`maintain-framerate-and-resolution`	不考虑视频质量而维持帧率和分辨率。用户代理 SHOULD NOT 为了质量和性能原因而偏好降低帧率或分辨率，但如有必要，为避免过度使用网络和编码器资源，MAY 在编码前丢弃帧。

为 RTCRtpSendParameters 定义了一个属性，允许为 RTCRtpSender 显式指示此选择：

WebIDLpartial dictionary RTCRtpSendParameters {
        RTCDegradationPreference degradationPreference;
       };

degradationPreference ，类型为 RTCDegradationPreference。: 当带宽受限且 RTCRtpSender 需要在降低分辨率或降低帧率之间作出选择时， degradationPreference 指示偏好哪一种。

传输某个 MediaStreamTrack 的 RTCRtpSender，如果该 MediaStreamTrack 已设置 contentHint 属性，则 MUST 使用以下降级偏好，除非发送方参数中已设置显式的 degradationPreference 属性：

对于属性值为 "motion" 的视频轨道，使用 "maintain-framerate"。
对于属性值为 "detail" 的视频轨道，使用 "maintain-resolution"。
对于属性值为 "text" 的视频轨道，使用 "maintain-resolution"。此外，如果编码编解码器是 AV1，则激活用于 "text" 模式的编码工具。

对于属性值为 "text" 的视频轨道，如果编码编解码器是 AV1，则激活用于 "text" 模式的编码工具。

MediaStreamTrack 内容提示

摘要

本文档状态

1. 引言

2. 合规性

3. 对 MediaStreamTrack 的扩展

3.1 音频内容提示

3.2 视频内容提示

4. 基于 content-hint 的其他组件行为

4.1 MediaStreamTrack 的行为

4.2 编码时的降级偏好

4.2.1 字典 `RTCRtpSendParameters` 的新成员

4.3 RTCPeerConnection 的行为

4.4 MediaStreamRecorder 的行为

5. 安全与隐私考量

A. 参考文献

A.1 规范性参考文献

A.2 资料性参考文献

MediaStreamTrack 内容提示

摘要

本文档状态

1. 引言

2. 合规性

3. 对 MediaStreamTrack 的扩展

3.1 音频内容提示

3.2 视频内容提示

4. 基于 content-hint 的 其他组件行为

4.1 MediaStreamTrack 的行为

4.2 编码时的降级偏好

4.2.1 字典 RTCRtpSendParameters 的新成员

4.3 RTCPeerConnection 的行为

4.4 MediaStreamRecorder 的行为

5. 安全与隐私 考量

A. 参考文献

A.1 规范性参考文献

A.2 资料性参考文献

4. 基于 content-hint 的其他组件行为

4.2.1 字典 `RTCRtpSendParameters` 的新成员

5. 安全与隐私考量