区域捕获

除了标记为非规范性的章节之外，本规范中的所有编写指南、图表、示例和注释都是非规范性的。本规范中的其他所有内容都是规范性的。

本文档中的关键词 MUST 和 MUST NOT 应按 BCP 14 [RFC2119] [RFC8174] 中的描述来解释，但仅当它们如这里所示全部以大写形式出现时才如此。

本文档使用 [SCREEN-CAPTURE] 中下列概念的定义： display-surface 和 browser display-surface。

复杂应用通常由位于不同 iframe 中的多个 document 组成，它们都显示在同一个浏览上下文中。考虑这样一个应用。假定其中一个 document，即 CAPTURING-DOC，使用 getDisplayMedia() 或 getViewportMedia 来捕获整个当前浏览上下文。如果此 document 随后希望将视频轨道裁剪到协作文档 CAPTURED-DOC 的某个子区段 CAPTURE-TARGET 的坐标，CAPTURING-DOC 如何才能高效且可靠地做到这一点？尤其要记住，由滚动、缩放或窗口大小调整导致的布局变化会带来额外挑战。

考虑一个由两个主要部分组成的组合应用，它们托管在同一标签页内的不同 iframe 中：一个视频会议应用和一个生产力套件应用。假定该视频会议应用使用现有/即将推出的 API，例如 getDisplayMedia() 和/或 getViewportMedia，并捕获整个标签页。现在它需要裁剪掉生产力套件中某个特定区段之外的所有内容。在将生成的已裁剪视频远程传输之前，它需要裁剪掉自己的视频会议内容、任何演讲者备注以及生产力套件中的其他私有和/或无关内容。

此外，考虑到这两个协作应用很可能彼此跨源。它们可以发送消息，但所有通信都是异步的，并且如果信息在它们之间尽量少传输，会更容易且性能更好。这就排除了涉及发布整个帧的解决方案，也排除了对布局变化反应过慢的解决方案（例如滚动、缩放和窗口大小变化）。

值得注意的是，大多数应用在此类场景中可能更倾向于使用 getViewportMedia。然而，在撰写本文时， getViewportMedia 仍未被规范化，也未被实现。它会有一些非平凡的要求，其采用需要一些时间和工作。因此，在未来一段时间内，许多应用可能会结合使用 getDisplayMedia() 和区域捕获。

区域捕获机制由两部分组成：

CropTarget 生成：一种将 Element 标记为裁剪机制的潜在目标的机制。
裁剪机制：一种指示用户代理开始将视频轨道裁剪到之前已标记的 Element 的轮廓，或停止此类裁剪并将轨道恢复到其未裁剪状态的机制。

我们为视频轨道定义两个裁剪状态：已裁剪和未裁剪。轨道初始为未裁剪，并且在对其成功调用 cropTo 时，可能转变为已裁剪。

本文档中提出的裁剪机制（cropTo）依赖于裁剪会话目标，而不是直接的节点引用。这有双重目的。

它允许一个 document 按另一个 document 中指定的坐标进行裁剪。
将 Element 标记为潜在裁剪目标，使用户代理能够避免对所有其他元素执行不必要的工作，例如计算边界框以及跨进程发送此类坐标。

CropTarget 是一个有意为空的不透明标识符。其用途是作为输入传递给 cropTo。

WebIDL[Exposed=(Window,Worker), Serializable]
interface CropTarget {
  [Exposed=Window, SecureContext] static Promise<CropTarget> fromElement(Element element);
};

注

关于 fromElement 是否应暴露到安全上下文之外，目前尚无共识。

fromElement()

用受支持类型的 Element 调用 fromElement，会将该 Element 与一个 CropTarget 关联。此 CropTarget 可用作 cropTo 的输入。我们将有效 CropTarget 定义为在仍然活动的 document 中调用 CropTarget.fromElement() 所返回的对象。

当用给定的 element 调用 fromElement 时，用户代理以 element 作为输入创建 CropTarget。用户代理 MUST 返回一个 Promise p。用户代理 MUST 只在它已完成与新 CropTarget 相关状态的所有必要内部传播之后，才 resolve p；在此时，用户代理 MUST 准备好接收新的 CropTarget 作为 cropTo 的有效参数。

当克隆此前已对其调用过 fromElement 的 Element 时，克隆不会与任何 CropTarget 关联。如果稍后对该克隆调用 fromElement，则会为其分配一个新的 CropTarget。

注

关于生成 CropTarget 是否应通过调用类似 CropTarget.fromElement() 的异步方法来完成，还是通过一个接受 Element 作为输入的 CropTarget 构造函数来完成，目前尚无共识。这在议题 #17 中有进一步讨论。

要以 element 作为输入创建 CropTarget，运行以下步骤：

令 cropTarget 为一个新的 CropTarget 类型对象。
令 weakRef 为对 element 的弱引用。

创建 cropTarget.[[Element]]，并初始化为 weakRef。

注

cropTarget 保持对其所表示元素的弱引用。换句话说， cropTarget 不会阻止其元素被垃圾回收。

CropTarget 对象是可序列化的。给定 value、serialized 和布尔值 forStorage，其序列化步骤为：

如果 forStorage 为 true，则抛出一个新的 DOMException 对象，其 name 属性的值为 "DataCloneError"。
将 serialized.[[CropTargetElement]] 设置为 value.[[Element]]。

给定 serialized 和 value，其反序列化步骤为：

将 value.[[Element]] 设置为 serialized.[[CropTargetElement]]。

回想一下，按照 [SCREEN-CAPTURE]，当调用 getDisplayMedia() 时，它返回一个 Promise<MediaStream>，并且此 MediaStream 包含恰好一个视频轨道，其类型为 MediaStreamTrack。

我们规定，如果用户选择捕获一个 browser display-surface，用户代理 MUST 将视频轨道实例化为 MediaStreamTrack，或 MediaStreamTrack 的某个子类，并且 cropTo MUST 暴露在此轨道上。为简单起见，本文档假定用户代理使用一个名为 BrowserCaptureMediaStreamTrack 的子类。

该轨道 MUST 初始为未裁剪。

WebIDL[Exposed = Window]
interface BrowserCaptureMediaStreamTrack : MediaStreamTrack {
  Promise<undefined> cropTo(CropTarget? cropTarget);
  BrowserCaptureMediaStreamTrack clone();
};

cropTo()

对此方法的调用会指示用户代理开始/停止将视频轨道裁剪到 cropTarget.[[Element]] 的边界客户端矩形。由于该轨道被限制在 display-surface 的可见视口内，所捕获区域将是可见视口与元素边界客户端矩形的交集。每当调用 cropTo 时，用户代理 MUST 执行以下算法：

如果 cropTarget 既不是有效 CropTarget，也不是 null，则用户代理 MUST 返回一个以 UnknownError 拒绝的 Promise。
令 p 为一个新的 Promise。
并行运行以下步骤：
1. 如果 cropTarget 既不是 undefined，也不是有效 CropTarget，则以 NotAllowedError 拒绝 p，并中止这些步骤。
2. 如果 cropTarget 是 undefined 或有效 CropTarget，则用户代理 MUST 根据 cropTarget 更新 this 视频轨道的裁剪状态：
  - 如果 cropTarget 被设置为 undefined，则用户代理 MUST 停止裁剪。This 视频轨道恢复为未裁剪状态。
  - 如果 cropTarget 是有效 CropTarget，则用户代理 MUST 开始将 this 视频轨道裁剪到此 CropTarget 所引用元素的轮廓。这意味着，对于轨道上产生的每个新帧，用户代理都会计算属于该元素的像素的边界框，并将该帧裁剪到此边界框的坐标。
3. 将此方法调用之前的轨道状态称为 PRE-STATE，并将此方法调用之后的状态称为 POST-STATE。用户代理 MUST 在能够保证不会再向应用交付任何根据 PRE-STATE 裁剪（或未裁剪）的帧，并且随后交付给应用的任何其他帧都将因此按照 POST-STATE 或更后的状态裁剪（或未裁剪）时， resolve p。
  
  注
  
  cropTo promise 的 resolve 时机以及视频帧实际裁剪的时机，可通过 JavaScript 中的 MediaStreamTrack 转换观察到。预期第一个新裁剪的视频帧会在 cropTo promise 被 resolve 之后立即入队到 MediaStreamTrack ReadableStream 上。
返回 p。

clone()

当 BrowserCaptureMediaStreamTrack 被克隆时，用户代理 MUST 产生一个初始为未裁剪的轨道，而不管原始轨道的裁剪状态如何。

我们将通过调用 fromElement 为其生成了 CropTarget 的 Element 定义为潜在裁剪目标。

我们将由一次成功的 cropTo 调用所定位的潜在裁剪目标定义为裁剪会话目标。

考虑在已裁剪视频轨道上产生的一帧。用户代理计算 (i) 顶级浏览上下文的视口与 (ii) 属于裁剪会话目标的所有像素的边界框之间的交集。此交集被定义为该裁剪会话目标在该帧中的坐标。

考虑一个被裁剪到给定裁剪会话目标 TARGET 的视频轨道 VT。我们定义 VT 的裁剪会话在面对 TARGET 所经历的变化时的行为。

我们将裁剪会话目标附加到 DOM，但由在顶级浏览上下文的视口内绘制的零个像素组成的情况，定义为空裁剪会话目标。

注

可能发生这种情况的一些示例包括：

裁剪会话目标由零个像素组成。
浏览上下文的视口已被滚动，且裁剪会话目标现在位于视口之外。

用户代理 MUST NOT 在具有空裁剪会话目标的轨道上产生新帧。对于这样的轨道，如果该轨道变为未裁剪，或者如果它的裁剪会话目标不再为空，则用户代理 MUST 恢复帧的产生。

我们将已从 DOM 分离的裁剪会话目标定义为已断开连接的裁剪会话目标。

空裁剪会话目标与已断开连接的裁剪会话目标之间的区别在于，已断开连接的目标可能变得不可达，在这种情况下它不会产生任何新帧。尽管如此，用户代理 MUST 以与处理空裁剪会话目标相同的方式处理已断开连接的裁剪会话目标。应用可在该轨道上用 undefined 或一个新的 CropTarget 调用 cropTo，从而允许该轨道上帧的产生得以恢复。

捕获目标中的代码：

const mainContentArea = navigator.getElementById('mainContentArea');
const cropTarget = await CropTarget.fromElement(mainContentArea);
sendCropTarget(cropTarget);

function sendCropTarget(cropTarget) {
  // 可以使用 postMessage() 或任何其他方式，
  // 将该裁剪目标发送给此标签页中的另一个 document。
  // 也可能没有其他 document，而只是由本地使用。
}

捕获文档中的代码：

async function startCroppedCapture(cropTarget) {
  const stream = await navigator.mediaDevices.getDisplayMedia();
  const [track] = stream.getVideoTracks();
  if (!!track.cropTo) {
    handleError(stream);
    return;
  }
  await track.cropTo(cropTarget);
  transmitVideoRemotely(track);
}

[dom]: DOM 标准。Anne van Kesteren。WHATWG。现行标准。URL：https://dom.spec.whatwg.org/
[HTML]: HTML 标准。Anne van Kesteren； Domenic Denicola；Ian Hickson；Philip Jägenstedt；Simon Pieters。WHATWG。现行标准。URL：https://html.spec.whatwg.org/multipage/
[mediacapture-streams]: 媒体捕获和流。 Cullen Jennings；Bernard Aboba；Jan-Ivar Bruaroey；Henrik Boström；youenn fablet。W3C。2023 年 6 月 19 日。 W3C 候选推荐标准。URL：https://www.w3.org/TR/mediacapture-streams/
[RFC2119]: RFC 中用于指示要求级别的关键词。S. Bradner。IETF。1997 年 3 月。当前最佳实践。URL：https://www.rfc-editor.org/rfc/rfc2119
[RFC8174]: RFC 2119 关键词中大写与小写的歧义。B. Leiba。IETF。2017 年 5 月。当前最佳实践。URL：https://www.rfc-editor.org/rfc/rfc8174
[SCREEN-CAPTURE]: 屏幕捕获。Jan-Ivar Bruaroey； Elad Alon。W3C。2023 年 7 月 6 日。W3C 工作草案。URL：https://www.w3.org/TR/screen-capture/
[WEBIDL]: Web IDL 标准。Edgar Chen；Timothy Gu。 WHATWG。现行标准。URL：https://webidl.spec.whatwg.org/

区域捕获

摘要

本文档状态

1. 一致性

2. 定义

3. 用例

3.1 通用用例

3.2 实际用例

4. 解决方案概述

5. CropTarget 生成

5.1 CropTarget 动机

5.2 `CropTarget` 定义

6. 裁剪机制

6.1 BrowserCaptureMediaStreamTrack

6.2 裁剪会话生命周期

6.2.1 裁剪会话定义

6.2.2 裁剪会话边界情况

6.2.2.1 空裁剪目标

6.2.2.2 已断开连接的裁剪会话目标

7. 示例代码

A. 参考文献

A.1 规范性参考文献

区域捕获

摘要

本文档状态

1. 一致性

2. 定义

3. 用例

3.1 通用用例

3.2 实际用例

4. 解决方案概述

5. CropTarget 生成

5.1 CropTarget 动机

5.2 CropTarget 定义

6. 裁剪机制

6.1 BrowserCaptureMediaStreamTrack

6.2 裁剪会话生命周期

6.2.1 裁剪会话定义

6.2.2 裁剪会话边界情况

6.2.2.1 空裁剪目标

6.2.2.2 已断开连接的 裁剪会话目标

7. 示例代码

A. 参考文献

A.1 规范性参考文献

5.2 `CropTarget` 定义

6.2.2.2 已断开连接的裁剪会话目标