Unity性能优化的最佳实践

unity官方平台2019-06-27

本文Unity技术经理Ian Dundore将分享改进性能和优化的技巧，这些技巧反映了Unity支持面向数据设计的架构的演变。

Unity不断发展与演变，因此旧技巧可能不再是提升引擎性能的最佳方法。本文我们将介绍从Unity 5.x到Unity 2018.x的一些功能变化，以及如何利用它们。

本文中的最佳实践来自Unite 2018中Ian Dundore的演讲《Unity性能优化的最佳实践》。

脚本性能

优化过程中最困难的任务之一是在发现热点后选择如何优化代码。涉及许多不同的因素：操作系统的平台的CPU和GPU、线程处理、内存访问等。我们很难预先知道哪种优化方法会产生最大的增益效果。

通常情况下，最好在小型测试项目进行原型优化，这样可以更快进行迭代。

但将代码分离到测试项目也会带来相应的挑战。仅仅分离部分代码会改变它所运行的环境。线程时间可能会发生变化，托管堆可能变得更小，或有更少的碎片化。因此，在设计测试项目要小心谨慎。

我们首先要考虑代码的输入内容，以及在修改输入时，代码会作出什么反应：

它会如何应对位于内存连续位置的高度一致的数据？
它会如何处理缓存不一致的数据？
你从代码运行的循环中删除了多少代码？是否更改了处理器指令缓存的使用情况？
代码运行在什么硬件上？该硬件实现分支预测的效果如何？该硬件执行无序微操作的效果如何？它是否有SIMD支持？
如果有重度使用多线程的系统，而且运行在带有多核心的系统而不是核心较少的系统，该系统会如何应对？
代码的缩放参数是什么？它是否在输入集增长时线性增长，或以大于线性的幅度增长。

我们必须考虑好要使用测试项目测量的确切内容。请考虑这个简单操作的测试：对比二个字符串。

在C#API对比二个字符串时，它们会执行特定区域设置的转换，以确保不同字符可以匹配不同文化的其它字符，该过程往往速度非常缓慢。

虽然C#中的大多数字符串API是对文化敏感的，但有一个名为String.Equals的API却不是这样的。

如果你从GitHub打开String.CS，查看String.Equals部分，你会看到下图：一个非常简单的函数会执行一系列检查，然后再把控制权交给EqualsHelper函数，该函数是私有函数，没有反射的话无法直接调用。

EqualsHelper是一个简单的方法，它会以每次4个字节的速度遍历字符串，对比输入字符串的原始字节。如果它发现不匹配情况，它会停止遍历并返回“False”。

我们也有其它检查字符串相等的方法，看起来最好的方法的是String.Equals的重载，它会接收二个参数：要对比的字符串和StringComparison枚举。

我们已经知道，String.Equals的单参数重载在把控制权交给EqualsHelper前，仅会做少量工作，那么双参数的重载会有什么作用呢？

如果观察双参数重载的代码，它会在进入大型Switch语句前执行一些额外检查。该语句会测试输入的StringComparison枚举的数值。由于我们正在寻找和单参数重载的同等情况，我们要进行序数比较，即逐字节进行比较。

在我们的示例中，控制会经过4次检查，然后再到达StringComparison.Ordinal，此时代码看起来类似单参数的String.Equals重载。这意味着，如果使用String.Equals的双参数重载，而不是单参数重载，处理器会执行一些额外的比较操作。也许这样会使速度变慢，但这是值得测试的。

如果对所有比较字符串相等情况的方法感兴趣的话，你可能不只想测试String.Equals。String.Compare重载可以执行序号比较，此外还有一个方法叫String.CompareOrdinal，它自身拥有二个不同重载。

这是一段手工编码示例可用作参考实现，它是一个简单的函数，其中的长度检查会迭代二个输入字符串中的每个字符，并进行检查。

在查看这些代码后，我们发现有四个不同的测试用例很有效：

二个相同字符串，用于测试最差用例的性能。
二个字符随机且长度相同的字符串，用于绕过长度检查。
二个字符随机且长度相同的字符串，它们的第一个字符相同，用于绕过仅在String.CompareOrdinal中发现的相关优化。
二个字符随机而长度不同的字符串，用于测试最佳用例性能。

运行完几次测试后，无论平台、脚本运行时版本、使用Mono还是IL2CPP，很明显String.Equals是最好的。

请注意：String.Equals是字符串相等运算符==使用的方法，所以别把代码中所有“a==b”的部分改为“a.Equals(b)”。

实际上，我们通过观察结果会发现，手工编码的参考实现非常糟糕。查看IL2CPP代码时，我们可以发现在代码进行交叉编译时，Unity会注入一些数组边界检查和Null检查。

这些检查都可以禁用。在Unity安装文件夹中，找到IL2CPP文件夹。在其中，可以找到IL2CPPSetOptionAttributes.cs脚本。把该脚本拖到项目中，然后就可以访问Il2CppSetOptionAttribute。

我们可以使用该属性修饰类型和方法，配置该属性，使它禁用自动Null检查和自动数组边界检查。这样可以加速代码的执行，有时可以大幅加快速度。在这个测试用例中，它会给手工编写的字符串比较方法带来20%的速度提升效果。

Transform

仅仅观察Unity编辑器的层级窗口无法了解Transform组件，但Transform组件在Unity 5和Unity 2018之间发生了很多变化，这也为性能提升过程提供了新的可能性。

回到Unity 4和Unity 5，在创建Transform数据时，对象会被分配到Unity本地内存堆的某个位置。该对象可能在本地内存堆的任何位置，我们无法保证二个连续分配的Transform数据会分配到相邻位置，也无法保证子Transform会分配到父Transform的附近位置。

这意味着，在线性迭代Transform层级时，我们不会在连续内存区域上进行线性迭代。这会造成处理器重复发生停顿，因为它要等待从L2缓存或主内存获取Transform数据。

在Unity后端中，每当Transform的位置，角度或缩放发生改变时，该Transform都会发送OnTransformChanged信息。所有子Transform必须接收此消息，从而使它们可以更新自己的数据，而且它们也可以通知其它和Transform变化有关的组件，例如：在子Transform或父Transform发生变化时，带有碰撞体的子Transform必须更新物理系统。

这个无法避免的信息会造成很多性能问题，而且我们没有内置方法来避免虚假信息。如果你要修改Transform，也会改变它的子对象，无法避免Unity在每次修改后发送OnTransformChanged信息，这样会浪费大量CPU时间。

因为这一细节，对于旧版本Unity最常见的建议之一便是对Transform的改动进行批处理。也就是说，在一帧开始的时候，一次获取Transform的位置和角度信息，在一帧的时间内使用和更新那些缓存的数值，仅在帧的结尾对位置和角度应用一次改动。这是一个很好的建议，一直适用到Unity 2017.2。

在Unity 2017.4和Unity 2018.1中，新的TransformChangeDispatch替代了OnTransformChanged。

TransformChangeDispatch最初在Unity 5.4加入。在该版本中，Transform不再是可以位于Unity本地内存堆中任何位置的独立对象。场景中的每个根Transform都会由连续数据缓冲区表示。该缓冲区叫TransformHierarchy结构，它包含位于根Transform下所有Transform的数据。

此外，TransformHierarchy还存储其中每个Transform的元数据，元数据包含表示特定Transform是否被污染的位掩码，它表示：自从上次Transform被标记为“Clean”（干净）后，它的位置，角度或缩放是否发生变化。它还包含一个特别的位掩码，用于跟踪Unity有哪些系统和特定Transform的改动有关。

通过使用该数据，Unity可以为每个内部系统创建受污染Transform的列表，例如：粒子系统可以查询TransformChangeDispatch，以获取自从上次粒子系统运行FixedUpdate后，数据发生变化的Transform列表。

为了收集改动Transform的列表，TransformChangeDispatch不应该迭代场景中的所有Transform，如果场景包含大量Transform，那会使速度变得非常慢，而且在多数情况下，仅有少量Transform会发生改变。

为了解决该问题，TransformChangeDispatch会跟踪受污染TransformHierarchy结构的列表。当Transform发生变化时，它会把自身和子对象标记为“Dirty”（受污染的），然后使用TransformChangeDispatch系统注册存储它的TransformHierarchy结构。

在Unity中的其它系统请求发生变化的Transform列表时，TransformChangeDispatch会迭代保存在每个受污染TransformHierarchy结构中的每个Transform。带有污染位组和相关位组的Transform会添加到列表中，该列表会返回到提出请求的系统。

因为这种架构，层级分离得越多，可以更好地让Unity功能以粒度等级跟踪变化。存在场景根位置的Transform越多，在变化时要检查的Transform就越少。

但还有潜在影响。在检查TransformHierarchy结构时，TransformChangeDispatch会使用Unity内部的多线程处理系统来划分它需要做的工作。每次某个系统需要从TransformChangeDispatch请求变化的列表时，这种划分操作和组合结果的操作会增加少量性能开销。

Unity的大多数内部系统会在运行前，在每帧请求一次更新内容，例如：动画系统会在它评估场景中所有活动Animators前，请求更新内容。类似的，渲染系统会在开始剔除可见对象列表前，请求对场景中所有活动渲染器的更新。

只有一个系统与众不同，那就是Physics物理系统。

在Unity 2017.1及更早版本，物理更新是同步的。当移动或旋转带有碰撞体的Transform时，会立即更新物理场景。这样会确保碰撞体的改动位置或角度可以反映到物理世界中，从而使光线投射和其它物理查询是准确的。

在Unity 2017.2中，我们把物理功能转变为使用TransformChangeDispatch会造成一些性能问题。在执行光线投射的时候，我们必须查询TransformChangeDispatch，获取发生变化的Transform列表，然后把它们应用到物理世界。这会耗费较多性能，具体取决于Transform Hierarchies的大小，以及代码调用Physics API的方法。

这种行为由新的设置Physics.autoSyncTransforms管理。从Unity 2017.2到Unity 2018.2，这项设置默认设为”True”，每次调用Raycast或Spherecast等物理查询API时，Unity会自动同步物理世界到Transform更新。

这项设置也可以进行修改，既可以在Unity编辑器的Physics Settings修改，也可以通过设置Physics.autoSyncTransforms属性在运行时修改。如果将它设为"False"，并禁用自动物理同步功能，那么物理系统仅会查询TransformChangeDispatch，以了解特定时间即在运行FixedUpdate之前的变化。

如果在调用物理查询API时遇到性能问题，我们有二个方法进行处理。

第一种方法，我们可以把Physics.autoSyncTransforms设为“False”，它会消除由TransformChangeDispatch和来自物理查询的物理场景更新造成的峰值情况。但是，如果执行此操作，在执行下一次FixedUpdate之前，对碰撞体的改动不会立即同步到物理场景。

这意味着，如果禁用AutoSyncTransforms，移动碰撞体，然后调用光线投射，使光线的方向为碰撞体新位置的话，光线投射可能不会击中碰撞体。这是因为光线投射会作用于物理场景的上一次更新版本，而那时物理场景还没有使用碰撞体的新位置来更新。

这会造成奇怪的Bug，所以应该小心测试自己的游戏，以确保禁用自动Transform同步功能不会造成问题。如果需要让物理效果通过Transform变化更新物理场景，我们可以调用Physics.SyncTransforms。由于该API速度较慢，因此最好别在每帧多次调用它。

请注意：从Unity 2018.3开始，Physics.autoSyncTransforms将默认设为“False”。

第二种方法，优化TransformChangeDispatch查询时间是重新安排查询和更新物理场景的顺序，使它对新系统更加友好。

由于Physics.autoSyncTransforms设为”True”，所有物理查询都会检查TransformChangeDispatch的变化，但如果TransformChangeDispatch没有任何受污染的TransformHierarchy结构要检查，而且物理系统没有更新的Transform要应用到物理场景，那么物理查询几乎没有任何开销。

所以，我们可以在一次批处理中执行所有物理查询，然后在一次批处理应用所有Transform变化，但是不要把Transform改动和物理查询API的调用混合。

下面的示例展示了它们的区别。

这二个示例之间的性能差异非常明显，在场景仅包含小型Transform层级时，性能差异会更加显着。

音频系统

Unity内部使用一个名为FMOD的系统来播放音频剪辑（AudioClips），FMOD运行在自有线程上，那些线程负责解码和混合音频。

但音频播放不是完全不消耗性能的，一些工作会在主线程上为场景中每个活动音频源（Audio Source）而执行。而在如较老的移动手机这样内核数量较少的平台上，FMOD的音频线程可能会和Unity的主线程及渲染线程竞争处理器内核。

在每一帧上，Unity都会循环所有活动音频源。对于每个音频源，Unity会计算音频源和活动音频监听器之间的距离，以及一些其它参数。该数据用于计算音量衰减，多普勒频移等其它影响音频源的效果。

Audio Source组件上的Mute勾选框有一个常见问题：我们可能认为勾选“Mute”会取消所有和静音音频源相关的计算，但实际并非如此。

实际上，在执行包括距离检查在内的所有和音量相关的计算后，Mute设置仅会把Volume参数限制为0。Unity也会把静音的音频源提交给FMOD，而FMOD会无视这些音频源。音频源参数的计算和音频源提交给FMOD的过程都会在Unity性能分析器中作为AudiosSystem.Update显示。

如果你注意到有大量时间分配给该Profiler标记，请检查是否有大量静音的活动音频源。如果是，请考虑禁用静音的Audio Source组件，而不是把它们设为静音，或者禁用它们的游戏对象。你也可以调用AudioSource.Stop，它会停止音频播放。

我们也可以限制Unity的Audio Settings内的声音数量。为此，我们可以调用AudioSettings.GetConfiguration，它会返回包含二个相关数值的结构：一个数值为Virtual Voices虚拟声音数量，另一个是Real Voices真实声音数量。

减少Virtual Voices数量会减小FMOD在检查实际播放的音频源时要检查的音频源数量。减小Real Voice数量会减小FMOD混合的音频源数量，混合的音频源用于产生游戏的音频。

为了修改FMOD使用的Virtual Voices或Real Voice数量，我们可以修改AudioConfiguration结构中的对应数值，该结构由AudioSettings.GetConfiguration返回，然后通过把AudioConfiguration结构作为参数传递给AudioSettings.Reset，重置音频系统为新的配置。

请注意：这样会影响音频播放，所以建议在玩家不会注意到变化的时候进行操作，例如在加载画面或启动的时候。

动画

Unity中有二个不同系统可以用于播放动画：Animator系统和Animation系统。

Animator系统指的是和Animator组件相关的系统，该组件会附加给游戏对象，以给对象添加动画，该系统也和AnimatorController资源有关，该资源会被一个或多个Animator引用。该系统过去曾被称作Mecanim，拥有非常丰富的功能。

在Animator Controller中，我们会定义状态，这些状态可以是Animation Clip或Blend Tree。状态可以组织为图层，在每一帧中，每个图层的活动状态都会进行评估，来自每个图层的结果会混合起来，应用到动画模型上。在二个状态之间过渡时，二个状态都会进行评估。

另一个系统是Animation系统，它由Animation组件表示，使用起来非常简单。每一帧中，每个活动的Animation组件都会线性迭代它附带的动画剪辑的所有曲线，对那些曲线进行评估，然后应用结果。

Animator和Animation这二个系统的区别不仅仅是功能，还有底层实现细节。

Animator系统会大量使用多线程功能，它的性能会在拥有不同内核的CPU上发生很大变化。通常情况下，随着动画剪辑中的曲线数量提高，它会以小于线性的增长速度变化。因此，在评估带有大量曲线的复杂动画时，它的执行效果很好，但Animator系统会有很高的性能开销成本。

虽然Animation系统几乎没有任何开销，它的性能会按照动画剪辑中播放的曲线数量而线性调整。

如果在二个系统播放相同动画剪辑时进行对比，我们会发现明显的区别。

所以在播放动画剪辑时，请选择最适合自己内容复杂度及游戏运行平台的系统。

另一个常见问题是过度使用Animator Controllers中的图层。

在Animator运行时，它会在每帧评估Animator Controllers中的所有图层，这包含Layer Weight设为0的图层，意味着它不会对最终动画结果产生可见影响。

每个额外图层都会在每帧给每个Animator Controller增加额外的计算，所以通常要谨慎使用图层。如果在Animator Controller中有调试、演示或影视的图层，请尝试重新制作它们，把它们合并为现有图层，或在发布游戏前把它们移除掉。

通用绑定和人形绑定

默认情况下，Unity会使用通用绑定（Generic rig）导入动画模型，但在给角色制作动画时，开发人员经常会切换为人形绑定（Humanoid rig），这是有性能开销的。

人形绑定会给Animator系统增加二个额外功能：反向动力学和动画重定向。动画重定向功能很实用，它允许我们对不同角色重用动画。

即使没有使用IK或动画重定向，人形绑定角色的Animator也会在每帧计算IK和重定向数据，这会比使用通用绑定多消耗30%～50%的CPU时间，因为通用绑定不会进行这些计算。如果没有使用人形绑定的特殊功能，你应该使用通用绑定。

Animator的对象池处理

使用对象池是在游戏期间避免发生性能峰值的关键策略，但Animator一直很难用于对象池。在Animator的游戏对象启用时，它必须重新构造中间数据的缓冲区，从而在评估Animator的Animator Controller时使用，这被称为Animator Rebind，它在Unity性能分析器中显示为Animator.Rebind。

在Unity 2018之前，唯一的应对方法是禁用Animator组件，而不是其游戏对象，这会产生副作用：如果角色上有MonoBehaviors，Mesh Colliders或Mesh Renderers，我们可能也想把它们都禁用掉，以便节省角色使用的所有CPU时间，但这样会给代码增加复杂度，而且容易被破坏。

在Unity 2018.1中，我们加入了Animator.KeepControllerStateOnEnable API，该属性默认设为“False”，表示Animator会以它原有的方式使用，即：在禁用Animator时，取消分配它的中间数据缓冲区，在启用Animator时，重新分配这些缓冲区。

如果把该属性设为”True”，Animator将在被禁用时保留它们的缓冲区，这意味着在Animator重新启用时，不会发生Animator.Rebind，从而使Animator可以使用对象池。

小结

本文中关于脚本性能、Transform、音频、动画四个部分的优化技巧为大家介绍到这里，有不少底层的知识内容，虽稍有枯燥，但一旦我们理解清楚方法，就会在实际的开发中让项目性能得到提升。

来源：unity官方平台
原地址：https://mp.weixin.qq.com/s/v15Q9501Sg6_WWPjwTrXkQ

登录后参与讨论

暂无评论，来抢沙发

微信公众号

微博

头条号

百家号

网易号

知乎号

产业

平台

研发

市场

其他

Unity性能优化的最佳实践

评论

微信公众号

微博

头条号

微信公众号

微博

头条号

百家号

网易号

知乎号

Unity性能优化的最佳实践

相关推荐

UF2025（Shanghai）——《命运扳机》大世界渲染技术深度解析：全局光照与阴影系统的工程实践

聚势增长！Unity 确认参展 2025 ChinaJoy BTOB

UF2025(Shanghai)——移动端渲染管线优化实战：《洛克王国：世界》的技术突破之路

【译】游戏与建筑基本空间

微信公众号

微博

头条号