以编程方式重命名函数

Programmatically rename functions

提问人:Moritz Roessler 提问时间:7/21/2014 最后编辑:CommunityMoritz Roessler 更新时间:8/1/2014 访问量:2403

问:

我目前正在编写一个 ECMAScipt5 编译器,该编译器在解析树上执行各种给定的优化/转换,并编译回 ECMAScipt5。

其中一项功能是重命名 EnvironmentRecord 中的 Binding

这种转换可以自动执行,例如作为旨在减小代码大小的优化的一部分,其中每个变量(不在全局范围内)将被赋予下一个最短的可用名称,或者通过引入新范围的语句后面的注释手动执行。

但是,我必须将(自动)过程限制为仅变量声明。

请看这两个例子。第一个是编译的,指定为转换,第二个使用[Minify][Directives, PrettyPrint]

语法: Compiler.fromSource (src).compile ([/*转换数组*/]);

var bar,foo;
(function exampleMin () {
    var bar="foo",
        foo="bar";
    
    function fooBar () {
        return foo + bar;
    }
})

编译为

var bar,foo;function exampleMin(){var A="foo",B="bar";function fooBar(){return B+A}}

var bar,foo;
(function exampleMin () {
    @Rename bar:A
    @Rename foo:B
    @Rename fooBar:C
    var bar="foo",
        foo="bar";
    
    function fooBar () {
        return foo + bar;
    }
})

编译为

var bar,foo;
function exampleMin(){
     var A="foo",B="bar";
     function C(){
          return B+A;
     }
};

这导致了有问题的部分,功能......请考虑以下几点

if (fooBar.name === 'fooBar') {
 //...
}

现在,如果此语句包含在 .用户定义的重命名会将代码转换为语义不同的代码。这绝不能通过自动执行的转换来实现。exampleMin

虽然我盲目地假设用户定义的函数重命名不会以某种方式改变语义,但如果是这种情况,我想发出警告。但是我不知道如何确定以编程方式重命名函数是否安全

这让我归结为以下问题:

  1. 重命名函数时,除了访问函数名称之外,还必须考虑什么?
  2. 必须执行哪些分析才能将函数标记为安全可优化或不可优化。有可能吗?
  3. 我宁愿将函数排除在重命名之外,还是尝试更改另一面,例如与函数名称的比较。(如果可以证明它没有副作用)
  4. 在这种特定情况下,语义的改变是可以容忍的吗(GCC似乎是这么认为的),如果我作为交换,提供一个注释?@do-not-optimize

更新 1.

我得出的结论是,仅通过静态分析可能无法进行这种分析

请考虑以下代码。

function foo () {}
function bar () {}
var fns = [bar,foo];

if (fns [0].name === 'bar') fns [0] ();

fns.unshift (foo);

if (fns [1].name === 'bar') fns [1] ();

我无法想象一旦将函数添加到数组中,如何在不执行代码的情况下将引用追溯到其来源。也许我需要某种形式的抽象解释1


更新2

与此同时,在阅读@Genes答案后,我意识到还有其他几件事可能没有坏处。首先,一些旁注:

  • 显然,我不是在编写编译器,而是在编写预处理器,因为它输出源代码而不是机器代码。
  • 鉴于只有绑定标识符的静态访问,我对如何处理这个问题有一个很好的主意。
  • 每个环境记录中的每个 Binding 当前都包含其所有静态引用的列表(我显然无法添加动态引用)

我目前正在进行 SSA[2] 转换。所以我还没有实现任何 DataFlow 分析。但那是计划中的。

因此,为了简单起见,我们假设满足以下先决条件。

  • AST 和 CFG 采用静态单次赋值形式。

  • 已为 CFG4 中的每个节点计算了 GEN 和 KILL 集

  • 已计算到达定义4 / IN 和 OUT 集。

  • 已计算 DEF / USE 对

  • 流相关边已添加到 CFG 中

    因此,第一个示例的控制流图可能如下所示。

enter image description here

  • 黑色非虚线表示控制流边缘。
  • 黑色虚线连接表示数据流依赖项
  • 蓝色双箭头线表示呼叫站点。
  • 蓝色虚线表示过程间依赖关系。但是,我不确定我是否应该在每个 CFG 之前的每个节点之间建立直接连接

鉴于此,我可以简单地执行以下操作。

对于每个即将重命名的函数:

  • 访问其声明 CFG 节点
  • 对于每个流依赖关系边缘,请访问目标节点
  • 如果该节点是条件 goto 语句,并且函数引用是属性访问器的 LHS,其中 RHS 为“name”。
    • 将函数标记为受污染

唯一的问题是我看不出如何计算(甚至是近似的)函数的非静态引用的信息

因此,如果该分析无法帮助查找对函数的所有引用,我也可以使用前面提到的引用列表,环境记录中的每个 Binding 都包含这些引用。 由于函数具有声明性环境记录对象环境记录。我可以简单地看一下其对象环境“name”绑定的引用计数。

作为参考,下面是当前执行重命名的实际代码

var boundIdentifiers = this.environment.record.bindings, //`this` refers to an AST node representing a FunctionDeclaration or a FunctionExpression
    nextName, 
    identifier, 
    binding;

for (identifier in boundIdentifiers) {
    binding = boundIdentifiers [identifier];
    if (binding.uses < 2 && !binding.FunctionExpression) {
        compiler.pushWarning (binding.references [0].line, binding.references [0].column,'Declared function ' + identifier + ' is never called.') //False positive if the functions reference is obtained dynamically
    }

    if (boundIdentifiers [identifier].FunctionDeclaration || boundIdentifiers [identifier].FunctionExpression) {
        continue; //Skip function declarations and expressions, since their name property could be accessed
    }

    do {
        nextName = nextVar (); 
    } while (
        Object.hasOwnProperty.call (boundIdentifiers,nextVar) //There could exist a `hasOwnProperty` binding.
    ); //ther could a with the name that already exists in the scope. So make sure we have assign a free name.

    this.environment.record.setBindingName (identifier, nextName);
}

因此,总体问题归结为捕获非静态引用

需要涉及哪些分析技术和先前的优化才能捕获至少一些(因为不可能捕获所有)非静态引用。


我修改了问题以适应更新。因此,上述问题仍然适用

[1]静态程序分析技术综述 (CH: 2) [2]静态单作业书 [4]软件的表示和分析


正如注释中@didierc提到的,使用括号表示法的属性访问也会出现同样的问题。因此,只能手动重命名对象环境记录绑定

JavaScript 编译器优化

评论

2赞 soktinpk 7/21/2014
我怀疑是否可能通过静态分析来确定。如果你真的不需要破坏代码,你根本不能重命名函数。
1赞 Moritz Roessler 7/21/2014
@soktinpk Google Closure Compiler 确实重命名了函数,所以它必须是可能的,我不介意更复杂的分析。将它们从重命名中排除是我目前在缩小任务中所做的,但它可以节省很多字符。如果访问 name 属性是我所担心的,我想到了这样的事情:如果我在定义 ObjectEnvironmentRecord 的 Binding 之前计算别名,我可能会检查是否有多个对函数 ObjectEnvironmentRecord s “name” Binding 的引用。如果是这样,请将该函数标记为重命名不安全。
3赞 soktinpk 7/21/2014
@C5H8NNaO4 Google Closure Compiler 确实会重命名函数,但这样做并不安全。例如,尝试缩小:.输出不起作用。(function() { function hello(name) { alert('Hello, ' + name); } if (hello.name === "hello") hello(hello.name); })();
1赞 Bergi 7/21/2014
好吧,我敢肯定其他一些东西可能会破坏(比如 Function 的 - 在某些 DI 框架中用于获取参数名称),但是是的 - 我认为破坏非标准的东西是可以容忍的。提到 ES5 的意思是该功能在 ES<=5 中是非标准的(它可能会成为 ES6 的标准)。toString
2赞 didierc 7/22/2014
你如何处理这样的事情?foo['bar']();

答:

2赞 Phil H 7/23/2014 #1

我认为您需要破坏属性以返回原始名称而不是新名称。别的什么都行不通。.name

考虑将所有 .name 替换为 ._name(),并构造一个 ref->name 的查找表。

评论

0赞 Moritz Roessler 7/23/2014
我将如何处理名称属性的非静态引用,例如.更糟糕的是,.问题在于跟踪对原始函数的所有引用,因为在动态属性访问之后,在任何时候都会引用函数。它可以是“name”属性。虽然其中一些访问可能会变成静态访问,但通过应用例如稀疏条件常量传播,肯定会有一些不会。如果我找不到所有参考文献,我就无法替换它们。(或者我在这里遗漏了一些重要的东西?foo['name']a=[foo],p=name;a[0][p]==='foo'&&a[0]()
0赞 Moritz Roessler 7/23/2014
或者您的意思是实际重新定义函数名称属性?:)如果是这样,你知道一个可能的方法吗?我不是 100 确定,但 afaik 您不能在 ECMAScript5 中重新定义函数名称
0赞 Phil H 7/24/2014
我所说的“中断”是指修改解释器。由于您描述的原因,我认为您无法进行任何这样的替换;所有反射都将失败,除非您仍然可以在不重命名的情况下以与该名称相同的方式使用原始属性名称。
0赞 basilikum 7/30/2014
@C5H8NNaO4,我创建了一个简单的代码示例,我认为它代表了 Phils 的想法: jsfiddle.net/CCN5R/1 只是对你看到的代码进行成像,就已经是缩小的代码。
1赞 Gene 7/30/2014 #2

假设你不能像 H @Phil所说的那样“破坏”解释器,如果可能的话,这是一个有效的解决方案......

编译器处理此类情况的正常方式称为数据流分析。这相当于代码遍历,计算以某种方式描述程序结构的值。在所有有趣的情况下,这些值都是求证估计值。

最普遍的保守假设是,对哪个分支将执行一无所知,循环迭代的次数也是未知的,并且对函数调用在副作用方面可能做什么一无所知。复杂的过程间数据流分析允许删除最后一个。例如,LLVM 能够做到这一点,但许多其他编译系统却不能。if

对于这个问题,一个特殊的保守假设是,如果对一个值使用了类似的内省,那么它就是“被污染的”。它无法重命名。数据流分析将允许您找到受污染名称的保守列表。.name

对于这个问题,可能最适用的数据流分析是定义使用分析,以构造附加到每个“定义”的“使用链”。在 javascript 中,定义等同于赋值和函数命名。如果你的分析足够复杂,可以查看哈希内部,那么添加键值对就是一个定义。

分析结果将是一个列表,该列表附加到每个定义中建立的值的每个“使用”中。保守的假设意味着该列表可能包括从未实际发生的用途。

关于数据流分析的文献数量巨大。但是,开始学习它的一个很好的方法是旧的标准“龙书”,Aho Sethi 和 Ullman,编译器设计

加法

非常动态语言的问题在于,准确的数据流分析是困难的。评论中的示例:

var n='name';
function foo () {}; 
if (foo[n] === 'foo') doSth ()

是典型的。愚蠢的保守假设是,在任何索引操作中,可能是 。所以不能重命名。您必须通过使数据流分析更详细(更少估计)来克服愚蠢假设的局限性。a[s]s'name'a

一个框架是抽象解释:实际上,用抽象值域来运行程序,替换真实数据,再次对 s 和循环做出保守的假设。如果抽象域具有某些属性,则保证有限长度执行以计算每个变量的最终值。不断折叠是一种抽象解释的简单形式。if

在您的示例中,抽象值域必须至少包含类似以下内容的内容

{ unassigned, constant string, unknown }

在实践中,您还需要常量数、函数和其他值。抽象解释术语会说“底部”而不是“未分配”,以及“顶部”而不是“未知”。null

这一切都是旧东西。因此,从60年代开始,就有大量关于它的正式文献,当时人们对优化Lisp编译器非常感兴趣。如果您可以访问,请搜索 ACM 存档。

评论

0赞 Moritz Roessler 7/31/2014
感谢您的回答:)我已经阅读了很多关于数据流分析的精彩文献。如果所有引用都是静态的,我想即使没有数据流分析也可以完成。因此,我提出的问题可以表述为:需要哪些先验分析来构建用于动态定义和用途的 DEF/USE 对。.在构建 def use 链时,如果没有事先的常量传播,我会完全错过 s name 属性的使用。对不起,如果我没有在问题中说清楚。我现在更新了它.namevar n='name';function foo () {}; if (foo[n] === 'foo') doSth ()foo
0赞 Moritz Roessler 7/31/2014
无论如何,我喜欢你的回答,因为它很好地回答了部分问题,并为未来的访问者提供了一个很好的概述:)
0赞 Moritz Roessler 8/1/2014
在我提交评论之前,我可能也应该再读一遍我的评论。我希望第一个措辞不要太混乱。
0赞 Gene 8/1/2014
@C5H8NNaO4我做了一个补充。希望对您有所帮助。
0赞 Moritz Roessler 8/1/2014
顺便说一句,您在个人资料中链接到的网站说其 URL 已被替换为 bridgecontest.org
2赞 Burt_Harris 7/31/2014 #3

问题不在于重命名函数不安全,问题在于依赖于函数的“name”属性的代码是不安全的,无论您正在考虑重命名什么。

请注意,函数对象的“name”属性未在 ecma 标准中定义,并且某些浏览器没有实现它。在 JavaScript 中,函数可以是无名的,也可以有多个名称,因此在代码中依赖特定于浏览器的名称属性是问题所在,而不是重命名函数的概念。

评论

1赞 Moritz Roessler 8/1/2014
谢谢你的回答,这是我想听到的一件事。我喜欢这样一种表述,即基于非标准属性的代码本身是不安全的。所以重命名是有道理的。不过,有一件事让我有点困惑,那就是,一个函数怎么能有多个名称?