乐正

Actions speak louder than words.

Python 中的关键字with详解

在 Python 2.5 中,with关键字被加入。它将常用的 try ... except ... finally ...模式很方便的被复用。看一个最经典的例子:

1
2
with open('file.txt') as f:
    content = f.read()

在这段代码中,无论with中的代码块在执行的过程中发生任何情况,文件最终都会被关闭。如果代码块在执行的过程中发生了一个异常,那么在这个异常被抛出前,程序会先将被打开的文件关闭。

再看另外一个例子。

在发起一个数据库事务请求的时候,经常会用类似这样的代码:

1
2
3
4
5
6
7
8
9
db.begin()

try:
    # do some actions
except:
    db.rollback()
    raise
else:
    db.commit()

如果将发起事务请求的操作变成可以支持with关键字的,那么用像这样的代码就可以了:

1
2
with transaction(db):
    # do some actions

下面,详细的说明一下with的执行过程,并用两种常用的方式实现上面的代码。

with 的一般执行过程

一段基本的with表达式,其结构是这样的:

1
2
with EXPR as VAR:
    BLOCK

其中:EXPR可以是任意表达式;as VAR是可选的。其一般的执行过程是这样的:

  1. 计算EXPR,并获取一个上下文管理器。
  2. 上下文管理器的__exit()__方法被保存起来用于之后的调用。
  3. 调用上下文管理器的__enter()__方法。
  4. 如果with表达式包含as VAR,那么EXPR的返回值被赋值给VAR
  5. 执行BLOCK中的表达式。
  6. 调用上下文管理器的__exit()__方法。如果BLOCK的执行过程中发生了一个异常导致程序退出,那么异常的typevaluetraceback(即sys.exc_info()的返回值)将作为参数传递给__exit()__方法。否则,将传递三个None

将这个过程用代码表示,是这样的:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
mgr = (EXPR)
exit = type(mgr).__exit__ # 这里没有执行
value = type(mgr).__enter__(mgr)
exc = True

try:
    try:
        VAR = value # 如果有 as VAR
        BLOCK
    except:
        exc = False
        if not exit(mgr, *sys.exc_info()):
            raise
finally:
    if exc:
        exit(mgr, None, None, None)

这个过程有几个细节:

  • 如果上下文管理器中没有__enter()__或者__exit()__中的任意一个方法,那么解释器会抛出一个AttributeError
  • BLOCK中发生异常后,如果__exit()__方法返回一个可被看成是True的值,那么这个异常就不会被抛出,后面的代码会继续执行。

接下来,用两种方法来实现上面来实现上面的过程的吧。

实现上下文管理器类

第一种方法是实现一个类,其含有一个实例属性db和上下文管理器所需要的方法__enter()____exit()__

1
2
3
4
5
6
7
8
9
10
11
12
class transaction(object):
    def __init__(self, db):
        self.db = db

    def __enter__(self):
        self.db.begin()

    def __exit__(self, type, value, traceback):
        if type is None:
            db.commit()
        else:
            db.rollback()

了解with的执行过程后,这个实现方式是很容易理解的。下面介绍的实现方式,其原理理解起来要复杂很多。

使用生成器装饰器

在Python的标准库中,有一个装饰器可以通过生成器获取上下文管理器。使用生成器装饰器的实现过程如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
from contextlib import contextmanager

@contextmanager
def transaction(db):
    db.begin()

    try:
        yield db
    except:
        db.rollback()
        raise
    else:
        db.commit()

第一眼上看去,这种实现方式更为简单,但是其机制更为复杂。看一下其执行过程吧:

  1. Python解释器识别到yield关键字后,def会创建一个生成器函数替代常规的函数(在类定义之外我喜欢用函数代替方法)。
  2. 装饰器contextmanager被调用并返回一个帮助函数,这个帮助函数在被调用后会生成一个GeneratorContextManager实例。最终with表达式中的EXPR调用的是由contentmanager装饰器返回的帮助函数。
  3. with表达式调用transaction(db),实际上是调用帮助函数。帮助函数调用生成器函数,生成器函数创建一个生成器。
  4. 帮助函数将这个生成器传递给GeneratorContextManager,并创建一个GeneratorContextManager的实例对象作为上下文管理器。
  5. with表达式调用实例对象的上下文管理器的__enter()__方法。
  6. __enter()__方法中会调用这个生成器的next()方法。这时候,生成器方法会执行到yield db处停止,并将db作为next()的返回值。如果有as VAR,那么它将会被赋值给VAR
  7. with中的BLOCK被执行。
  8. BLOCK执行结束后,调用上下文管理器的__exit()__方法。__exit()__方法会再次调用生成器的next()方法。如果发生StopIteration异常,则pass
  9. 如果没有发生异常生成器方法将会执行db.commit(),否则会执行db.rollback()

再次看看上述过程的代码大致实现:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
def contextmanager(func):
    def helper(*args, **kwargs):
        return GeneratorContextManager(func(*args, **kwargs))
    return helper

class GeneratorContextManager(object):
    def __init__(self, gen):
        self.gen = gen

    def __enter__(self):
        try:
            return self.gen.next()
        except StopIteration:
            raise RuntimeError("generator didn't yield")

    def __exit__(self, type, value, traceback):
        if type is None:
            try:
                self.gen.next()
            except StopIteration:
                pass
            else:
                raise RuntimeError("generator didn't stop")
        else:
            try:
                self.gen.throw(type, value, traceback)
                raise RuntimeError("generator didn't stop after throw()")
            except StopIteration:
                return True
            except:
                if sys.exc_info()[1] is not value:
                    raise

总结

Python的with表达式包含了很多Python特性,花点时间吃透with是一件非常值得的事情。

一些其他的例子

锁机制
1
2
3
4
5
6
7
@contextmanager
def locked(lock):
    lock.acquired()
    try:
        yield
    finally:
        lock.release()
标准输出重定向
1
2
3
4
5
6
7
8
9
10
11
12
@contextmanager
def stdout_redirect(new_stdout):
    old_stdout = sys.stdout
    sys.stdout = new_stdout
    try:
        yield
    finally:
        sys.stdout = old_stdout

with open("file.txt", "w") as f:
    with stdout_redirect(f):
        print "hello world"

引用

数据挖掘导论读书笔记-绪论

数据挖掘的起源

提取有用的信息已经称为一项巨大的挑战,来自不同学科的研究者汇集到一起,开发可以处 理不同数据类型的更有效的、可伸缩的工具。特别地,数据挖掘利用了来自如下领域思想:

  • 来自统计学的抽样、估计和假设检验
  • 人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论
  • 最优化、进化计算、信息论、信号处理、可视化和信息检索
  • 提供有效存储、索引和查询处理支持的数据库系统
  • 源于高性能(并行)计算的技术

什么是数据挖掘?

数据挖掘是一种将传统的数据分析与处理大量数据的复杂算法相结合的一种技术;是在大型 数据存储库中,自动地发现有用信息的过程。

数据挖掘要解决的问题

  • 可伸缩
  • 高维性
  • 异种数据和复杂数据
  • 数据的所有权与分布
  • 非传统的分析

数据挖掘的任务

  • 预测任务:根据说明变量(自变量)预测目标变量(因变量)的值
  • 描述任务:导出概括数据中潜在联系的模式
  • 预测建模:为目标变量提供两类的预测建模任务:分类和回归
  • 关联分析:用来发现数据中强关联特征的模式
  • 聚类分析:旨在发现紧密相关的观测值组群,使得与不同簇的观测值相比,属于同一 簇的观测值相互之间尽可能接近
  • 异常检测:识别其特征显著不同于其他数据的观测值

Vim 技巧

在Github上看到的一些挺有用的技巧,转载、汇总过来。文章最后会有来源。

行为一致的n和N

nN在搜索中用来查找下一个或者上一个搜索结果。但是在使用/或者?搜索时,它 移动的方向不同,这个经常会混淆。所以,如果你希望n总是查找下一个搜索结果,N总 是查找上一个搜索结果的话,你可以这么做:

1
2
nnoremap <expr> n  'Nn'[v:searchforward]
nnoremap <expr> N  'nN'[v:searchforward]

快速移动当前行

如果你想将当前行快速上移或者下移几行的话,你可以这么做:

1
2
nnoremap [e  :<c-u>execute 'move -1-'. v:count1<cr>
nnoremap ]e  :<c-u>execute 'move +'. v:count1<cr>

上面两个映射接受数字做为参数,例如:2]e表示将当前行下移两行。

快速宏编辑

这条非常有用!这个快捷键打开了一个命令历史窗口,你可以编辑,然后按<cr>键执行。

1
nnoremap <leader>m  :<c-u><c-r>='let @'. v:register .' = '. string(getreg(v:register))<cr><c-f><left>

<leader>m使用这条技巧。

高亮光标所在当前行和当前列

1
2
3
au WinLeave * set nocursorline nocursorcolumn
au WinEnter * set cursorline cursorcolumn
set cursorline cursorcolumn

显示多余的空白字符

1
set list listchars=tab:»·,trail:·

在GUI中快速改变字体大小

测试在控制台的Vim中无效。

1
2
command! Bigger  :let &guifont = substitute(&guifont, '\d\+$', '\=submatch(0)+1', '')
command! Smaller :let &guifont = substitute(&guifont, '\d\+$', '\=submatch(0)-1', '')

参考