使用requests来模拟HTTP请求本来是一件非常轻松的事情,比如上传图片来说,简单的几行代码即可:

1
2
3
4
5
6
7
8
9
import requests
files = {'attachment_file': ('1.png', open('1.png', 'rb'), 'image/png', {})}
values = {'next':"http://www.xxxx.com/xxxx"}
r = requests.post('http://www.xxxx.com/upload', files=files, data=values) # 成功
r = requests.post('http://www.xxxx.com/upload', files=files, data=values) # 失败
r = requests.post('http://www.xxxx.com/upload', files=files, data=values) # 失败
r = requests.post('http://www.xxxx.com/upload', files=files, data=values) # 失败
r = requests.post('http://www.xxxx.com/upload', files=files, data=values) # 失败
...

不过我今天在调试一个django程序的时候却遇到了大坑————为了偷懒,我直接在ipython中执行了上述代码,第一次提交的时候一切正常,但第二次之后提交就怎么也通过不了django的form验证。

阅读全文

服务器推送事件(server-sent events,SSE)是一种除websocket、ajax简单轮寻外另一种实现服务器数据主动推送数据到浏览器的方式。

这里,举一个的例子来说明如何使用基于pyhon的服务端来实现,为了简单我使用flask框架来实现。关键点有2个:

  1. HTTP响应头中包含content-type:text/event-stream
  2. 流响应
阅读全文

python中闭包示例

发布在 Python

概念上的东西这里就不详细解释了,为什么需要闭包(Closures)呢?个人理解就是某些情况下你需要在外部访问函数内部的变量时,闭包就该大显身手了。闭包的一种典型表现就是函数内部定义了新的函数。这里举几个例子以记录使用闭包时的几个注意点,例子来源于这里,大神用javascript写的示例,这里改成python的,也顺便说说遇到的坑。

阅读全文

程序中很常见的一种场景就是根据某个控制变量的值来调用不同的函数或对象进行处理,某些语言中可以使用case语句进行处理,在python可以使用getattr函数甚至if…elif…else来处理,除此之外,也可以使用字典来实现相同的功能,比如下面的例子:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
animals = []
number_of_felines = 0
def deal_cat():
global number_of_felines
print "meow"
animals.append('feline')
number_of_felines += 1
def deal_dog():
print 'bark'
animals.append('canine')
def deal_bear():
print "hug"
animals.append('ursine')
token = {'cat': deal_cat, 'dog': deal_dog, 'bear': deal_bear}
#words = ['cat', 'dog', 'bear']
words = ['cat', 'dog', 'bear', 'cat']
for one in words:
token[one]()
#return token[one]()
nf = number_of_felines
print 'we met %d feline%s' % (nf, 's'[nf == 1:])
print 'the animals we net were:', ' '.join(animals)

阅读全文

celery使用小记

发布在 Python

之前的博客有关于celery以及相关概念的介绍,不过那篇文章没有具体的使用示例,今天补充一下。

目前celery的版本是3.1.19

这里我使用rabbitmq作为broker以及banckend。

阅读全文

关于functools.wraps的作用

发布在 Python

今天看代码时候有这么一段:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
from functools import wraps
def http_basic_auth(func):
'''定义httpbasicauth装饰器'''
@wraps(func)
def _decorator(request, *args, **kwargs):
authorization = request.META.get('HTTP_AUTHORIZATION','')
if authorization:
authmeth, auth = authorization.split(' ', 1)
if authmeth.lower() == 'basic':
auth = auth.strip().decode('base64')
username, password = auth.split(':', 1)
user = authenticate(username=username, password=password)
if user and user.is_superuser:
login(request, user)
return func(request, *args, **kwargs)
return HttpResponseForbidden()
return _decorator

作用就是为django实现http认证的装饰器,并且使用超级管理员才可以使用被装饰的接口。至于什么是装饰器、闭包、作用域这里就不多说了,有兴趣的可以参考http://www.imooc.com/learn/581 讲解的非常详细。

那么,这个函数中的@wraps(func)又是做什么的呢?这里就涉及到了装饰器的一个小细节问题:被装饰后的函数本质上已经不是原来的函数了,所以原函数的某些信息比如:__name____doc__等值就变了。而@wraps()的作用就是把原函数的相关信息代入到新的函数中。

评论和分享

python脚本模拟tail命令

发布在 Python

今天有个需求,需要实时监控nginx日志中某些ip的访问情况。如果ip较少的话,直接使用tail、grep以及管道配合即可。不过需要监控100个左右的ip并进行相应处理的话,除了自己写脚本还真没想到别的办法。

首先引出Python中自带的2个函数:

  1. file.seek(off, whence=0) 从文件中移动off个操作标记(文件指针),正往结束方向移动,负往开始方向移动。如果设定了whence参数,就以whence设定的起始位为准,0代表从头开始,1代表当前位置,2代表文件最末尾位置。
  2. file.tell() 返回文件指针的当前位置。

那么思路就比较清晰了,写一个死循环,循环内记录指针位置并赋值给seek函数:

1
2
3
4
5
6
7
8
9
10
with open("test.txt") as f:
f.seek(0,2) #把指针置尾
while 1:
cp = f.tell() #获取当前位置
#print cp
line = f.readline()
if line:
print line
else:
f.seek(cp)#将指针移动到本次循环的位置

一个简单的模拟tail命令的脚本就完成了,然后在github上发现这么一个程序,原理上都一样,不过作者对其进行了更好的封装:https://github.com/kasun/python-tail

另外在python2.7中while 1的效率比while True的高。

评论和分享

suds库使用小记

发布在 Python

虽说接触过的大部分接口都是以restfullapi的形式返回json数据,但最近有些接口是soap的,如果只是需要一个python的soap客户端的话,suds库是十分不错的一个选择,文档

使用pip安装即可,最基础的使用方法如下,示例来源官网:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
from suds.client import Client
url = 'http://localhost:7080/webservices/WebServiceTestBean?wsdl'
client = Client(url)
print client
Suds - version: 0.3.3 build: (beta) R397-20081121
Service (WebServiceTestBeanService) tns="http://test.server.enterprise.rhq.org/"
Prefixes (1):
ns0 = "http://test.server.enterprise.rhq.org/"
Ports (1):
(Soap)
Methods:
addPerson(Person person, )
echo(xs:string arg0, )
getList(xs:string str, xs:int length, )
getPercentBodyFat(xs:string name, xs:int height, xs:int weight)
getPersonByName(Name name, )
hello()
testExceptions()
testListArg(xs:string[] list, )
testVoid()
updatePerson(AnotherPerson person, name name, )
Types (23):
Person
Name
Phone
AnotherPerson

其中methods就是实现各个功能的方法,types则定义了数据类型:

1
2
result = client.service.getPercentBodyFat('jeff', 68, 170)
print result

比如string,int等简单类型就不多说了,如果想知道Person类型是什么,则可以使用:

1
2
person = client.factory.create('Person')
print person

来查看具体细节:

1
2
3
4
5
6
7
8
9
10
(Person)=
{
phone = []
age = NONE
name(Name) =
{
last = NONE
first = NONE
}
}

同理phone,name都是一种类型,可以使用ractory.create方法进行创建并赋值:

1
2
3
4
5
6
7
8
9
10
phone = client.factory.create('Phone')
phone.npa = 202
phone.nxx = 555
phone.number = 1212
name = client.factory.create('Name')
name.first = 'Elmer'
name.last = 'Fudd'
person.name = name
person.age = 35
person.phone = [phone]

然后就可以调用相关的方法了:client.service.addPerson(person)

有些接口还需要设置soap:Header属性,使用client.set_options(soapheaders=(userid,password))

这里需要注意的就是如果header中有多个节点的话,要使用一个元组添加而不是调用多次set_options函数.

再比较有用的就是如果想看suds构造出的xml信息的话,使用

1
2
3
import logging
logging.basicConfig(level=logging.INFO)
logging.getLogger('suds.client').setLevel(logging.DEBUG)

就可以了,如果还想看更详细的信息,比如请求头,状态码等,还可以使用
logging.getLogger('suds.transport').setLevel(logging.DEBUG)
至于更高级的用法,比如安全认证,xml信息修改注入,多server调用等文档描述的也很详细.

其实soap接口的本质就是向某个url以post方式提交一个xml格式的字符串,当然http头信息也需要相应变化,比如:

1
2
3
4
headers = {"Content-Type": "text/xml; charset=utf-8",
"SOAPAction": "http://www.xxxx.com/service/xxxx",
"Host": "www.xxxx.com"
}

可以使用requests以及urllib2等库发送请求,得到结果使用正则或lxml进行处理.

之前我由于某些原因不想使用suds就是这么做的,这种方法有2点需要注意:

  1. 构造xml字符串的编码问题,以及特殊符号转意:’&’转成’&amp;‘,”<”转成”&lt;
  2. 某些函数必须进行顺序调用(比如必须先调用登录函数才能调用查询函数…),注意把上一个调用结果的cookie带入到下一个调用中,建议使用requests库的session进行自动处理

评论和分享

python-memcached源码小窥

发布在 Python

以前经常使用python-memcached对内存进行操作,但应用都比较简单,最近需要有一个分布式缓存系统于是看了看关于twemproxy 以及 mcrouter 这两款分别由twitter和facebook开源的软件文档。这2个软件都能容易的扩展缓存节点以及自动删除问题节点,并且提供不同的算法把数据缓存到各个节点中。这时候我想起来使用python-memcached的时候,也可以使用多个节点,并且某个节点挂掉后并不影响整个缓存程序的使用,那么它是怎么将数据分配到不同的节点呢?以及怎么处理的故障节点呢?
python-memcached的源码只有一个文件,不管是get或者set,取得服务节点Ip的函数如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
_SERVER_RETRIES = 10 # how many times to try finding a free server.
def _get_server(self, key):
print(key)
if isinstance(key, tuple):
serverhash, key = key
else:
serverhash = serverHashFunction(key)
if not self.buckets:
return None, None
for i in range(Client._SERVER_RETRIES):
print(self.buckets)
print (serverhash)
print(serverhash % len(self.buckets))
server = self.buckets[serverhash % len(self.buckets)]
if server.connect():
print("(using server %s)" % server,)
return server, key
serverhash = str(serverhash) + str(i)
if isinstance(serverhash, six.text_type):
serverhash = serverhash.encode('ascii')
serverhash = serverHashFunction(serverhash)
return None, None
```
其中print语句是我添加的,为了更清晰的看出原因。首先我们创建一个对象并且设置一个值:
```python
In [4]: mc = meme.Client(['127.0.0.1:11211','192.168.0.202:11211','192.168.0.203:11211'])
In [5]: mc.set("asdf","asdf")
asdf
[<meme._Host object at 0x7f2df825c390>, <meme._Host object at 0x7f2df825c3d0>, <meme._Host object at 0x7f2df825c410>]
20777
2
(using server inet:192.168.0.203:11211)
Out[5]: True

可以看到,这个”asdf”被放到了节点3中。再来多几个数据:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
In [23]: mc.set("a","test")
a
[<meme._Host object at 0x7f2df825c390>, <meme._Host object at 0x7f2df825c3d0>, <meme._Host object at 0x7f2df825c410>]
26807
2
(using server inet:192.168.0.203:11211)
Out[23]: True
In [24]: mc.set("b","test")
b
[<meme._Host object at 0x7f2df825c390>, <meme._Host object at 0x7f2df825c3d0>, <meme._Host object at 0x7f2df825c410>]
29118
0
(using server inet:127.0.0.1:11211)
Out[24]: True
In [25]: mc.set("c","test")
c
[<meme._Host object at 0x7f2df825c390>, <meme._Host object at 0x7f2df825c3d0>, <meme._Host object at 0x7f2df825c410>]
1721
2
(using server inet:192.168.0.203:11211)
Out[25]: True
In [26]: mc.set("d","test")
d
[<meme._Host object at 0x7f2df825c390>, <meme._Host object at 0x7f2df825c3d0>, <meme._Host object at 0x7f2df825c410>]
6365
2
(using server inet:192.168.0.203:11211)
Out[26]: True
In [27]: mc.set("e","test")
e
[<meme._Host object at 0x7f2df825c390>, <meme._Host object at 0x7f2df825c3d0>, <meme._Host object at 0x7f2df825c410>]
28634
2
(using server inet:192.168.0.203:11211)
Out[27]: True
In [28]: mc.set("f","test")
f
[<meme._Host object at 0x7f2df825c390>, <meme._Host object at 0x7f2df825c3d0>, <meme._Host object at 0x7f2df825c410>]
30419
2
(using server inet:192.168.0.203:11211)
Out[28]: True
In [29]: mc.set("g","test")
g
[<meme._Host object at 0x7f2df825c390>, <meme._Host object at 0x7f2df825c3d0>, <meme._Host object at 0x7f2df825c410>]
468
0
(using server inet:127.0.0.1:11211)
Out[29]: True
In [30]: mc.set("h","test")
h
[<meme._Host object at 0x7f2df825c390>, <meme._Host object at 0x7f2df825c3d0>, <meme._Host object at 0x7f2df825c410>]
4459
1
(using server inet:192.168.0.202:11211)
Out[30]: True

好像并没有什么规律,但有心的读者肯定发现了,程序的流程就是根据key算出一个hash值,再根据这个hash值对总节点数进行取余数。换言之,数据被存储在哪个节点完全是由key来决定的!在某些极端情况下,可能出现所有的数据都存储在同一个节点的情况。

用于hash的函数如下:

1
2
3
4
def cmemcache_hash(key):
return (
(((binascii.crc32(key) & 0xffffffff) >> 16) & 0x7fff) or 1)
serverHashFunction = cmemcache_hash

首先对key进行crc32操作,这里注意python2.x版本中crc计算后得到的是有符号整数(- 2^31—-2^31-1),所以需要使用位操作& 0xffffffff将其转成无符号整数,然后在向右位移16位截取高16位,再与0x7fff进行位操作将值变成正数。(比较疑惑,不知道这么做后key转换出来的值真的不会重复吗?算法渣渣啊….)

那么,如果一台节点挂了,似乎并没有影响整个缓存的使用啊?比如上面key=h的数据应该存放在第二个节点上,现在关闭第二个节点(192.168.0.202),再取值:

1
2
3
4
5
6
7
8
9
In [35]: mc.get('h')
h
[<meme._Host object at 0x7f2df825c390>, <meme._Host object at 0x7f2df825c3d0>, <meme._Host object at 0x7f2df825c410>]
4459
1
[<meme._Host object at 0x7f2df825c390>, <meme._Host object at 0x7f2df825c3d0>, <meme._Host object at 0x7f2df825c410>]
26423
2
(using server inet:192.168.0.203:11211)

可以看出,就算某个节点挂了,对于mc来说,backets还是有3个节点的,它并不会把失效节点从“池子”中移除。不过节点2链接不上,于是程序把上次得到的hash值于循环次数进行拼接后再hash,看其能否得到一个可以链接的节点。这次结果是得到了节点3并且可以链接,于是程序去节点3寻找key=h的值,但第三个节点并没有,所以返回none。换言之,即使节点1有key=h的值,程序也不会理会的。
那么,我再设置一个key=h的数据试试:

1
2
3
4
5
6
7
8
9
In [36]: mc.set("h","test")
h
[<meme._Host object at 0x7f2df825c390>, <meme._Host object at 0x7f2df825c3d0>, <meme._Host object at 0x7f2df825c410>]
4459
1
[<meme._Host object at 0x7f2df825c390>, <meme._Host object at 0x7f2df825c3d0>, <meme._Host object at 0x7f2df825c410>]
26423
2
(using server inet:192.168.0.203:11211)

结果不出所料,程序还是先去找节点2,发现链接不上就继续hash,直到找到一个能链接的节点为止。极端情况下就循环10次都没碰到可用节点的话,程序就认为所有节点都挂了。

这种逻辑下,假设程序经过2次hash后决定把数据存在节点3后,节点2恢复正常,再进行get操作会发现数据还是取不到的。

结论:

python-memcached无法动态进行节点的扩展或者删除,简单的应用或者只有一个缓存节点时,python-memcached还是很给力的,但如果需要的是一个分布式缓存集群的话,还是使用上面提到的那2个程序更高效、灵活。

评论和分享

flask常用插件

发布在 Python

2015-08-28更新
不可否认django是一个功能齐全的、文档最完善的、最容易入门的python框架,但随着业务发展,发现并没有用到django最强大、最方便的后台管理功能。同时相比web.py、flask也确实“重”了一些,所以经过考虑决定将框架换为flask。如果说django是一个组装好的变形金刚,那么flask则是乐高积木,小巧而灵活,可以根据需要选择不同的功能扩展。下面列出了我使用过的一些插件,持续补充…

flask官网

https://dormousehole.readthedocs.org/en/latest/index.html
这个就不多解释了。

jinja2

http://docs.jinkan.org/docs/jinja2/index.html
flask默认模板引擎。

sqlalchemy

http://www.sqlalchemy.org/
如果喜欢用ORM操作数据的话,这个可以说是不错的选择,用来替代django自身提供的ORM系统。

flask-sqlalchemy

http://flask-sqlalchemy.pocoo.org/2.0/
这个是flask插件,对sqlalchemy进行了一些封装。

flask-login

https://flask-login.readthedocs.org/en/latest/
提供用户登录、登出等相关操作。

flask-wtf

https://flask-wtf.readthedocs.org/en/latest/
提供表单相关功能,基于wtform.

flask-bcrypt

https://flask-bcrypt.readthedocs.org/en/latest/
提供加密功能,将字符串加密。

flask-user

https://pythonhosted.org/Flask-User/

基本上来说,上面三个插件就可以构造出一个用户系统了,但还有一个完整的实现了相关用户功能的插件叫做flask-user,不过这个插件对于我的业务来说并不是特别适用,需要进行修改的地方过多,所以我就用上面的三个自己写了一个。

flask-cache

https://pythonhosted.org/Flask-Cache/
提供缓存的相关功能。

flask-migrate

https://flask-migrate.readthedocs.org/en/latest/

提供数据库迁移功能,比如改了个字段什么的不用重建数据库了。

flask-script

https://flask-script.readthedocs.org/en/latest/

这个十分好用,用来执行flask脚本的。什么意思呢?就是flask中有很多操作需要上下文环境的,有了这个东西就不用每次都启动flask环境了。结合flask-migrate进行数据库迁移、结合flask-cache进清空缓存都爽歪歪。

flask-restful

https://flask-restful.readthedocs.org/en/0.3.4/

看名也知道了,提供restfulapi接口的,类似django-rest-framework。

flask-less

https://flask-restless.readthedocs.org/en/latest/

也是提供restfulapi接口的,这两个提供接口的插件相比,上一个比较灵活,而这个比较简单快捷。

flask-httpauth

https://flask-httpauth.readthedocs.org/en/latest/

一个简单的HttpAuth插件。

flask-uploads

文件上传的插件,这里需要注意,使用pip安装的flask-uploads是 https://pythonhosted.org/Flask-Uploads/ 这个作者的,还有一个版本的https://github.com/FelixLoether/flask-uploads 这两个并不一样。

flask-cloudy

https://github.com/mardix/flask-cloudy

还是文件上传,支持上传到各种云环境或者本地,我没深入研究有兴趣的可以自己看。

flask-mail

https://pythonhosted.org/flask-mail/

发送邮件的,这里我使用时需要把官网的
from flaskext.mail import Mail
改成
from flask.ext.mail import Mail

评论和分享

Roy.S

微信公众号:hi-roy


野生程序员


China