sklearn.feature_extraction特征提取

sklearn.feature_extraction模块负责从原始数据中提取特征。当前,它包括从文本和图像中提取特征的方法。

用户指南:有关更多详细信息,请参见功能提取部分。

feature_extraction.DictVectorizer([dtype,…]) 将特征值映射列表转换为矢量。
feature_extraction.FeatureHasher([…]) 实现功能哈希,又名哈希技巧。

 

从图片

sklearn.feature_extraction.image子模块收集实用程序以从图像中提取特征。

feature_extraction.image.extract_patches_2d(……) 将2D图像重塑为补丁集合
feature_extraction.image.grid_to_graph(n_x,n_y) 像素间连接图
feature_extraction.image.img_to_graph(img [,…]) 像素间梯度连接图
feature_extraction.image.reconstruct_from_patches_2d(……) 从所有修补程序重建映像。
feature_extraction.image.PatchExtractor([…]) 从图像集中提取补丁

 

从文字

sklearn.feature_extraction.text子模块收集实用程序以从文本文档构建特征向量。

feature_extraction.text.CountVectorizer([…]) 将文本文档集合转换为令牌计数矩阵
feature_extraction.text.HashingVectorizer([…]) 将文本文档的集合转换为令牌出现的矩阵
feature_extraction.text.TfidfTransformer([…]) 将计数矩阵转换为标准化的tf或tf-idf表示形式
feature_extraction.text.TfidfVectorizer([…]) 将原始文档集合转换为TF-IDF功能矩阵。