pandas 如何从列中的值中删除重音符号？

Question

提问by Marius

How do I change the special characters to the usual alphabet letters? This is my dataframe:

如何将特殊字符更改为常用字母？这是我的数据框：

In [56]: cities
Out[56]:

Table Code  Country         Year        City        Value       
240         ?land Islands   2014.0      MARIEHAMN   11437.0 1
240         ?land Islands   2010.0      MARIEHAMN   5829.5  1
240         Albania         2011.0      Durr?s      113249.0
240         Albania         2011.0      TIRANA      418495.0
240         Albania         2011.0      Durr?s      56511.0

I want it to look like this:

我希望它看起来像这样：

In [56]: cities
Out[56]:

Table Code  Country         Year        City        Value       
240         Aland Islands   2014.0      MARIEHAMN   11437.0 1
240         Aland Islands   2010.0      MARIEHAMN   5829.5  1
240         Albania         2011.0      Durres      113249.0
240         Albania         2011.0      TIRANA      418495.0
240         Albania         2011.0      Durres      56511.0

Answer 1

采纳答案by Blind0ne

Use this code:

使用此代码：

df['Country'] = df['Country'].str.replace(u"?", "A")
df['City'] = df['City'].str.replace(u"?", "e")

See here! Of course you should do it then for every special character and every column.

看这里！当然，您应该为每个特殊字符和每一列都这样做。

Answer 2

回答by EdChum

The pandas method is to use the vectorised str.normalizecombined with str.decodeand str.encode:

pandas 方法是使用矢量化str.normalize与str.decode和结合str.encode：

In [60]:
df['Country'].str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8')

Out[60]:
0    Aland Islands
1    Aland Islands
2          Albania
3          Albania
4          Albania
Name: Country, dtype: object

So to do this for all strdtypes:

因此，要对所有strdtype执行此操作：

In [64]:
cols = df.select_dtypes(include=[np.object]).columns
df[cols] = df[cols].apply(lambda x: x.str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8'))
df

Out[64]:
   Table Code        Country    Year       City      Value
0         240  Aland Islands  2014.0  MARIEHAMN  11437.0 1
1         240  Aland Islands  2010.0  MARIEHAMN  5829.5  1
2         240        Albania  2011.0     Durres   113249.0
3         240        Albania  2011.0     TIRANA   418495.0
4         240        Albania  2011.0     Durres    56511.0

Answer 3

回答by Caio Andrian

With pandas seriesexample

以Pandas系列为例

def remove_accents(a):
    return unidecode.unidecode(a.decode('utf-8'))

df['column'] = df['column'].apply(remove_accents)

in this case decode asciis

在这种情况下解码 asciis

Answer 4

回答by advance512

This is for Python 2.7. For converting to ASCII you might want to try:

这适用于 Python 2.7。要转换为 ASCII，您可能想尝试：

import unicodedata

unicodedata.normalize('NFKD', u"Durr?s ?land Islands").encode('ascii','ignore')
'Durres Aland Islands'

pandas 如何从列中的值中删除重音符号？

提问by Marius

采纳答案by Blind0ne

回答by EdChum

回答by Caio Andrian

回答by advance512

相关推荐

最近更新

标签

pandas 如何从列中的值中删除重音符号？

提问by Marius

采纳答案by Blind0ne

回答by EdChum

回答by Caio Andrian

回答by advance512

相关推荐

pandas 熊猫 to_datetime 解析错误的年份

尝试将函数应用于重复列时，Pandas 抛出奇怪的异常

pandas 使用 Seaborn 绘制最小/最大阴影的时间序列图

Pandas drop_duplicates - 类型错误：* 后的类型对象参数必须是序列，而不是映射

相关推荐

最近更新

标签