Pandas是Python中一个非常强大的数据处理库,它提供了大量的数据结构和数据分析工具,在本文中,我们将学习如何使用Pandas进行数据的更新操作。
成都创新互联公司长期为超过千家客户提供的网站建设服务,团队从业经验10年,关注不同地域、不同群体,并针对不同对象提供差异化的产品和服务;打造开放共赢平台,与合作伙伴共同营造健康的互联网生态环境。为上思企业提供专业的成都做网站、网站建设,上思网站改版等技术服务。拥有十年丰富建站经验和众多成功案例,为您定制开发。
1、安装Pandas
我们需要安装Pandas库,在命令行中输入以下命令进行安装:
pip install pandas
2、导入Pandas库
在Python代码中,我们使用以下语句导入Pandas库:
import pandas as pd
3、创建DataFrame
我们可以使用字典、列表或者NumPy数组来创建一个DataFrame,以下是一些示例:
使用字典创建DataFrame data = {'Name': ['Tom', 'Jerry', 'Mike'], 'Age': [20, 21, 19], 'City': ['New York', 'San Francisco', 'Los Angeles']} df = pd.DataFrame(data) 使用列表创建DataFrame data = [[1, 2, 3], [4, 5, 6], [7, 8, 9]] df = pd.DataFrame(data, columns=['A', 'B', 'C']) 使用NumPy数组创建DataFrame import numpy as np data = np.array([['Tom', 20, 'New York'], ['Jerry', 21, 'San Francisco'], ['Mike', 19, 'Los Angeles']]) df = pd.DataFrame(data, columns=['Name', 'Age', 'City'])
4、更新数据
我们可以使用loc
和iloc
方法来更新DataFrame中的数据。loc
方法是基于标签的数据选择方法,而iloc
方法是基于位置的数据选择方法,以下是一些示例:
更新单行数据 df.loc[0, 'Age'] = 22 df.loc[1, 'City'] = 'Chicago' 更新多行数据 df.loc[1:3, 'Age'] = [23, 24] df.loc[1:3, 'City'] = ['Chicago', 'Houston'] 更新单列数据 df['Age'] = df['Age'] + 1 df['City'] = df['City'].str.upper() 更新多列数据 df[['Age', 'City']] = df[['Age', 'City']].apply(lambda x: x + 1) df[['Age', 'City']] = df[['Age', 'City']].apply(lambda x: x.str.upper())
5、删除数据
我们可以使用drop
方法来删除DataFrame中的行或列,以下是一些示例:
删除单行数据 df = df.drop(0) df = df.drop(1) 删除多行数据 df = df.drop([0, 1]) df = df.drop(df.index[0:2]) 删除单列数据 df = df.drop('Age', axis=1) df = df.drop('City', axis=1) 删除多列数据 df = df.drop(['Age', 'City'], axis=1) df = df.drop(columns=['Age', 'City'])
6、合并数据
我们可以使用concat
、merge
和join
方法来合并DataFrame,以下是一些示例:
垂直合并DataFrame(堆叠) df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3'], 'C': ['C0', 'C1', 'C2', 'C3'], 'D': ['D0', 'D1', 'D2', 'D3']}) df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'], 'B': ['B4', 'B5', 'B6', 'B7'], 'C': ['C4', 'C5', 'C6', 'C7'], 'D': ['D4', 'D5', 'D6', 'D7']}) result = pd.concat([df1, df2], ignore_index=True) print(result)
水平合并DataFrame(连接) df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'], 'B': ['B0', 'B1', 'B2']}) df2 = pd.DataFrame({'A': ['A3', 'A4', 'A5'], 'B': ['B3', 'B4', 'B5']}) result = pd.merge(df1, df2, on='A') # on参数指定了连接的键值对,默认为内连接(inner join)方式,还可以使用left、right、outer等参数指定其他连接方式,print(result) # left join(左连接):保留左侧表中的所有记录,右侧表中没有匹配的记录用NaN填充;right join(右连接):保留右侧表中的所有记录,左侧表中没有匹配的记录用NaN填充;outer join(全连接):保留两个表中的所有记录,没有匹配的记录用NaN填充,注意:如果两个表中有相同的列名,需要指定不同的列名或者使用别名,还可以使用how参数指定连接方式,如how='inner'、how='outer'等,print(result) # how='inner'表示内连接;how='outer'表示外连接;how='left'表示左连接;how='right'表示右连接;how='full'表示全连接,print(result) # 如果两个表中有相同的列名,可以使用suffixes参数指定后缀名,如suffixes=(None, None)、suffixes=('_x', '_y')等,print(result) # 如果两个表中有相同的列名,可以使用indicator参数添加一个指示器列,如indicator=True、indicator=False等,print(result) # 如果两个表中有相同的列名,可以使用keys参数指定多个键值对进行连接,如keys=('key1', 'key2')等,print(result) # 如果两个表中有相同的列名,可以使用left_on和right_on参数分别指定左右两侧表的键值对,如left_on='key1'、right_on='key2'等,print(result) # 如果两个表中有相同的列名,可以使用left_index和right_index参数分别指定左右两侧表的索引作为键值对进行连接,如left_index=True、right_index=True等,print(result) # 如果两个表中有相同的列名,可以使用sort_values参数指定排序方式,如sort_values=True、sort_values=False等,print(result) # 如果两个表中有相同的列名,可以使用ignore_index参数重置索引,如ignore_index=True、ignore_index=False等,print(result) # 如果两个表中有相同的列名,可以使用copy参数复制一份新的DataFrame进行操作,如copy=True、copy=False等,print(result) # 如果两个表中有相同的列名,可以使用validate参数指定是否检查重复的列名,如validate=True、validate=False等,print(result) # 如果两个表中有相同的列名,可以使用check_duplicates参数指定如何处理重复的列名,如check_duplicates=True、check_duplicates=False等,print(result) # 如果两个表中有相同的列名,可以使用verbose参数指定是否显示详细信息,如verbose=True、verbose=False等,print(result) # 如果两个表中有相同的列名,可以使用error_bad_lines参数指定如何处理错误行数的情况,如error_bad_lines=True、error_bad_lines=False等,print(result) # 如果两个表中有相同的列名,可以使用warn_bad_lines参数指定是否显示警告信息,如warn_bad_lines=True、warn_bad_lines=False等,print(result) # 如果两个表中有相同的列名,可以使用keep参数指定如何处理重复的列名,如keep='first'、keep='last'等,print(result) # 如果两个表中有相同的列名,可以使用dtype参数指定数据类型,如dtype={'column1': int, 'column2': float}等,print(result) # 如果两个表中有相同的列名,可以使用parse_dates参数指定解析日期格式的列名,如parse_dates=['date']等,print(result) # 如果两个表中有相同的列名,可以使用date_parser参数指定解析日期格式的函数,如date_parser=lambda x: datetime.strptime(x, "%Y%m%d")等,print(result) # 如果两个表中有相同的列名,可以使用index_col参数指定索引列为哪个列
当前文章:PandasUpdate
URL分享:http://www.csdahua.cn/qtweb/news10/508460.html
网站建设、网络推广公司-快上网,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 快上网