Python 멋진 라이브러리 투어-타사 라이브러리 Pandas(011)


# 25、pandas.HDFStore.get函数
HDFStore.get(key)
Retrieve pandas object stored in file.
 
Parameters:
key
str
Returns:
object
Same type as object stored in file.

25-2. 매개변수

25-2-1、키(해야 하다)：검색할 데이터의 HDF5 파일 내 위치나 이름을 지정하는 문자열입니다. 이 키는 일반적으로 데이터를 HDF5 파일에 저장할 때 사용한 이름이나 경로에 해당합니다.

25-3. 기능

HDF5 파일에서 저장된 데이터를 검색(또는 가져오기)하는 데 사용됩니다.

25-4.반환값

일반적으로 이 함수는 DataFrame, Series 또는 기타 가능한 pandas 컨테이너와 같이 키와 연결된 pandas 개체를 반환합니다.

구체적으로 반환 값은 다음과 같습니다.

25-4-1、데이터 프레임 : HDF5 파일에 저장된 키와 연관된 데이터가 테이블 또는 테이블과 유사한 데이터 구조인 경우 get 메소드는 DataFrame 객체를 반환합니다. DataFrame은 구조화된 데이터를 저장하고 조작하기 위한 Pandas의 기본 데이터 구조로, 행과 열을 포함하는 표 형식으로 데이터를 저장합니다.

25-4-2、시리즈: 어떤 경우에는 시계열 데이터나 단일 열의 데이터와 같이 저장된 데이터가 1차원인 경우 get 메소드가 Series 객체를 반환할 수 있습니다. Series는 1차원 데이터를 저장하기 위해 pandas에서 사용됩니다. 인덱스 배열 포함) 데이터 구조.

25-4-3. 기타 팬더 객체 : 흔하지는 않지만 HDF5 파일은 이론적으로 패널과 같은 다른 유형의 팬더 객체를 저장할 수 있습니다(참고: 팬더 버전 0.25.0부터 패널은 더 이상 사용되지 않으며 팬더 라이브러리에서 제거되었습니다). 그러나 팬더가 진화함에 따라 이러한 상황은 점점 더 드물어졌습니다.

25-4-4, 없음 또는 기본값 : 지정된 키가 HDF5 파일에 존재하지 않고 get 메서드가 두 번째 매개변수로 기본값을 제공하지 않으면 KeyError가 발생할 수 있습니다. 그러나 기본값이 제공되는 경우(get 메서드는 일반적으로 HDFStore에서 기본값 매개변수를 직접 지원하지 않기 때문에 이는 get 메서드의 표준 동작은 아니지만) DataFrame의 경우일 수 있습니다..얻다 메서드 난독화), 해당 기본값을 반환합니다. 그러나 HDFStore의 컨텍스트에서는 Try-Exception 블록을 사용하여 KeyError를 포착하고 필요한 경우 사례를 처리하는 것이 더 일반적입니다.

25-5.

없음

25-6.

25-6-1. 데이터 준비

无

25-6-2. 코드 예시


# 25、pandas.HDFStore.get函数
import pandas as pd
# 创建一个示例的DataFrame
data = pd.DataFrame({
    'A': [1, 2, 3, 4],
    'B': ['foo', 'bar', 'foo', 'bar'],
    'C': [0.1, 0.2, 0.3, 0.4]
})
# 将数据保存到HDF5文件中
filename = 'example.h5'
key = 'data'
data.to_hdf(filename, key=key, format='table', mode='w')
# 从HDF5文件中读取数据
with pd.HDFStore(filename, mode='r') as store:
    df_from_hdf = store.get(key)
# 打印读取的数据
print("Data read from HDF5:")
print(df_from_hdf)

25-6-3. 결과 출력


# 25、pandas.HDFStore.get函数
# Data read from HDF5:
#    A    B    C
# 0  1  foo  0.1
# 1  2  bar  0.2
# 2  3  foo  0.3
# 3  4  bar  0.4

26、pandas.HDFStore.선택기능

26-1.


# 26、pandas.HDFStore.select函数
HDFStore.select(key, where=None, start=None, stop=None, columns=None, iterator=False, chunksize=None, auto_close=False)
Retrieve pandas object stored in file, optionally based on where criteria.
 
Warning
 
Pandas uses PyTables for reading and writing HDF5 files, which allows serializing object-dtype data with pickle when using the “fixed” format. Loading pickled data received from untrusted sources can be unsafe.
 
See: https://docs.python.org/3/library/pickle.html for more.
 
Parameters:
key
str
Object being retrieved from file.
 
where
list or None
List of Term (or convertible) objects, optional.
 
start
int or None
Row number to start selection.
 
stop
int, default None
Row number to stop selection.
 
columns
list or None
A list of columns that if not None, will limit the return columns.
 
iterator
bool or False
Returns an iterator.
 
chunksize
int or None
Number or rows to include in iteration, return an iterator.
 
auto_close
bool or False
Should automatically close the store when finished.
 
Returns:
object
Retrieved object from file.

26-2.

26-2-1、키(해야 하다)：검색할 HDF5 파일의 키(또는 경로). 이는 일반적으로 HDF5 파일에 데이터를 저장할 때 지정된 이름 또는 경로입니다.

26-2-2、어디서(선택사항, 기본값은 없음)： 데이터를 필터링하는 데 사용되는 조건식입니다. 문자열인 경우 DataFrame에서 .query() 메서드를 사용할 때 사용된 것과 유사한 유효한 Pandas 쿼리 문자열이어야 합니다. 호출 가능한 개체(예: 함수)인 경우 DataFrame을 허용해야 합니다. 입력으로 선택해야 하는 행을 나타내는 부울 시퀀스를 반환합니다.

26-2-3、시작/정지(선택사항, 기본값은 없음)：검색할 행의 시작/종료 인덱스입니다(0부터 시작). 시작과 중지를 지정하면 이 두 인덱스 사이의 행만 검색됩니다(시작은 포함하지만 중지는 포함하지 않음).

26-2-4、열(선택사항, 기본값은 없음)：검색할 열 이름 목록 또는 단일 열 이름입니다. 이 매개변수를 지정하면 해당 열에 대한 데이터만 검색됩니다.

26-2-5、반복자(선택사항, 기본값은 False)：True인 경우 전체 데이터 세트를 한 번에 메모리에 로드하는 대신 데이터 청크를 하나씩 생성하는 반복자를 반환합니다. 이는 대규모 데이터 세트를 처리하는 데 유용합니다.

26-2-6、청크 크기(선택사항, 기본값은 없음)：iterator=True인 경우 이 매개변수는 각 블록의 행 수를 지정합니다. 이를 통해 메모리 사용량을 제어하고 대규모 데이터 세트를 처리할 때 성능을 향상시킬 수 있습니다.

26-2-7、자동_닫기(선택사항, 기본값은 False)： True인 경우 반복자가 소진되거나 예외가 발생하면 저장소가 자동으로 닫히므로 오류가 발생하더라도 파일이 올바르게 닫히는 데 도움이 됩니다. 그러나 반복자가 소진된 후에도 HDFStore 개체를 계속 사용하려는 경우 이 매개 변수를 False로 설정해야 합니다.

26-3.기능

HDF5 파일의 특정 키에 저장된 Pandas 객체(예: DataFrame 또는 Series)를 검색하고 사용자가 일련의 매개변수를 기반으로 검색된 데이터를 필터링하거나 제어할 수 있도록 합니다.

26-4.반환값

반환 값은 HDF5 파일에 저장된 키와 관련된 데이터 유형 및 쿼리 조건(있는 경우)에 따라 달라집니다. 일반적으로 반환 값은 다음과 같은 pandas 객체입니다.

26-4-1、데이터 프레임: 검색된 데이터가 표 형식인 경우 DataFrame 개체가 반환됩니다.

26-4-2、시리즈: 검색된 데이터가 1차원인 경우(예: 단일 열에 대한 데이터) Series 개체가 반환될 수 있습니다. 그러나 이는 일반적으로 단일 열이 columns 매개 변수로 명시적으로 지정된 경우에 발생합니다.

26-4-3. 기타 팬더 객체: 이론적으로는 다른 팬더 컨테이너일 수도 있지만 HDF5 파일의 맥락에서 가장 일반적인 컨테이너는 DataFrame 및 Series입니다.

26-5.

없음

26-6.

26-6-1. 데이터 준비

无

26-6-2. 코드 예시


# 26、pandas.HDFStore.select函数
import pandas as pd
import numpy as np
# 创建一个示例DataFrame
np.random.seed(0)  # 设置随机种子以确保结果可重复
data = pd.DataFrame({
    'A': np.random.randn(100),
    'B': np.random.randn(100),
    'C': np.random.randn(100),
    'D': np.random.randint(0, 2, 100)
})
# 将DataFrame保存到HDF5文件中
with pd.HDFStore('example.h5') as store:
    store.put('data', data, format='table')
# 从HDF5文件中检索数据的示例
with pd.HDFStore('example.h5') as store:
    # 选择所有数据
    print("nAll data:")
    all_data = store.select('data')
    print(all_data.head())  # 只打印前几行以节省空间
    # 选择特定的列
    print("nSpecific columns (A, B):")
    specific_columns = store.select('data', columns=['A', 'B'])
    print(specific_columns.head())
    # 选择部分数据行（注意：HDF5的索引可能不是从0开始的，但这里假设它是）
    print("nPartial data (rows 10 to 19):")
    partial_data = store.select('data', start=10, stop=20)
    print(partial_data)
    # 使用chunksize来逐块读取数据
    print("nData read in chunks:")
    chunks = store.select('data', chunksize=10)
    for i, chunk in enumerate(chunks):
        print(f"Chunk {i + 1}:")
        print(chunk.head())  # 只打印每个块的前几行

26-6-3. 결과 출력


# 26、pandas.HDFStore.select函数
# All data:
#           A         B         C  D
# 0  1.764052  1.883151 -0.369182  0
# 1  0.400157 -1.347759 -0.239379  0
# 2  0.978738 -1.270485  1.099660  1
# 3  2.240893  0.969397  0.655264  1
# 4  1.867558 -1.173123  0.640132  0
# 
# Specific columns (A, B):
#           A         B
# 0  1.764052  1.883151
# 1  0.400157 -1.347759
# 2  0.978738 -1.270485
# 3  2.240893  0.969397
# 4  1.867558 -1.173123
# 
# Partial data (rows 10 to 19):
#            A         B         C  D
# 10  0.144044  1.867559  0.910179  0
# 11  1.454274  0.906045  0.317218  0
# 12  0.761038 -0.861226  0.786328  1
# 13  0.121675  1.910065 -0.466419  0
# 14  0.443863 -0.268003 -0.944446  0
# 15  0.333674  0.802456 -0.410050  0
# 16  1.494079  0.947252 -0.017020  1
# 17 -0.205158 -0.155010  0.379152  1
# 18  0.313068  0.614079  2.259309  0
# 19 -0.854096  0.922207 -0.042257  0
# 
# Data read in chunks:
# Chunk 1:
#           A         B         C  D
# 0  1.764052  1.883151 -0.369182  0
# 1  0.400157 -1.347759 -0.239379  0
# 2  0.978738 -1.270485  1.099660  1
# 3  2.240893  0.969397  0.655264  1
# 4  1.867558 -1.173123  0.640132  0
# Chunk 2:
#            A         B         C  D
# 10  0.144044  1.867559  0.910179  0
# 11  1.454274  0.906045  0.317218  0
# 12  0.761038 -0.861226  0.786328  1
# 13  0.121675  1.910065 -0.466419  0
# 14  0.443863 -0.268003 -0.944446  0
# Chunk 3:
#            A         B         C  D
# 20 -2.552990  0.376426 -0.955945  0
# 21  0.653619 -1.099401 -0.345982  1
# 22  0.864436  0.298238 -0.463596  0
# 23 -0.742165  1.326386  0.481481  0
# 24  2.269755 -0.694568 -1.540797  1
# Chunk 4:
#            A         B         C  D
# 30  0.154947 -0.769916 -1.424061  1
# 31  0.378163  0.539249 -0.493320  0
# 32 -0.887786 -0.674333 -0.542861  0
# 33 -1.980796  0.031831  0.416050  1
# 34 -0.347912 -0.635846 -1.156182  1
# Chunk 5:
#            A         B         C  D
# 40 -1.048553 -1.491258 -0.637437  0
# 41 -1.420018  0.439392 -0.397272  1
# 42 -1.706270  0.166673 -0.132881  0
# 43  1.950775  0.635031 -0.297791  0
# 44 -0.509652  2.383145 -0.309013  0
# Chunk 6:
#            A         B         C  D
# 50 -0.895467 -0.068242  0.521065  1
# 51  0.386902  1.713343 -0.575788  1
# 52 -0.510805 -0.744755  0.141953  0
# 53 -1.180632 -0.826439 -0.319328  0
# 54 -0.028182 -0.098453  0.691539  1
# Chunk 7:
#            A         B         C  D
# 60 -0.672460 -0.498032 -1.188859  1
# 61 -0.359553  1.929532 -0.506816  1
# 62 -0.813146  0.949421 -0.596314  0
# 63 -1.726283  0.087551 -0.052567  0
# 64  0.177426 -1.225436 -1.936280  0
# Chunk 8:
#            A         B         C  D
# 70  0.729091  0.920859  0.399046  0
# 71  0.128983  0.318728 -2.772593  1
# 72  1.139401  0.856831  1.955912  0
# 73 -1.234826 -0.651026  0.390093  1
# 74  0.402342 -1.034243 -0.652409  1
# Chunk 9:
#            A         B         C  D
# 80 -1.165150 -0.353994 -0.110541  0
# 81  0.900826 -1.374951  1.020173  0
# 82  0.465662 -0.643618 -0.692050  1
# 83 -1.536244 -2.223403  1.536377  0
# 84  1.488252  0.625231  0.286344  0
# Chunk 10:
#            A         B         C  D
# 90 -0.403177 -1.292857 -0.628088  1
# 91  1.222445  0.267051 -0.481027  1
# 92  0.208275 -0.039283  2.303917  0
# 93  0.976639 -1.168093 -1.060016  1
# 94  0.356366  0.523277 -0.135950  0

27、pandas.HDFStore.info기능

27-1.


# 27、pandas.HDFStore.info函数
HDFStore.info()
Print detailed information on the store.
 
Returns:
str

27-2. 매개변수

없음

27-3.기능

HDF5 파일에 저장된 데이터 세트(키 또는 노드라고도 함)에 대한 자세한 정보를 제공합니다.

27-4.반환값

직접적인 반환 값은 없지만(즉, 변수에 데이터가 반환되지 않음) 정보는 콘솔(또는 표준 출력)에 인쇄됩니다.

27-5.

없음

27-6.

27-6-1. 데이터 준비

无

27-6-2. 코드 예시


# 27、pandas.HDFStore.info函数
import pandas as pd
import numpy as np
# 创建一个包含随机数的数据帧
data = pd.DataFrame({
    'A': np.random.randn(100),
    'B': np.random.randn(100),
    'C': np.random.randn(100),
    'D': np.random.randint(0, 2, 100)
})
# 将数据写入HDF5文件
with pd.HDFStore('example.h5') as store:
    store.put('data', data, format='table')
# 使用HDFStore.info()函数获取HDF5文件的信息
with pd.HDFStore('example.h5') as store:
    # 打印存储的信息
    store.info()
    # 读取数据以确认
    all_data = store.select('data')
    print("nAll data (first 5 rows):")
    print(all_data.head())

27-6-3. 결과 출력


# 27、pandas.HDFStore.info函数
# All data (first 5 rows):
#           A         B         C  D
# 0 -1.186803 -0.983345  0.661022  1
# 1  0.549244 -0.429500 -0.022329  1
# 2  1.408989  0.779268  0.079574  1
# 3 -1.178696  0.918125  0.174332  0
# 4 -0.538677 -0.124535 -1.165208  1

기술나눔