技術共有

C ハートリゾルブのSTLで知らない秘密(文字列)

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

目次

1. なぜ文字列クラスを学ぶのですか?

1.1 C言語の文字列

2. 標準ライブラリの文字列クラス

2.1 文字列クラス

2.2 stringクラスの共通インターフェースの説明

1. 文字列クラスオブジェクトの一般的な構造

2. 文字列クラスオブジェクトの操作

3. vs および g++ での文字列構造の説明

3. 文字列クラスのシミュレーション実装

3.2 浅いコピー

3.3 ディープコピー

3.4 コピーオンライト

3.5 文字列クラスのシミュレーション実装


1. なぜ勉強するのか親切?

1.1℃言語の文字列

この言語では、文字列は次で始まります。 '0' 操作を容易にするために、最後に文字を集めて、 標準ライブラリにはいくつかの機能が用意されています str 一連のライブラリ関数ですが、これらのライブラリ関数は文字列から分離されており、OOP に準拠していません。 基礎となるスペースはユーザーが管理する必要があるため、注意しないと範囲外にアクセスしてしまう可能性もあります。

2. 標準ライブラリにある親切

2.1 文字列親切

https://cplusplus.com/reference/string/string/?kw=string

  • 1. String は文字列を表すクラスです
  • 2. このようなオブジェクトのサポートは、標準の文字列クラスによって提供されます。そのインターフェイスは標準の文字コンテナーのインターフェイスに似ていますが、特殊な機能が追加されています。
  • 半角文字列の設計上の特徴。
  • 3. 文字列クラスが使用している文字(つまり、文字タイプとしてデフォルトを使用します。文字特性およびアロケータのタイプ(テンプレートの詳細
  • 情報をご覧ください基本文字列)
  • 4. 文字列クラスは基本文字列を使用するテンプレート クラスのインスタンス文字インスタンス化する基本文字列テンプレート クラスと使用方法文字特性
  • そしてアロケータとして基本文字列のデフォルトパラメータは、(テンプレートの詳細については、を参照してください。基本文字列)
  • 5. このクラスは、使用されるエンコーディングとは独立してバイトを処理することに注意してください。:マルチバイト文字または可変長文字を処理するために使用される場合(のようにUTF-8)シーケンス、これ
  • クラスのメンバー全員(長さやサイズなど)とその反復子はバイト単位になります(実際のエンコードされた文字の代わりに)動作します。
要約:
  • 1. 文字列文字列を表す文字列クラスです
  • 2. このクラスのインターフェイスは基本的に通常のコンテナのインターフェイスと同じですが、操作のために特別に使用される追加がいくつかあります。日常的な操作。
  • 3. 文字列ボンネットの下では実際には次のようになります。基本文字列テンプレートクラスのエイリアス、typedef 基本文字列<char, char_traits, allocator>
  • 弦;
  • 4. マルチバイトまたは可変長の文字シーケンスは操作できません。
存在する使用クラスには、次のものが含まれている必要があります#含むヘッダファイルだけでなく、名前空間stdを使用する;

2.2 文字列クラスの共通インターフェースの説明

1. クラスオブジェクトの一般的な構造

  1. void Teststring()
  2. {
  3. string s1; // 构造空的string类对象s1
  4. string s2("hello bit"); // 用C格式字符串构造string类对象s2
  5. string s3(s2); // 拷贝构造s3
  6. }

2. クラスオブジェクトの操作

追伸:

  • 1.size() と長さ()メソッドの基本的な実装原理はまったく同じで、次のようになります。サイズ()その理由は、他のコンテナのインターフェイスとの一貫性を保つためであり、通常は size() が使用されます。
  • 2.clear() は変換するだけですその中の有効な文字はクリアされ、その下のスペースのサイズは変更されません。
  • 3.リサイズ(size_t n)と サイズを変更します(size_t n, char c)これらはすべて、文字列内の有効な文字数を次のように変更します。違いは、文字数が増加した場合:size(n)使用0余分な要素のスペースを埋めるには、サイズを変更します(size_t n, char c)キャラクター付きc余分な要素のスペースを埋めるために。注: サイズ変更要素の数を変更する場合、要素の数が増加すると、基礎となる容量のサイズが変更される可能性があります。要素の数が減っても、基礎となるスペースの合計サイズは変更されません。
  • 4. 予約(size_t res_arg=0):のためにスペースを予約し、有効な要素の数を変更しないでください。予約するパラメータが以下です
  • 下のスペースの合計サイズが予約者容量サイズは変更されません。

3.対そしてg++構造の説明

  次の構造は 32 にあります プラットフォームの下を確認し、 32 ビットプラットフォームの下のポインタが占有します 4バイト。
vsダウン 文字列の構造
合計を占める文字列 28 バイト 、内部構造は少し複雑ですが、まず 定義するために使用される共用体があります 文字列内の文字列の記憶領域:
  1. 文字列の長さが 16 未満の場合、内部の固定文字配列を使用して格納されます。
  2. 文字列長以上の場合16ヒープからスペースを空けるとき 
  1. union _Bxty
  2. { // storage for small buffer or pointer to larger one
  3. value_type _Buf[_BUF_SIZE];
  4. pointer _Ptr;
  5. char _Alias[_BUF_SIZE]; // to permit aliasing
  6. } _Bx;
ほとんどの場合、この設計は理にかなっています。 16 、それ オブジェクトが作成されると、すでに 16 個のオブジェクトが存在します。 文字配列用の固定スペース、ヒープ経由で作成する必要がなく、効率が高い。
2番目:そして 1つ サイズ フィールドには文字列の長さが保持されます。 サイズ このフィールドには、ヒープに割り当てられたスペースの合計容量が格納されます。
最後に:それでも ポインタがあります 何か他のことをしてください。
したがって、合計は16+4+4+4=28バイト。
g++ 構造
G++ 下、 これはコピーオンライトによって実装されます。 オブジェクトの総数 4 バイトの場合、将来的にヒープ領域の一部を指すポインターのみが含まれており、次のフィールドが含まれます。
  1. 合計スペースサイズ
  2. 文字列の有効長
  3. 参照カウント
  4. 文字列を格納するために使用されるヒープ領域へのポインタ。
  1. struct _Rep_base
  2. {
  3. size_type _M_length;
  4. size_type _M_capacity;
  5. _Atomic_word _M_refcount;
  6. };

3. 文字列クラスのモック実装

PS: 文字列クラスを自分で実装する場合は、浅いコピーの問題に注意する必要があります。

その上 現時点では、クラスはコピー コンストラクターと代入演算子のオーバーロードを明示的に定義していません。使用する場合、コンパイラーはデフォルトのものを合成します。 s1 構造 作る s2 を指定すると、コンパイラはデフォルトのコピー コンストラクターを呼び出します。最後の問題は、 s1 s2 同じメモリ空間、解放時に同じブロックを共有する スペースが複数回解放されるとプログラムがクラッシュする , このコピー方法は浅いコピーと呼ばれます。

 3.2 浅いコピー

浅いコピー: ビット コピーとも呼ばれ、コンパイラはオブジェクト内の値をコピーするだけです。 。もし オブジェクト内のリソースを管理する そして最終的にはそうなります 複数のオブジェクトが合計される 同じリソースを共有している場合、オブジェクトが破棄されると、そのリソースは解放されます。このとき、他のオブジェクトはリソースが解放されたことを認識せず、リソースが解放されたと認識します。 有効なままなので、リソースにアクセスし続けるとアクセス違反が発生します。

3.3 ディープコピー

クラスにリソース管理が含まれる場合、そのコピー コンストラクター、代入演算子のオーバーロード、およびデストラクターを明示的に指定する必要があります。通常、ディープコピーモードで提供されます。

3.4 コピーオンライト

コピーオンライトは一種の先延ばしであり、浅いコピーに基づいて参照カウントを追加することによって実装されます。
参照カウント: リソース ユーザーの数を記録するために使用されます。構築時、リソースの数は次のように与えられます。 1 追加のオブジェクトがリソースを使用するたびに、カウントは 1 ずつ増加します。 、オブジェクトが破壊されると、最初にカウントが減ります。 1 、カウントが次の場合は、リソースを解放する必要があるかどうかを確認します。 1 、オブジェクトがリソースの最後のユーザーであり、リソースを解放することを示します。それ以外の場合は、そのリソースを使用している他のオブジェクトがあるため解放できません。

3.5 弦クラスのモック実装

  1. //string.h
  2. #pragma once
  3. #include<iostream>
  4. #include<assert.h>
  5. using namespace std;
  6. namespace mystr {
  7. class string
  8. {
  9. public:
  10. //迭代器, 因为字符串底层内存连续, 所以可以简单的定义成指针
  11. typedef char* iterator;
  12. typedef const char* const_iterator;
  13. //配合范围for循环
  14. iterator begin() { return _str; }
  15. iterator end() { return _str + _size; }
  16. //兼容常量字符串
  17. const_iterator begin() const { return _str; }
  18. const_iterator end() const { return _str + _size; }
  19. //string();
  20. string(const char* str = "");
  21. string(const string& s);
  22. string& operator=(string temp) { swap(temp); return *this; }
  23. ~string() { delete[] _str; _str = nullptr; _size = _capacity = 0; }
  24. //返回C语言字符数组
  25. const char* c_str() const { return _str; }
  26. size_t size() const { return _size; }
  27. char& operator[](size_t pos) { assert(pos < _size); return _str[pos]; }
  28. const char& operator[](size_t pos) const{ assert(pos < _size); return _str[pos]; }
  29. //重置大小
  30. void reserve(size_t n);
  31. void push_back(char ch) { insert(_size, ch); }
  32. void append(const char* str) { insert(_size, str); }
  33. string& operator+=(char ch) { insert(_size, ch); return *this; }
  34. string& operator+=(const char* str) { insert(_size, str); return *this; };
  35. void insert(size_t pos, char ch);
  36. void insert(size_t pos, const char* str);
  37. void erase(size_t pos = 0, size_t len = npos);
  38. size_t find(char ch, size_t pos = 0) {
  39. for (size_t i = pos; i < _size; i++) if (_str[i] == ch) return i;
  40. return npos;
  41. }
  42. size_t find(const char* str, size_t pos = 0) { return strstr(_str + pos, str) - _str; }
  43. void swap(string& s);
  44. string substr(size_t pos = 0, size_t len = npos);
  45. bool operator<(const string& s) const { return strcmp(_str, s._str) < 0; }
  46. bool operator>(const string& s) const { return !(*this <= s); }
  47. bool operator<=(const string& s) const { return !(*this > s); }
  48. bool operator>=(const string& s) const { return !(*this < s); }
  49. bool operator==(const string& s) const {return strcmp(_str, s._str) == 0; }
  50. bool operator!=(const string& s) const { return !(*this == s); }
  51. void clear() { _str[0] = '0'; _size = 0; }
  52. private:
  53. char* _str;
  54. size_t _size;
  55. size_t _capacity;
  56. //一般static变量的定义要放在类外, 整型是特例
  57. const static size_t npos = -1;
  58. };
  59. void swap(string& s1, string& s2);
  60. istream& operator>>(istream& ci, string& s);
  61. ostream& operator<<(ostream& co, string& s);
  62. }
  1. //string.cpp
  2. #include "string.h"
  3. namespace mystr {
  4. string::string(const char* str):_size(strlen(str)) {
  5. _str = new char[_size + 1];
  6. _capacity = _size;
  7. strcpy(_str, str);
  8. }
  9. string::string(const string& s) {
  10. string temp(s._str);
  11. swap(temp);
  12. }
  13. void string::reserve(size_t n) {
  14. if (_capacity < n) {
  15. char* temp = new char[n + 1];
  16. strcpy(temp, _str);
  17. delete[] _str;
  18. _str = temp;
  19. _capacity = n;
  20. }
  21. }
  22. void string::insert(size_t pos, char ch) {
  23. assert(pos <= _size);
  24. if (_size == _capacity) {
  25. size_t newcapacity = _capacity == 0 ? 4 : 2 * _capacity;
  26. reserve(newcapacity);
  27. }
  28. size_t end = _size + 1;
  29. while (end > pos) _str[end] = _str[end - 1], --end;
  30. _str[pos] = ch;
  31. _size++;
  32. }
  33. void string::insert(size_t pos, const char* str) {
  34. assert(pos <= _size);
  35. size_t len = strlen(str);
  36. if (_size + len > _capacity) reserve(_size + len);
  37. size_t end = _size + len;
  38. while (end > pos + len - 1) _str[end] = _str[end - len], --end;
  39. memcpy(_str + pos, str, len);
  40. _size += len;
  41. }
  42. void string::erase(size_t pos, size_t len) {
  43. if (len > _size - pos) _str[pos] = '0', _size = pos;
  44. else strcpy(_str + pos, _str + pos + len), _size -= len;
  45. }
  46. void string::swap(string& s) {
  47. char* temp = _str;
  48. _str = s._str;
  49. s._str = temp;
  50. std::swap(_size, s._size);
  51. }
  52. string string::substr(size_t pos, size_t len) {
  53. if (len > _size - pos) { string sub(_str + pos); return sub; }
  54. else {
  55. string sub;
  56. sub.reserve(len);
  57. for (size_t i = pos; i < pos + len; i++) sub += _str[i];
  58. return sub;
  59. }
  60. }
  61. void swap(string& s1, string& s2){ s1.swap(s2); }
  62. istream& operator>>(istream& ci, string& s) {
  63. s.clear();
  64. char ch = ci.get();
  65. while (ch != ' ' && ch != 'n') s += ch, ch = ci.get();
  66. return ci;
  67. }
  68. ostream& operator<<(ostream& co, string& s) {
  69. for (size_t i = 0; i < s.size(); i++) co << s[i];
  70. return co;
  71. }
  72. }
  1. //test.cpp
  2. #include "string.h"
  3. namespace mystr {
  4. void test1() {
  5. string s1 = "1111";
  6. string s2 = s1;
  7. cout << s1.c_str() << endl << s2.c_str() << endl;
  8. cout << s1.size() << endl;
  9. }
  10. void test2() {
  11. string s1 = "111";
  12. string s2 = "222222";
  13. s1 = s2;
  14. cout << s1.c_str() << endl;
  15. }
  16. void test3() {
  17. string s1 = "111222333";
  18. for (auto& i : s1) i += 3;
  19. cout << s1.c_str() << endl;
  20. const string s2 = "111222333";
  21. for (auto& i : s2) cout << i;
  22. cout << endl;
  23. for (size_t i = 0; i < s1.size(); i++) cout << (s1[i] += 2);
  24. cout << endl;
  25. }
  26. void test4() {
  27. string s1 = "sadfsf";
  28. s1.insert(2, '-');
  29. cout << s1.c_str() << endl;
  30. s1.insert(0, '-');
  31. cout << s1.c_str() << endl;
  32. s1.insert(2, "11111");
  33. cout << s1.c_str() << endl;
  34. s1.insert(0, "222222");
  35. cout << s1.c_str() << endl;
  36. }
  37. void test5() {
  38. string s1 = "asgfidsgf";
  39. s1.push_back('-');
  40. cout << s1.c_str() << endl;
  41. s1.append("=====");
  42. cout << s1.c_str() << endl;
  43. s1 += 'w';
  44. cout << s1.c_str() << endl;
  45. s1 += "0000";
  46. cout << s1.c_str() << endl;
  47. s1.erase(10);
  48. cout << s1.c_str() << endl;
  49. s1.erase(7, 100);
  50. cout << s1.c_str() << endl;
  51. s1.erase(3, 2);
  52. cout << s1.c_str() << endl;
  53. s1.erase(0);
  54. cout << s1.c_str() << endl;
  55. }
  56. void test6() {
  57. string s1 = "ksjfghks";
  58. cout << s1.find('h', 2) << endl;
  59. cout << s1.find("ghk", 2) << endl;
  60. cout << s1.find("ghksgs", 2) << endl;
  61. }
  62. void test7(){
  63. string s1 = "sggsdsdf";
  64. string s2 = "sdgfrgdb";
  65. cout << s1.c_str() << endl;
  66. cout << s2.c_str() << endl;
  67. swap(s1, s2);
  68. cout << s1.c_str() << endl;
  69. cout << s2.c_str() << endl;
  70. s1.swap(s2);
  71. cout << s1.c_str() << endl;
  72. cout << s2.c_str() << endl;
  73. string s3 = s1.substr(2, 5);
  74. cout << s3.c_str() << endl;
  75. }
  76. void test8() {
  77. string s1, s2;
  78. cin >> s1 >> s2;
  79. cout << s1 << endl << s2 << endl;
  80. }
  81. }
  82. int main() {
  83. mystr::test8();
  84. return 0;
  85. }