如下所示
名字 |
描述 |
character varying(n), varchar(n) |
變長,有長度限制 |
character(n), char(n) |
定長,不足補空白 |
text |
變長,無長度限制 |
簡單來說,varchar的長度可變,而char的長度不可變,對于postgresql數據庫來說varchar和char的區別僅僅在于前者是變長,而后者是定長,最大長度都是10485760(1GB)
varchar不指定長度,可以存儲最大長度(1GB)的字符串,而char不指定長度,默認則為1,這點需要注意。
text類型:在postgresql數據庫里邊,text和varchar幾乎無性能差別,區別僅在于存儲結構的不同
對于char的使用,應該在確定字符串長度的情況下使用,否則應該選擇varchar或者text
官方解讀
SQL定義了兩種基本的字符類型:character varying(n) 和character(n),這里的n 是一個正整數。兩種類型都可以存儲最多n個字符的字符串(沒有字節)。試圖存儲更長的字符串到這些類型的字段里會產生一個錯誤,除非超出長度的字符都是空白,這種情況下該字符串將被截斷為最大長度。這個看上去有點怪異的例外是SQL標準要求的。如果要存儲的字符串比聲明的長度短,類型為character的數值將會用空白填滿;而類型為character varying的數值將只是存儲短些的字符串。
如果我們明確地把一個數值轉換成character varying(n) 或character(n),那么超長的數值將被截斷成n 個字符,且不會拋出錯誤。這也是SQL標準的要求。
varchar(n)和char(n) 分別是character varying(n) 和character(n)的別名,沒有聲明長度的character等于character(1);如果不帶長度說明詞使用character varying,那么該類型接受任何長度的字符串。后者是PostgreSQL的擴展。
另外,PostgreSQL提供text類型,它可以存儲任何長度的字符串。盡管類型text不是SQL 標準,但是許多其它SQL數據庫系統也有它。
character類型的數值物理上都用空白填充到指定的長度n,并且以這種方式存儲和顯示。不過,填充的空白是無語意的。在比較兩個character 值的時候,填充的空白都不會被關注,在轉換成其它字符串類型的時候, character值里面的空白會被刪除。請注意,在character varying和text數值里,結尾的空白是有語意的。并且當使用模式匹配時,如LIKE,使用正則表達式。
一個簡短的字符串(最多126個字節)的存儲要求是1個字節加上實際的字符串,其中包括空格填充的character。更長的字符串有4個字節的開銷,而不是1。長的字符串將會自動被系統壓縮,因此在磁盤上的物理需求可能會更少些。更長的數值也會存儲在后臺表里面,這樣它們就不會干擾對短字段值的快速訪問。不管怎樣,允許存儲的最長字符串大概是1GB 。允許在數據類型聲明中出現的n 的最大值比這還小。修改這個行為沒有什么意義,因為在多字節編碼下字符和字節的數目可能差別很大。如果你想存儲沒有特定上限的長字符串,那么使用text 或沒有長度聲明的character varying,而不要選擇一個任意長度限制。
提示: 這三種類型之間沒有性能差別,除了當使用填充空白類型時的增加存儲空間,和當存儲長度約束的列時一些檢查存入時長度的額外的CPU周期。雖然在某些其它的數據庫系統里,character(n) 有一定的性能優勢,但在PostgreSQL里沒有。事實上,character(n)通常是這三個中最慢的,因為額外存儲成本。在大多數情況下,應該使用text 或character varying。
使用PostGreSQL數據庫進行text錄入和text檢索
中文分詞
ChineseParse.cs
using System;
using System.Collections;
using System.IO;
using System.Text.RegularExpressions;
namespace FullTextSearch.Common
{
/// <summary>
/// 中文分詞器。
/// </summary>
public class ChineseParse
{
private static readonly ChineseWordsHashCountSet _countTable;
static ChineseParse()
{
_countTable = new ChineseWordsHashCountSet();
InitFromFile(“ChineseDictionary.txt”);
}
/// <summary>
/// 從指定的文件中初始化中文詞語字典和字符串次數字典。
/// </summary>
/// <param name=”fileName”>文件名</param>
private static void InitFromFile(string fileName)
{
string path = Path.Combine(Directory.GetCurrentDirectory(), @”....Common”, fileName);
if (File.Exists(path))
{
using (StreamReader sr = File.OpenText(path))
{
string s = “”;
while ((s = sr.ReadLine()) != null)
{
ChineseWordUnit _tempUnit = InitUnit(s);
_countTable.InsertWord(_tempUnit.Word);
}
}
}
}
/// <summary>
/// 將一個字符串解析為ChineseWordUnit。
/// </summary>
/// <param name=”s”>字符串</param>
/// <returns>解析得到的ChineseWordUnit</returns>
/// 4
/// 0
private static ChineseWordUnit InitUnit(string s)
{
var reg = new Regex(@”s+”);
string[] temp = reg.Split(s);
//if (temp.Length != 2)
//{
// throw new Exception(“字符串解析錯誤:” + s);
//}
if (temp.Length != 1)
{
throw new Exception(“字符串解析錯誤:” + s);
}
return new ChineseWordUnit(temp[0], Int32.Parse(“1″));
}
/// <summary>
/// 分析輸入的字符串,將其切割成一個個的詞語。
/// </summary>
/// <param name=”s”>待切割的字符串</param>
/// <returns>所切割得到的中文詞語數組</returns>
public static string[] ParseChinese(string s)
{
int _length = s.Length;
string _temp = String.Empty;
var _words = new ArrayList();
for (int i = 0; i < s.Length;)
{
_temp = s.Substring(i, 1);
if (_countTable.GetCount(_temp) > 1)
{
int j = 2;
for (; i + j < s.Length + 1 && _countTable.GetCount(s.Substring(i, j)) > 0; j++)
{
}
_temp = s.Substring(i, j – 1);
i = i + j – 2;
}
i++;
_words.Add(_temp);
}
var _tempStringArray = new string[_words.Count];
_words.CopyTo(_tempStringArray);
return _tempStringArray;
}
}
}
網友評論