文件格式

文件格式

電腦為了存儲信息而使用的對信息的特殊編碼
文件格式(或文件類型)是指電腦為了存儲信息而使用的對信息的特殊編碼方式,是用于識别内部儲存的資料。[1]比如有的儲存圖片,有的儲存程序,有的儲存文字信息。每一類信息,都可以一種或多種文件格式保存在電腦存儲中。每一種文件格式通常會有一種或多種擴展名可以用來識别,但也可能沒有擴展名。擴展名可以幫助應用程序識别的文件格式。對于硬盤機或任何電腦存儲來說,有效的信息隻有0和1兩種。所以電腦必須設計有相應的方式進行信息-位元的轉換。對于不同的信息有不同的存儲格式。
    中文名:文件格式 外文名:file format 别名: 别稱:文件類型 适用範圍:計算機

作用

有些 文件格式被設計用于存儲特殊的 數據,例如: 圖像文件中的 JPEG文件格式僅用于存儲 靜态的圖像,而 GIF既可以存儲靜态圖像,也可以存儲簡單動畫; Quicktime格式則可以存儲多種不同的媒體類型。文本類的文件有: text文件一般僅存儲簡單沒有格式的 ASCII或 Unicode的文本; HTML文件則可以存儲帶有格式的文本; PDF格式則可以存儲内容豐富的,圖文并茂的文本。

同一個 文件格式,用不同的 程序處理可能産生截然不同的 結果。例如Word 文件,用 Microsoft Word觀看的時候,可以看到文本的内容,而以無格式方式在 音樂播放 軟件中播放,産生的則是噪聲。一種 文件格式對某些 軟件會産生有意義的 結果,對另一些 軟件來看,就像是毫無用途的 數字垃圾。

類型

從程序的角度來看,文件是數據流,文件系統為每一種 文件格式規定了訪問的方法。例如:元數據。不同的 操作系統都習慣性的采用各自的方式解決這個問題,每種方式都有各自的優缺點。

當然,現代的 操作系統和 應用程序,一般都需要這裡所講述的方法處理不同的文件。

規範

許多 文件格式都有 公開的、不同程度 規範或者 建議的 格式。這些規範或者 建議描述了數據如何 編碼,如何排列。有時也規定了是否需要特定的電腦程序讀取或處理。有兩種情況下, 文件格式沒有公開。第一種情況是:開發者将 文件格式視作商業秘密不願公開;第二種情況是:開發者不願或花去很少的時間用于 規範文檔。

需要注意的是,使用不公開的 文件格式可能會帶來額外的成本。要了解這類 文件格式或者需要通過對獲得的文件進行 逆向工程,或者通過向開發者付費來獲得文件的格式。第二種方式中往往還需要與開發者簽訂不擴散協議。不論怎樣兩種方式都是費時,費錢的。

擴展名

用 擴展名識别 文件格式的方式最先在數字設備公司的 CP/M操作系統被采用。而後又被DOS和Windows 操作系統采用。 擴展名是指文件名中,最後一個點(.)号後的字母序列。例如,HTML文件通過.htm或. html 擴展名識别;GIF 圖形文件用. gif擴展名識别。在早期的 FAT文件系統中, 擴展名限制隻能是三個字符,因此盡管絕大多數的 操作系統已不再有此限制,許多 文件格式至今仍然采用三個字符作擴展名。因為沒有一個正式的 擴展名命名标準,所以,有些 文件格式可能會采用相同的擴展名,出現這樣的情況就會使 操作系統錯誤地識别文件格式,同時也給用戶造成困惑。

擴展名方式的一個特點是,更改 文件擴展名會導緻系統誤判 文件格式。例如,将文件名. html 簡單改名為文件名.txt會使系統誤将HTML文件識别為 純文本格式。盡管一些熟練的用戶可以利用這個特點,但普通用戶很容易在改名時發生錯誤,而使得文件變得無法使用。因此,現代的有些 操作系統管理程序,例如Windows Explorer加入了限制向用戶顯示 文件擴展名的功能。

特征簽名

一種廣泛應用在 UNIX及其派生的 操作系統上的方法是将一個特殊的數字存放在文件的特定位置裡。最初這個數字一般是文件開始處的2個 字節。一般是将任何可以獨一無二 字符序列都可以作為特征簽名。例如GIF 圖形件是将文件開始處的六個字節作為特征簽名的,它可以是 GIF87a或者GIF89a。但也有些文件很難通過這種方式識别,比如 HTML文件。

采用這種方式可以更好的防止對 文件格式發生誤判,并且特征簽名可以給出關于 文件格式的更 詳細的信息。這種方式的缺點是 效率較低。特别是顯示大量的文件時,由于每種特征簽名具有不同的識别方式,将消耗系統大量的資源對 文件格式進行判斷。 擴展名和後面将提到的 元數據方式由于采用固定格式數據,可進行快速匹配。 應用程序往往利用特征簽名來判斷文件是否完整和有效。

元數據

最後一種方式将 文件格式信息存放到 磁盤特定的位置。

采用這種方式, 元數據與文件本身分開存放。此法的缺點是可移植性差。因為不同的文件系統之間元數據可能需要轉換。

類型碼

蘋果計算機的文件系統為每個文件的目錄入口都存儲了創建者和類型碼。這些代碼稱作OSType。例如一個蘋果計算機創建的文件的創建者會是AAPL而類型也是APPL。RISC 操作系統采用類似的系統,用一個12比特位的數字索引描述表。例如:十六進制的FF5代表PoScript, 文件類型就是PostScript文件。

“四字符代碼 ”相同的概念在使用微軟的Windows操作系統。這個想法後來被重用在 QuickTime和 DirectShow中以确定壓縮數據類型。

幻數

幻數( 外語: magic number),它可以用來标記文件或者協議的格式,很多文件都有幻數标志來表明該文件的格式。

例如zip文檔的開頭标記一般為 PK(包、 外語全稱: P K),這是一種源于 磁盤操作系統時代的格式。

文件屬性

HPFS, NTFS, FAT12, FAT16, 及FAT32文件系統可以保存額外的文件屬性信息。它是由名字和與名字對應的值組成。例如擴展屬性“.type”用于判斷文件的類型,可能是值包括“Plain Text”或“HTML document”。一個文件可以有多種屬性。

擴充類型

多用途網際 郵件擴充(外國語縮寫: MIME)廣泛地用于許多Internet有關的應用,并且正在被廣泛地采用到其他的應用中。最初在 RFC 1341中說明。 MIME用一個類型/自類型表示文件的類型。例如: text/ html代表文件是 HTML文件,image/ gif表示 GIF文件。MIME最初是用于表示 電子郵件的附件的類型。

相關詞條

相關搜索

其它詞條