PHP定义文档元数据的简单介绍

PHP流(Stream)的概述与使用详解

在现代 PHP 特性中,流或许是最出色但使用率最低的。虽然 PHP 4.3 就引入了流,但是很多开发者并不知道流的存在,因为人们很少提及流,而且流的文档也很匮乏。PHP 官方文档对流的解释如下:

目前创新互联公司已为超过千家的企业提供了网站建设、域名、网页空间、网站托管、服务器托管、企业网站设计、常州网站维护等服务,公司将坚持客户导向、应用为本的策略,正道将秉承"和谐、参与、激情"的文化,与客户和合作伙伴齐心协力一起成长,共同发展。

可能看完这段解释后还是云里雾里,我们简化一下,流的作用是在出发地和目的地之间传输数据。出发地和目的地可以是文件、命令行进程、网络连接、ZIP 或 TAR 压缩文件、临时内存、标准输入或输出,或者是通过 PHP 流封装协议实现的任何其他资源。

如果你读写过文件,就用过流;如果你从 php://stdin 读取过数据,或者把输入写入 php://stdout ,也用过流。流为 PHP 的很多 IO 函数提供了底层实现,如 file_get_contents、fopn、fread 和 fwrite 等。PHP 的流函数提供了不同资源的统一接口。

我们可以把流比作管道,把水(资源数据)从一个地方引到另一个地方。在水从出发地到目的地的过程中,我们可以过滤水,可以改变水质,可以添加水,也可以排出水。

流式数据的种类各异,每种类型需要独特的协议,以便读写数据,我们称这些协议为 流封装协议 。例如,我们可以读写文件系统,可以通过 HTTP、HTTPS 或 SSH 与远程 Web 服务器通信,还可以打开并读写 ZIP、RAR 或 PHAR 压缩文件。这些通信方式都包含下述相同的过程:

1.开始通信

2.读取数据

3.写入数据

4.结束通信

虽然过程是一样的,但是读写文件系统中文件的方式与收发 HTTP 消息的方式有所不同,流封装协议的作用是使用通用的接口封装这种差异。

每个流都有一个协议和一个目标。指定协议和目标的方法是使用流标识符:scheme://target,其中 scheme 是流的封装协议,target 是流的数据源。

http://流封装协议

下面使用 HTTP 流封装协议创建了一个与 Flicker API 通信的 PHP 流:

不要以为这是普通的网页 URL,file_get_contents() 函数的字符串参数其实是一个流标识符。http 协议会让 PHP 使用 HTTP 流封装协议,在这个参数中,http 之后是流的目标。

我们通常使用 file_get_contents()、fopen()、fwrite() 和 fclose() 等函数读写文件系统,因为 PHP 默认使用的流封装协议是 file://,所以我们很少认为这些函数使用的是 PHP 流。下面的示例演示了使用 file:// 流封装协议创建一个读写 /etc/hosts 文件的流:

我们通常会省略掉 file:// 协议,因为这是 PHP 使用的默认值。

php://流封装协议

编写命令行脚本的 PHP 开发者会感激 php:// 流封装协议,这个流封装协议的作用是与 PHP 脚本的标准输入、标准输出和标准错误文件描述符通信。我们可以使用 PHP 提供的文件系统函数打开、读取或写入下面四个流:

1. php://stdin :这是个只读 PHP 流,其中的数据来自标准输入。PHP 脚本可以使用这个流接收命令行传入脚本的信息;

2. php://stdout :把数据写入当前的输出缓冲区,这个流只能写,无法读或寻址;

3. php://memory :从系统内存中读取数据,或者把数据写入系统内存。缺点是系统内存有限,所有使用 php://temp 更安全;

4. php://temp :和 php://memory 类似,不过,没有可用内存时,PHP 会把数据写入这个临时文件。

其他流封装协议

PHP 和 PHP 扩展还提供了很多其他流封装协议,例如,与 ZIP 和 TAR 压缩文件、FTP 服务器、数据压缩库、Amazon API、Dropbox API 等通信的流封装协议。需要注意的是,PHP 中的 fopen()、fgets()、fputs()、feof() 以及 fclose() 等函数不仅可以用来处理文件系统中的文件,还可以在所有支持这些函数的流封装协议中使用。

自定义流封装协议

我们还可以自己编写 PHP 流封装协议。PHP 提供了一个示例 StreamWrapper 类,演示如何编写自定义的流封装协议,支持部分或全部 PHP 文件系统函数。关于如何编写,具体请参考以下文档:

有些 PHP 流能够接受一系列可选的参数,这些参数叫流上下文,用于定制流的行为。不同的流封装协议使用的流上下文有所不同,流上下文使用 stream_context_create() 函数创建,这个函数返回的上下文对象可以传入大多数文件系统函数。

例如,你知道可以使用 file_get_contents() 发送 HTTP POST 请求吗?使用一个流上下文对象即可实现:

流过滤器

目前为止我们讨论了如何打开流,读取流中的数据,以及把数据写入流。不过,PHP 流真正强大的地方在于过滤、转换、添加或删除流中传输的数据,例如,我们可以打开一个流处理 Markdown 文件,在把文件内容读入内存的过程中自动将其转化为 HTML。

运行该脚本,输出的都是大写字母:

我们还可以使用 php://filter 流封装协议把过滤器附加到流上,不过,使用这种方式之前必须先打开 PHP 流:

这个方式实现效果和 stream_filter_append() 函数一样,但是相比之下更为繁琐。不过,PHP 的某些文件系统函数在调用后无法附加过滤器,例如 file() 和 fpassthru(),使用这些函数时只能使用 php://filter 流封装协议附加流过滤器。

自定义流过滤器

我们还可以编写自定义的流过滤器。其实,大多数情况下都要使用自定义的流过滤器,自定义的流过滤器是个 PHP 类,继承内置的 php_user_filter 类( ),且必须实现 filter()、onCreate() 和 onClose() 方法,最后,必须使用 stream_filter_register() 函数注册自定义的流过滤器。

然后,我们必须使用 stream_filter_register() 函数注册这个自定义的 DirtyWordsFilter 流过滤器:

第一个参数用于标识这个自定义过滤器的过滤器名,第二个参数是这个自定义过滤器的类名。接下来就可以使用这个自定义的流过滤器了:

修改 test.txt 内容如下:

运行上面的自定义过滤器脚本,结果如下:

stream_bucket_append函数:为队列添加数据 

stream_bucket_make_writeable函数:从操作的队列中返回一个数据对象

stream_bucket_new函数:为当前队列创建一个新的数据

stream_bucket_prepend函数:预备数据到队列 

stream_context_create函数:创建数据流上下文

stream_context_get_default函数:获取默认的数据流上下文

stream_context_get_options函数:获取数据流的设置

stream_context_set_option函数:对数据流、数据包或者上下文进行设置

stream_context_set_params函数:为数据流、数据包或者上下文设置参数

stream_copy_to_stream函数:在数据流之间进行复制操作

stream_filter_append函数:为数据流添加过滤器

stream_filter_prepend函数:为数据流预备添加过滤器

stream_filter_register函数:注册一个数据流的过滤器并作为PHP类执行

stream_filter_remove函数:从一个数据流中移除过滤器

stream_get_contents函数:读取数据流中的剩余数据到字符串

stream_get_filters函数:返回已经注册的数据流过滤器列表

stream_get_line函数:按照给定的定界符从数据流资源中获取行

stream_get_meta_data函数:从封装协议文件指针中获取报头/元数据

stream_get_transports函数:返回注册的Socket传输列表

stream_get_wrappers函数:返回注册的数据流列表

stream_register_wrapper函数:注册一个用PHP类实现的URL封装协议

stream_select函数:接收数据流数组并等待它们状态的改变

stream_set_blocking函数:将一个数据流设置为堵塞或者非堵塞状态

stream_set_timeout函数:对数据流进行超时设置

stream_set_write_buffer函数:为数据流设置缓冲区

stream_socket_accept函数:接受由函数stream_ socket_server()创建的Socket连接

stream_socket_client函数:打开网络或者UNIX主机的Socket连接

stream_socket_enable_crypto函数:为一个已经连接的Socket打开或者关闭数据加密

stream_socket_get_name函数:获取本地或者网络Socket的名称

stream_socket_pair函数:创建两个无区别的Socket数据流连接

stream_socket_recvfrom函数:从Socket获取数据,不管其连接与否

stream_socket_sendto函数:向Socket发送数据,不管其连接与否

stream_socket_server函数:创建一个网络或者UNIX Socket服务端

stream_wrapper_restore函数:恢复一个事先注销的数据包

stream_wrapper_unregister函数:注销一个URL地址包

整合资料

本文整合于以下两篇文章

PHP8新特性示例

命名参数 :就是具名参数,在调用函数的时候,可以指定参数名称,指定参数名称后,参数顺序可以不安装原函数参数顺序传

示例:

注解 :注解可以将类定义成一个一个低耦合,高内聚的元数据类。在使用的时候通过注解灵活引入,反射注解类实例的时候达到调用的目的。注解类只有在被实例化的时候才会调用

示例

示例:

解释 :在不确定参数类型的场景下,可以使用.

示例:

解释:和 switch case 差不多,但是严格要求 === 匹配

示例:

解释:简化了 is_null 判断

示例:

考虑到 PHP 动态语言类型的特性,现在很多情况下,联合类型都是很有用的。联合类型是两个或者多个类型的集合,表示可以使用其中任何一个类型。

请注意,联合类型中不包含 void ,因为 void 表示的含义是 “根本没有返回值”。 另外,可以使用 |null 或者现有的 ? 表示法来表示包含 nullable 的联合体 :

JIT — just in time — 编译器虽然不总是在 Web 请求的上下文中,但是有望显著地提高性能。目前还没有完成任何准确的基准测试,但是肯定会到来。

属性在其他语言中通常被称为 注解 ,提供一种在无需解析文档块的情况下将元数据添加到类中的方法。

尽管已经可以返回 self,但是 static 直到 PHP 8 才是有效地返回类型 。考虑到 PHP 具有动态类型的性质,此功能对于许多开发人员将非常有用。

有人可能将其称为必要的邪恶: mixed 类型让许多人感觉十分混乱。然而,有一个很好的论据支持去实现它:缺少类型在 PHP 中会导致很多情况:

因为上述原因,添加 mixed 类型是一件很棒的事儿。 mixed 本身代表下列类型中的任一类型:

请注意,mixed 不仅仅可以用来作为返回类型,还可以用作参数和属性类型。因为 mixed 类型已经包括了 null,因此 mixed 类型不可为空。下面的代码会触发致命错误:

已上是整理出来的新特性的变化,后续会继续整理,PHP8的发布会让PHP更上一层楼,相信PHP是世界上最好的语言!

什么是元数据

元数据(Meta Data)是关于数据仓库的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息,所有这些信息都应当妥善保存,并很好地管理。为数据仓库的发展和使用提供方便。

元数据是一种二进制信息,用以对存储在公共语言运行库可移植可执行文件 (PE) 文件或存储在内存中的程序进行描述。将您的代码编译为 PE 文件时,便会将元数据插入到该文件的一部分中,而将代码转换为 Microsoft 中间语言 (MSIL) 并将其插入到该文件的另一部分中。在模块或程序集中定义和引用的每个类型和成员都将在元数据中进行说明。当执行代码时,运行库将元数据加载到内存中,并引用它来发现有关代码的类、成员、继承等信息。

元数据以非特定语言的方式描述在代码中定义的每一类型和成员。元数据存储以下信息:

程序集的说明。

标识(名称、版本、区域性、公钥)。

导出的类型。

该程序集所依赖的其他程序集。

运行所需的安全权限。

类型的说明。

名称、可见性、基类和实现的接口。

成员(方法、字段、属性、事件、嵌套的类型)。

属性。

修饰类型和成员的其他说明性元素。

一、元数据的优点

对于一种更简单的编程模型来说,元数据是关键,该模型不再需要接口定义语言 (IDL) 文件、头文件或任何外部组件引用方法。元数据允许 .NET 语言自动以非特定语言的方式对其自身进行描述,而这是开发人员和用户都无法看见的。另外,通过使用属性,可以对元数据进行扩展。元数据具有以下主要优点:

自描述文件。

公共语言运行库模块和程序集是自描述的。模块的元数据包含与另一个模块进行交互所需的全部信息。元数据自动提供 COM 中 IDL 的功能,允许将一个文件同时用于定义和实现。运行库模块和程序集甚至不需要向操作系统注册。结果,运行库使用的说明始终反映编译文件中的实际代码,从而提高应用程序的可靠性。

语言互用性和更简单的基于组件的设计。

元数据提供所有必需的有关已编译代码的信息,以供您从用不同语言编写的 PE 文件中继承类。您可以创建用任何托管语言(任何面向公共语言运行库的语言)编写的任何类的实例,而不用担心显式封送处理或使用自定义的互用代码。

二、属性。

.NET Framework 允许您在编译文件中声明特定种类的元数据(称为属性)。在整个 .NET Framework 中到处都可以发现属性的存在,属性用于更精确地控制运行时您的程序如何工作。另外,您可以通过用户定义的自定义属性向 .NET Framework 文件发出您自己的自定义元数据。有关更多信息,请参见利用属性扩展元数据。

三、元数据的意义

说到元数据的意义,可以从其应用目的来谈的。虽然做数据仓库言必称元数据,必称技术、业务元数据,但其到底用于何处?离开了目标去谈元数据,就发现元数据包含太多的东西,因为他是描述数据的数据嘛。

还是那客户关系系统来比喻,这个系统维护客户信息当然是有目的的,是要用这些信息进行一些自动的流程处理、去挖掘一些客户潜在的价值、做好客户服务。当然没有必要去维护客户的生命特征信息,诸如指纹、犯罪史等,这些信息跟客户关系管理的目标关系不大。元数据也是如此,你可以将所以数据的结构、大小、什么时间创建、什么时间消亡、被那些人使用等等,这些信息可以延伸得太广,如果不管目标,而试图去建一个非常完美的元数据管理体系,这是一种绝对的"自上而下"做法,必败无疑。

四、元数据列举

基于应用,可以将元数据分成以下的若干中。

数据结构:数据集的名称、关系、字段、约束等;

数据部署:数据集的物理位置;

数据流:数据集之间的流程依赖关系(非参照依赖),包括数据集到另一个数据集的规则;

质量度量:数据集上可以计算的度量;

度量逻辑关系:数据集度量之间的逻辑运算关系;

ETL过程:过程运行的顺序,并行、串行;

数据集快照:一个时间点上,数据在所有数据集上的分布情况;

星型模式元数据:事实表、维度、属性、层次等;

报表语义层:报表指标的规则、过滤条件物理名称和业务名称的对应;

数据访问日志:哪些数据何时被何人访问;

质量稽核日志:何时、何度量被稽核,其结果;

数据装载日志:哪些数据何时被何人装载;

五、元数据开发应用的标准化框架

1、数字图书馆资源组织框架

2. 元数据开发应用框架

2.1 元数据的基本意义 Metadata(元数据)是“关于数据的数据”;

元数据为各种形态的数字化信息单元和资源集合提供规范、普遍的描述方法和检索工具;

元数据为分布的、由多种数字化资源有机构成的信息体系(如数字图书馆)提供整合的工具与纽带。

离开元数据的数字图书馆将是一盘散沙,将无法提供有效的检索和处理。

3. 元数据应用环境

3.1 Metadata的应用目的

(1)确认和检索(Discovery andentification),主要致力于如何帮助人们检索和确认所需要的资源,数据元素往往限于作者、标题、主题、位置等简单信息,Dublin Core是其典型代表。

(2)著录描述(Cataloging),用于对数据单元进行详细、全面的著录描述,数据元素囊括内容、载体、位置与获取方式、制作与利用方法、甚至相关数据单元方面等,数据元素数量往往较多,MARC、GILS和FGDC/CSDGM是这类Metadata的典型代表。

(3)资源管理(Resource Administration),支持资源的存储和使用管理,数据元素除比较全面的著录描述信息外,还往往包括权利管理(Rights/Privacy Management)、电子签名(Digital Signature)、资源评鉴(Seal of Approval/Rating)、使用管理(Access Management)、支付审计(Payment and Accounting)等方面的信息。

(4)资源保护与长期保存(Preservation and Archiving),支持对资源进行长期保存,数据元素除对资源进行描述和确认外,往往包括详细的格式信息、制作信息、保护条件、转换方式(Migration Methods)、保存责任等内容。

3.2 Metadata在不同领域的应用 根据不同领域的数据特点和应用需要,90年代以来,许多Metadata格式在各个不同领域出现

例如:

网络资源:Dublin Core、IAFA Template、CDF、Web Collections

文献资料:MARC(with 856 Field),Dublic Core

人文科学:TEI Header

社会科学数据集:ICPSR SGML Codebook

博物馆与艺术作品:CIMI、CDWA、RLG REACH Element Set、VRA Core

政府信息:GILS

地理空间信息:FGDC/CSDGM

数字图像:MOA2 metadata、CDL metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Images

档案库与资源集合:EAD

技术报告:RFC 1807

连续图像:MPEG-7

3.3 Metadata格式的应用程度

不同领域的Metadata处于不同的标准化阶段:

在网络资源描述方面,Dublin Core经过多年国际性努力,已经成为一个广为接受和应用的事实标准;

在政府信息方面,由于美国政府大力推动和有关法律、标准的实行,GILS已经成为政府信息描述标准,并在世界若干国家得到相当程度的应用,与此类似的还有地理空间信息处理的FGDC/CSDGM;

但在某些领域,由于技术的迅速发展变化,仍然存在多个方案竞争,典型的是数字图像的Metadata,现在提出的许多标准都处于实验和完善的阶段。

3.4 Metadata格式“标准化”程度问题

Metadata开发应用经验表明,很难有一个统一的Metadata格式来满足所有领域的数据描述需要;即使在同一个领域,也可能为了不同目的而需要不同的但可相互转换的Metadata格式。

同时,统一的集中计划式的Metadata格式标准也不适合Internet环境,不利于充分利用市场机制和各方面力量。

但在同一领域,应争取“标准化”,在不同领域,应妥善解决不同格式的互操作问题。

4. 元数据结构

4.1 总体结构定义方式 一个Metadata格式由多层次的结构予以定义:

(1)内容结构(Content Structure),对该Metadata的构成元素及其定义标准进行描述。

(2)句法结构(Syntax Structure),定义Metadata结构以及如何描述这种结构。

(3)语义结构(Semantic Structure),定义Metadata元素的具体描述方法。

4.2 内容结构

内容结构定义Metadata的构成元素,可包括: 描述性元素、技术性元素、管理性元素、结构性元素(例如与编码语言、Namespace、数据单元等的链接)。

这些数据元素很可能依据一定标准来选取,因此元数据内容结构中需要对此进行说明,例如MARC记录所依据的ISBD,EAD所参照的ISAD(G),ICPSR所依据的ICPSR Data Preparation Manual。

4.3 句法结构

句法结构定义格式结构及其描述方式,例如元素的分区分段组织、元素选取使用规则、元素描述方法(例如Dublin Core采用ISO/IEC 11179标准)、元素结构描述方法(例如MARC记录结构、SGML结构、XML结构)、结构语句描述语言(例如EBNF Notation)等。

有时,句法结构需要指出元数据是否与所描述的数据对象捆绑在一起、或作为单独数据存在但以一定形式与数据对象链接,还可能描述与定义标准、DTD结构和Namespace等的链接方式。

4.4 语义结构 语义结构定义元素的具体描述方法,例如 描述元素时所采用的标准、最佳实践(Best Practices)或自定义的描述要求(Instructions)。

有些元数据格式本身定义了语义结构,而另外一些则由具体采用单位规定语义结构,例如Dublin Core建议日期元素采用ISO 8601、资源类型采用Dublin Core Types、数据格式可采用MIME、识别号采用URL或DOI或ISBN;

又如OhioLink在使用VRA Core时要求主题元素使用AAT、TGM和TGN,人名元素用ULAN。

5. 元数据编码语言与制作方式

5.1 元数据编码语言

元数据编码语言(Metadata Encoding Languages)指对元数据元素和结构进行定义和描述的具体语法和语义规则,常称为定义描述语言(DDL)。

在元数据发展初期人们常使用自定义的记录语言(例如MARC)或数据库记录结构(如ROADS等),但随着元数据格式的增多和互操作的要求,人们开始采用一些标准化的DDL来描述元数据,例如SGML和XML,其中以XML最有潜力。

5.2 元数据制作方式

(1)专门编制模块(例如对MARC、GILS、FGDC等)

(2)数据处理时自动编制(例如对Dublin Core等)

(3)数据物理处理时自动编制(例如数字图像扫描时的某些元数据参数)

(4)共享元数据(例如OCLC/CORC、IMESH

6. 元数据互操作性

6.1 元数据互操作性问题

由于不同的领域(甚至同一领域)往往存在多个元数据格式,当在用不同元数据格式描述的资源体系之间进行检索、资源描述和资源利用时,就存在元数据的互操作性问题(Interoperability):

多个不同元数据格式的释读、转换和由多个元数据格式描述的数字化信息资源体系之间的透明检索。

6.2 元数据格式映射

利用特定转换程序对不同元数据元格式进行转换,称为元数据映射(Metadata Mapping/Crosswalking)。

目前已有大量的转换程序存在,供若干流行元数据格式之间的转化,例如

Dublin Core与USMARC; Dublin Core与EAD

Dublin Core与GILS; GILS与MARC TEI

Header与MARC FGDC与MARC

也可利用一种中介格式对同一格式框架下的多种元数据格式进行转换,例如UNIverse项目利用GRS格式进行各种MARC格式和其它记录格式的转换。格式映射转换准确、转换效率较高。不过,这种方法在面对多种元数据格式并存的开放式环境中的应用效率明显受到限制。

6.3 标准描述框架

解决元数据互操作性的另一种思路是建立一个标准的资源描述框架,用这个框架来描述所有元数据格式,那么只要一个系统能够解析这个标准描述框架,就能解读相应的Metadata格式. 实际上,XML和RDF从不同角度起着类似的作用。

XML通过其标准的DTD定义方式,允许所有能够解读XML语句的系统辨识用XML_DTD定义的Metadata格式,从而解决对不同格式的释读问题。

RDF定义了由Resources、Properties和Statements等三种对象组成的基本模型,其中Resources和Properties关系类似于E-R模型,而Statements则对该关系进行具体描述。

RDF通过这个抽象的数据模型为定义和使用元数据建立一个框架,元数据元素可看成其描述的资源的属性。

进一步地,RDF定义了标准Schema,规定了声明资源类型、声明相关属性及其语义的机制,以及定义属性与其它资源间关系的方法。另外,RDF还规定了利用XML Namespace方法调用已有定义规范的机制,

6.4 数字对象方式

建立包含元数据及其转换机制的数字对象可能从另一个角度解决元数据互操作性问题。

Cornell/FEDORA项目提出由内核(Structural Kernel)和功能传播层(Disseminator Layer)组成的复合数字对象。

内核里,可以容纳以比特流形式存在的文献内容、描述该文献的元数据、以及对这个文献及元数据进行存取控制的有关数据。

功能传播层,主功能传播器(PrimitiveDisseminator)支持有关解构内核数据类型和对内核数据读取的服务功能,还可有内容类型传播器(Content-Type Disseminators),它们可内嵌元数据格式转换机制。

例如,在一个数字对象的内核中存有MARC格式的元数据,在功能传播层装载有请求Dublin Core格式及其转换服务的内容类型传播器。当数字对象使用者要求读取以Dublin Core表示的元数据时,相应的内容类型传播器将通过网络请求存储有Dublin Core及其转换服务程序的数字对象,然后将被请求数字对象中的MARC形式元数据转换为Dublin Core形式,在输出给用户。

7. 几点建议

跟踪元数据发展、积极参与制定元数据标准、加快元数据应用、注意国际接轨。

加快研究有效利用元数据进行检索(包括异构系统透明检索)、相关性学习、个性化处理等的机制。

加快研究元数据与数字对象和数字化资源体系有机整合的途径与方法。

推进研究利用元数据进行基于知识的数据组织和知识发现。


本文题目:PHP定义文档元数据的简单介绍
网址分享:http://csdahua.cn/article/hceech.html
扫二维码与项目经理沟通

我们在微信上24小时期待你的声音

解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流